欧美精品123_精品露脸国产偷人在视频_日韩美女免费线视频_成人av三级

干貨|國內最常用的17個語料庫,收藏(食堂常用干貨大全)

本文的標題是《干貨|國內最常用的17個語料庫,收藏》來源于:由作者:陳銳烯采編而成,主要講述了通用單語語料庫
01國家語委現代漢語通用平衡語料庫
該語料庫是由國家語言文字工作委員會主持,面向語言文字信


干貨|國內最常用的17個語料庫,收藏(食堂常用干貨大全)

通用單語語料庫

01國家語委現代漢語通用平衡語料庫

語料庫是由國家語言文字工作委員會主持,面向語言文字信息處理、語言文字規范和標準的制定、語言文字的學術研究、語文教育以及語言文字的社會應用,總體規模達1 億字,語料時間跨度為1919-2002年,收錄了人文與社會科學、自然科學及綜合三個大類約40個小類的語料(http://www.cncorpus.org)。其中標注語料庫為國家語委現代漢語通用平衡語料庫全庫的子集,該子集是按照預先設計的選材原則進行平衡抽樣,對語料進行分詞和詞類標注,并經過三次人工校對,最后得到約5000萬字符的標注語料庫。


干貨|國內最常用的17個語料庫,收藏(食堂常用干貨大全)

(圖片來源:全景視覺)

02北京語言大學語料庫中心BCC語料庫

BCC語料庫(http://bcc.blcu.edu.cn)是以漢語為主,兼有英語、西班牙語、法語、德語、土耳其語等語言的語料庫,其中漢語語料規模約150億字,涵蓋了報刊、文學、微博、科技、綜合和古漢語等多領域語料。BCC語料庫包括了生語料、分詞語料、詞性標注語料和句法樹,目前已對現代漢語、英語、法語的語料進行詞性標注。

03清華TH語料庫

清華TH語料庫(http://www.openslr.org/18)于1994年6月建成,其總庫根據對語料加工深度的不同采用分級管理的原則,分成了生語料和熟語料兩大類,其中0級生語料分庫涵蓋了一般書、報紙、論文、雜志、工具書等五類子庫語料素材。經過近年來不斷的升級和更新,已更名為THCHS-30語料庫。

04北京大學CCL語料庫

CCL語料庫(http://ccl.pku.edu.cn:8080/ccl_corpus/index/jsp?=xiandai)中包含現代漢語語料、古代漢語語料兩類單語語料,涉及的文獻時間從公元前11世紀到當代。其中現代漢語語料約6 億字符,涵蓋了文學、戲劇、報刊、翻譯作品、網絡語料、應用文、電視電影、學術文獻、史傳、相聲小品、口語等多個類型。CCL語料庫中古代漢語語料約2億字符,收錄了從周代到民國的語料及大藏經、二十五史、歷代筆記、十三經注疏、全唐詩、諸子百家、全元曲、全宋詞、道藏、辭書、蒙學讀物等的雜類語料。除了兩大單語語料庫的擴容外,近年來CCL語料庫還融入了一些專題語料庫,例如:早期北京話材料、留學生漢語作文語料、漢語構式語料庫、中文學術文獻語料庫、海外華文網絡語料等等。

05**日報標注語料庫

該語料庫是我國第一個大型的現代漢語標注語料庫,以《**日報》1998年的純文本語料為基礎,完成詞語切分、詞性標注、專有名詞標注、語素子類標注、動詞和形容詞特殊用法標注、短語型標注等加工工作,現已擴充至3500萬字的規模。后來北京大學計算語言學研究所在此基礎上完成了另外100萬字語料的詞語切分、詞性標注和漢語拼音標注的加工任務,還利用所研制的《現代漢語語義詞典》、參照《現代漢語詞典》,根據語料實際使用情況對詞義描寫進行調整,研發了一個大規模、高質量的現代漢語詞義標注語料庫(Chinese Word Sense Tagging Corpus,STC)

為了彌補北京大學**日報語料庫用于處理當前文本時的不足,2019年開始南京農業大學人文與社會計算研究中心以2015年至2018年《**日報》發表的文章為對象,構建了新時代**日報語料庫(簡稱NEPD,http://corpus.njau.edu.cn/,目前該語料庫涵蓋了《**日報》2015 年1-5 月、2016年1月、2017年1月、2018 年1月共9個月的分詞語料,并且后續將不斷補充最新語料 。

06清華漢語樹庫(TshinghuaChineseTreebank,TCT )

該語料庫從包含文學、學術、**、應用四大體裁的200萬漢字平衡語料庫中提取了100萬漢字規模的語料文本,經過自動斷句、句法分析后再進行人工校對,形成了有完整句法結構樹的漢語句法樹庫語料。

漢英雙語平行語料庫

07**科學院漢英平行語料庫

**科學院漢英平行語料庫是在對中英文篇章對齊的雙語文本進行段落對齊、句子對齊加工后建立的一個句子級對齊的雙語語言信息和知識庫,該語料庫借助互聯網等其他媒體搜集中英文篇章級對齊的雙語文本,面向多領域多體裁,采用基于雙語辭典的句子對齊方法進行了文本對齊,并對雙語文本句子對齊結果實現自動評價。

08南京大學雙語詞典研究中心英漢雙語平行語料庫(NJU_BDRCBC)

該語料庫的總體規模共約200萬對英漢平行句對,英語和漢語詞例數高達2億詞次,其素材一方面來源于南京大學雙語詞典中心擁有自主知識產權的雙語辭書標準數據以及英漢雙語對照文獻,另一方面也面向網絡獲取了大量的英漢雙語平行對語料。南京大學雙語詞典研究中心還跟商務印書館聯合開發了CONULEXID(The Commercial Press and Nanjing University Lexical Database) 英漢語言資料庫,該語料庫系統于1994年正式開始創建,并于1997年通過驗收。

09清華大學中英平行語料庫

清華大學中英平行語料庫(http://thumt.thunlp.org/)由清華大學自然語言處理與社會人文計算實驗室在國家“863 計劃” 項目“ 互聯網語言翻譯系統研制” 的支持下,利用自身研發的互聯網平行網頁獲取軟件和雙語句子自動對齊軟件獲取并處理得到的,共包含285萬中英平行句對。

其他漢外平行語料庫

10北京大學計算語言研究所雙語平行語料庫

該語料庫為大型漢英、漢日雙語語料庫,包含漢英句子級對齊語料20萬句對、漢日句子級對齊語料2萬句對、漢英詞匯級對齊語料1萬對,旨在為機器翻譯等應用系統的研發提供基礎資源和標準的評測語料 。

11北京外國語大學雙語平行語料庫

由王克非負責構建的漢英和漢日兩個平行語料庫目前仍在建設中。該語料庫包括2000萬字的日漢對譯文本語料庫和3000萬字詞的通用型漢英平行語料庫兩個部分。目前2000萬字的日漢對譯文本語料庫的平行對應語料分為文學與非文學、漢譯日和日譯漢存放,做到段落級對齊,運用所研制的檢索工具可對漢日語料做各種詞語、短語、句型和搭配上的檢索。通用型漢英平行語料庫分為,“百科語料庫”“翻譯文本庫”“雙語語句庫”以及“專科語料庫”四個子庫,目前3000萬字詞語料已基本做到句級對齊,其中2000萬字詞語料已完成最終校對、標注、雙語鏈接。

12南京農業大學典籍平行語料庫

基于十三經、《戰國策》、前四史等典籍及其所對應的白話文和英文翻譯,南京農業大學王東波結合深度學習相應模型設計了句對齊的算法,實現了古文句子與白話文和英文的對齊,并對古文、白話文和英文進行了分詞、詞性和實體標注,形成了獨具特色的典籍平行語料庫 。

其他特色語料庫

13漢語中介語語料庫

漢語中介語語料庫(http://qqk.blcu.edu.cn/#/login)由北京語言大學( 原北京語言學院于1992年開始建設。該語料庫立足于漢語教學已收錄1635位外國學生共5774篇成篇成段的漢語作文或練習材料,總字數約353萬,其中1731 篇約104萬字的語料經過斷句、分詞和詞性標注等加工處理。目前該全球漢語中介語料庫仍處于努力建設過程中,北京語言大學仍然努力于建設全球漢語中介語語料庫,其規模預計達5000萬字,包括筆語語料、口語語料和多模態子庫。筆語語料規模預計達4500萬字,其中2000萬字將加工成為熟語料;口語語料450小時,約合400萬字;多模態語料110小時,約合100萬字。

14HSK動態作文語料庫

該語料庫(http://hsk.blcu.edu.cn/Login)收錄了1992-2005年部分母語非漢語的外國人參加高等漢語水平考試(HSK高等) 的作文考試的答卷語料,2006年12月上線語料庫1.0版本,現已上線語料庫2.0版本,語料總數達11569篇,共計424萬字。除此之外,北京語言大學還建立了首都外國留學生漢語文本語料庫、漢語學習者口語語料庫等多種類型的漢語語料庫。北京語言大學多個語料庫的問世及相關的研究成果激勵了更多學者和單位投入到教學導向的語料庫的建設中,已知語料庫有:中山大學建立的留學生中介語語料庫、漢語連續性中介語料庫、廣東外語外貿大學與蘭卡斯特大**合建立的Guangwai Lancaster漢語學習者語料庫等。

15**傳媒大學有聲媒體文本語料庫

該語料庫(http://ling.cuc.edu.cn/Raw-Pub/)由**傳媒大學國家語言資源檢測與研究有聲媒體中心開發,2003年開始建設,2005年上線,其后不斷擴大語料規模, 并于2016年進行了第三次改版。該語料庫包括2008-2013年的3萬多個廣播、電視節目的轉寫文本,總字符數達到2.4 億個,并對所有文本進行了自動分詞和詞性標注。

16名著漢英平行語料庫

《紅樓夢》漢英平行語料庫是國內第一個根據譯者選用原底本所做的句級對齊平行語料庫,它的成功發布可為“紅學” 不同英譯本的研究提供客觀科學的平臺,為翻譯教學提供豐富的資源,為翻譯理論探討提供基本素材 。莎士比亞戲劇英漢平行語料庫由上海交通大學的學者研究構建,容量約600萬字詞。該語料庫由英文原文和三個版本的譯文構成,在分詞的基礎上實現了詞性標注,以及人物對話層面的對齊,該庫可以展開一對一及一對多的平行檢索,為莎劇翻譯研究和語言研究提供了寶貴資源 。

17少數民族語言語料庫

除了漢語相關語料庫之外,國內少數民族語言語料庫的構建研究工作也正在逐步發展,尤其是蒙古族、**爾族、藏族等幾個少數民族的語料庫。現代蒙古語語料庫,由內蒙古大學蒙古語文研究所于1998年構建完成,總規模達5000萬詞,涵蓋了文科教材、理科教材、文學、**、政治、社會科學、自然科學、口語等類型語料。內蒙古大學蒙古語文研究所在2003年開始建設漢蒙雙語語料庫,該語料庫總規模達10萬個句對,為蒙古文信息處理、語言教學、漢蒙雙語研究和漢蒙雙語詞典的編纂等工作的發展奠定了基礎。現代**爾語語料庫,由新疆大學于2002年開始建設,生語料規模達800萬詞。**大學大型藏文語料庫,總規模高達1.5億藏文字符,其中3000萬藏文字符經過分詞和詞性標注加工 。除此之外,還有200萬詞的新疆師范大學**爾語語料庫、規模約1億3千萬字節的西北民族大學大型藏文語料庫、500萬藏語字符的**社會科學院民族學語人類學研究所藏語語料庫等。

干貨|國內最常用的17個語料庫,收藏(食堂常用干貨大全)
本文原作者為陳銳烯,轉載請注明:出處!如該文有不妥之處,請聯系站長刪除,謝謝合作~

原創文章,作者:陳銳烯,如若轉載,請注明出處:http://www.uuuxu.com/20220512316367.html

主站蜘蛛池模板: 荣昌县| 天镇县| 苗栗市| 故城县| 马山县| 武冈市| 鹰潭市| 阜阳市| 临城县| 丁青县| 南汇区| 曲松县| 寻乌县| 龙泉市| 谷城县| 陵川县| 镇沅| 深水埗区| 昌邑市| 临沭县| 尤溪县| 平泉县| 沙洋县| 怀柔区| 枝江市| 台东市| 商河县| 商洛市| 安丘市| 宿州市| 瑞金市| 青川县| 石楼县| 垦利县| 曲沃县| 泉州市| 浦县| 沁源县| 高雄县| 大新县| 炎陵县|