语料库资源————(三)

简介: 语料库资源在线: http://www.cncorpus.org/Resources.aspx   语料库文档资料   国家语委现代汉语语料库介绍   ※下载次数:5481    国家语委现代汉语语料库词类标记集   ※下载次数:3894    国家语委现代汉标注语料库数据及使用说明   ※下载次数:4797   在线语料库字词频数据   现代汉语语料库词频表:在线现代语料库词频数据。

语料库资源在线:

http://www.cncorpus.org/Resources.aspx

X  语料库文档资料
X   国家语委现代汉语语料库介绍   ※下载次数:5481 
X   国家语委现代汉语语料库词类标记集   ※下载次数:3894 
X   国家语委现代汉标注语料库数据及使用说明   ※下载次数:4797 
X  在线语料库字词频数据
X   现代汉语语料库词频表:在线现代语料库词频数据。   ※下载次数:10266 
X   现代汉语语料库分词类词频表:在线现代语料库带词类标注的词频数据。   ※下载次数:6860 
X   现代汉语语料库字频表:在线现代汉语语料库字频数据。   ※下载次数:4874 
X   古代汉语语料库字频表:在线古代汉语语料库字频数据。   ※下载次数:3256 
X  语料处理软件工具
X   汉语拼音标注工具:本站开发,用于对汉语文本自动标注拼音。   ※下载次数:3184 
X   分词和词性标注工具:本站开发,用于对汉语文本进行分词和词性标注。   ※下载次数:7412 
X   字词频率统计工具:本站开发,用于统计汉语文本字、词的出现频率,并生成字、词频率表。   ※下载次数:6252 
X  现代汉语字表
X   现代汉语常用字表:现代汉语3500常用字表,国家语言文字工作委员会1988年1月发布。   ※下载次数:4326 
X   现代汉语通用字表:现代汉语7000通用字表,国家语言文字工作委员会、新闻出版总署1988年发布。   ※下载次数:3374 
X   通用规范汉字表:通用规范汉字表收字8105个,其中一级字3500个,二级字3000个,三级字1605个。X   ※下载次数:528 

其他

北京大学《人民日报》标注语料库:http://www.icl.pku.edu.cn

北京语言大学的语料库:http://www.blcu.edu.cn/kych/H.htm

清华大学的汉语均衡语料库TH-ACorpushttp://www.lits.tsinghua.edu.cn/ainlp/source.htm

山西大学的语料库http://www.sxu.edu.cn/homepage/cslab/sxuc1.htm

台湾中研院的语料库:

现代汉语平衡语料库:http://www.sinica.edu.tw/SinicaCorpus

 http://www.sinica.edu.tw/~tibe/2-words/modern-words/ 
 http://www.sinica.edu.tw/ftms-bin/kiwi.sh

近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/

古汉语语料库:http://www.sinica.edu.tw/ftms-bin/ftmsw3

 http://www.eastasian.ucsb.edu/projects/scriptasinica/cgi-bin/ghy/kiwi.cgi 
            
 http://www.sinica.edu.tw/~tibe/2-words/old-words/

台湾南岛语典藏:http://www.ling.sinica.edu.tw/Formosan/

闽南语典藏:http://southernmin.sinica.edu.tw/

汉籍电子文献:http://www.sinica.edu.tw/~tdbproj/handy1/

 http://www.sinica.edu.tw/ftms-bin/ftmsw3

香港城市大学的LIVAC共时语料库:http://www.rcl.cityu.edu.hk/livac/

或 http://www.LIVAC.org

浙江师范大学的历史文献语料库: http://lib.zjnu.net.cn/xueke/hyywzx/xkjj.htm

中国科学院计算所的双语语料库:http://mtgroup.ict.ac.cn/corpus/query_process.php

中文语言资源联盟:http://www.chineseldc.org/xyzy.htm

網站名稱 網址及簡介

古漢語語料庫

http://www.sinica.edu.tw/ftms-bin/ftmsw3 
http://www.sinica.edu.tw/~tibe/2-words/old-words/

古漢語語料庫包含以下五個語料庫: 上古漢語、中古漢語(含大藏經)、近代漢語、其他、出土文獻。部分資料取自史語所漢籍全文資料庫,故兩者間略有重疊。此語料庫之出土文獻語料庫,全部取自史語所漢簡小組所製作的資料庫。

近代漢語標記語料庫

http://www.sinica.edu.tw/Early_Mandarin/

為應漢語史研究需求而建構的語料庫。目前素語料庫所蒐集的語料已含蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以後)大部分的重要語料,並己陸續開放使用;在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注的工作,並視結果逐步提供上線檢索。

現代漢語平衡語料庫

http://www.sinica.edu.tw/SinicaCorpus/ 或
http://www.sinica.edu.tw/~tibe/2-words/modern-words/ 或
http://www.sinica.edu.tw/ftms-bin/kiwi.sh

主要針對語言分析而設計,由中央研究院資訊所、語言所詞庫小組完成,內含有簡介、使用說明,現行的語料庫是4.0的版本。

唐詩三百首

http://cls.admin.yzu.edu.tw/300/

以國中、小學學生為主要使用對象,提供吟唱、繪畫、書法等多媒體資料,文字資料包含作者生平、讀音標注、翻譯、註解、評註、典故出處等資料;檢索點包含作者、詩題、詩句、綜合資料、體裁分類等;檢索結果可以列出全文,並選擇標示相關之文字及多媒體資料。並提供了一套可以自動檢查格律、韻腳、批改的「依韻入詩格律自動檢測索引教學系統」,協助孩子們依韻作詩,協助教師批改習作。

樹圖資料庫 http://treebank.sinica.edu.tw/

「中文句結構樹資料庫」是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中,抽取句子,經由電腦剖析成,結構樹並加以人工修正、檢驗後的所得的成果。在中文句結構樹中標示了中文句語意和語法的訊息。 目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。

中英雙語知識本體詞網 http://bow.sinica.edu.tw/

結合詞網,知識本體,與領域標記的詞彙知識庫。

搜文解字 http://words.sinica.edu.tw/

包含「搜詞尋字」、「文學之美」、「遊戲解惑」、「古文字的世界」四個單元,可由部件、部首、字、音、詞互查,並可查詢在四書、老、莊、唐詩中的出處,及直接連結到出處,閱讀原文。

文國尋寶記 http://www.sinica.edu.tw/wen/

在搜文解字的基礎之上,以華語文學習者為對象,進一步將字、詞、音的檢索功能與國編、華康、南一等三種版本的國小國語課本結合,與唐詩三百首、宋詞三百首、紅樓夢、水滸傳等文學典籍結合,提供網路上國語文學習的素材。

漢籍電子文獻 http://www.sinica.edu.tw/~tdbproj/handy1/

包含整部25史 整部阮刻13經、超過2000萬字的臺灣史料、1000萬字的大正藏以及其他典籍。

紅樓夢網路教學研究資料中心 http://cls.hs.yzu.edu.tw/HLM/home.htm

元智大學中國文學網路系統研究室所開發的「網路展書讀—中國文學網路系統」,為研究中心負責人羅鳳珠老師主持,紅樓夢是其中一個子系統,其他還包括善本書、詩經、唐宋詩詞、作詩填詞等子系統。此網站為國內Internet最大中國文學研究資料庫,提供使用者最完整的中國文學研究資料。


目录
相关文章
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】使用哪些资源来了解 LLM 的最新进展?
【5月更文挑战第9天】【大模型】使用哪些资源来了解 LLM 的最新进展?
|
13天前
|
存储 机器学习/深度学习 算法
如何准确的估计llm推理和微调的内存消耗
最近发布的三个大型语言模型——Command-R+ (104B参数), Mixtral-8x22b (141B参数的MoE模型), 和 Llama 3 70b (70.6B参数)——需要巨大的内存资源。推理时,Command-R+需193.72GB GPU RAM,Mixtral-8x22B需262.63GB,Llama 370b需131.5GB。激活的内存消耗根据序列长度、批大小等因素变化。文章详细介绍了计算这些模型内存需求的方法,并探讨了如何通过量化、优化器优化和梯度检查点减少内存使用,以适应微调和推理。
40 0
|
12月前
|
自然语言处理 计算机视觉
单一ViT模型执行多模态多任务,谷歌用协同训练策略实现多个SOTA
单一ViT模型执行多模态多任务,谷歌用协同训练策略实现多个SOTA
219 0
|
7月前
|
计算机视觉
【多标签文本分类】《采用平衡函数的大规模多标签文本分类》
使用最常见的BERT+fc的多标签文本分类模型,只是改进了一下损失函数。
|
9月前
|
存储 算法 搜索推荐
语义检索系统:基于无监督训练SimCSE+In-batch Negatives策略有监督训练的语义索引召回
语义检索系统:基于无监督训练SimCSE+In-batch Negatives策略有监督训练的语义索引召回
语义检索系统:基于无监督训练SimCSE+In-batch Negatives策略有监督训练的语义索引召回
|
10月前
|
机器学习/深度学习 自然语言处理 分布式计算
零样本文本分类——低资源场景下文本分类的利器(1)
零样本文本分类——低资源场景下文本分类的利器
|
10月前
|
缓存 自然语言处理 测试技术
零样本文本分类——低资源场景下文本分类的利器(2)
零样本文本分类——低资源场景下文本分类的利器
|
12月前
|
测试技术 PyTorch TensorFlow
Yolov5-6.2 正式发布 | Yolov5 也可以训练分类模型啦,语义分割+实例分割很快到来
Yolov5-6.2 正式发布 | Yolov5 也可以训练分类模型啦,语义分割+实例分割很快到来
404 0
|
12月前
|
编解码 数据可视化 测试技术
基于一致性的半监督语义分割方法:刷新多项SOTA,还有更好泛化性
基于一致性的半监督语义分割方法:刷新多项SOTA,还有更好泛化性
188 0