语料库资源————（三）

2017-02-15 3727

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 语料库资源在线： http://www.cncorpus.org/Resources.aspx 语料库文档资料国家语委现代汉语语料库介绍　　※下载次数：5481 国家语委现代汉语语料库词类标记集　　※下载次数：3894 国家语委现代汉标注语料库数据及使用说明　　※下载次数：4797 在线语料库字词频数据现代汉语语料库词频表：在线现代语料库词频数据。

语料库资源在线：

http://www.cncorpus.org/Resources.aspx

  语料库文档资料
   国家语委现代汉语语料库介绍　　※下载次数：5481
   国家语委现代汉语语料库词类标记集　　※下载次数：3894
   国家语委现代汉标注语料库数据及使用说明　　※下载次数：4797
  在线语料库字词频数据
   现代汉语语料库词频表：在线现代语料库词频数据。　　※下载次数：10266
   现代汉语语料库分词类词频表：在线现代语料库带词类标注的词频数据。　　※下载次数：6860
   现代汉语语料库字频表：在线现代汉语语料库字频数据。　　※下载次数：4874
   古代汉语语料库字频表：在线古代汉语语料库字频数据。　　※下载次数：3256
  语料处理软件工具
   汉语拼音标注工具：本站开发，用于对汉语文本自动标注拼音。　　※下载次数：3184
   分词和词性标注工具：本站开发，用于对汉语文本进行分词和词性标注。　　※下载次数：7412
   字词频率统计工具：本站开发，用于统计汉语文本字、词的出现频率，并生成字、词频率表。　　※下载次数：6252
  现代汉语字表
   现代汉语常用字表：现代汉语3500常用字表，国家语言文字工作委员会1988年1月发布。　　※下载次数：4326
   现代汉语通用字表：现代汉语7000通用字表，国家语言文字工作委员会、新闻出版总署1988年发布。　　※下载次数：3374
   通用规范汉字表：通用规范汉字表收字8105个，其中一级字3500个，二级字3000个，三级字1605个。　　※下载次数：528

其他

北京大学《人民日报》标注语料库：http://www.icl.pku.edu.cn

北京语言大学的语料库：http://www.blcu.edu.cn/kych/H.htm

清华大学的汉语均衡语料库TH-ACorpus：http://www.lits.tsinghua.edu.cn/ainlp/source.htm

山西大学的语料库: http://www.sxu.edu.cn/homepage/cslab/sxuc1.htm

台湾中研院的语料库：

现代汉语平衡语料库：http://www.sinica.edu.tw/SinicaCorpus

或 http://www.sinica.edu.tw/~tibe/2-words/modern-words/
或 http://www.sinica.edu.tw/ftms-bin/kiwi.sh

近代汉语标记语料库：http://www.sinica.edu.tw/Early_Mandarin/

古汉语语料库：http://www.sinica.edu.tw/ftms-bin/ftmsw3

或 http://www.eastasian.ucsb.edu/projects/scriptasinica/cgi-bin/ghy/kiwi.cgi
或 http://www.sinica.edu.tw/~tibe/2-words/old-words/

台湾南岛语典藏：http://www.ling.sinica.edu.tw/Formosan/

闽南语典藏：http://southernmin.sinica.edu.tw/

汉籍电子文献：http://www.sinica.edu.tw/~tdbproj/handy1/

或 http://www.sinica.edu.tw/ftms-bin/ftmsw3

香港城市大学的LIVAC共时语料库：http://www.rcl.cityu.edu.hk/livac/

或 http://www.LIVAC.org

浙江师范大学的历史文献语料库: http://lib.zjnu.net.cn/xueke/hyywzx/xkjj.htm

中国科学院计算所的双语语料库：http://mtgroup.ict.ac.cn/corpus/query_process.php

中文语言资源联盟：http://www.chineseldc.org/xyzy.htm

網站名稱	網址及簡介
古漢語語料庫	http://www.sinica.edu.tw/ftms-bin/ftmsw3 或 http://www.sinica.edu.tw/~tibe/2-words/old-words/ 古漢語語料庫包含以下五個語料庫: 上古漢語、中古漢語(含大藏經)、近代漢語、其他、出土文獻。部分資料取自史語所漢籍全文資料庫，故兩者間略有重疊。此語料庫之出土文獻語料庫，全部取自史語所漢簡小組所製作的資料庫。
近代漢語標記語料庫	http://www.sinica.edu.tw/Early_Mandarin/ 為應漢語史研究需求而建構的語料庫。目前素語料庫所蒐集的語料已含蓋上古漢語（先秦至西漢）、中古漢語（東漢魏晉南北朝）、近代漢語（唐五代以後）大部分的重要語料，並己陸續開放使用；在標記語料庫方面，上古漢語及近代漢語都已有部分語料完成標注的工作，並視結果逐步提供上線檢索。
現代漢語平衡語料庫	http://www.sinica.edu.tw/SinicaCorpus/ 或 http://www.sinica.edu.tw/~tibe/2-words/modern-words/ 或 http://www.sinica.edu.tw/ftms-bin/kiwi.sh 主要針對語言分析而設計，由中央研究院資訊所、語言所詞庫小組完成，內含有簡介、使用說明，現行的語料庫是4.0的版本。
唐詩三百首	http://cls.admin.yzu.edu.tw/300/ 以國中、小學學生為主要使用對象，提供吟唱、繪畫、書法等多媒體資料，文字資料包含作者生平、讀音標注、翻譯、註解、評註、典故出處等資料；檢索點包含作者、詩題、詩句、綜合資料、體裁分類等；檢索結果可以列出全文，並選擇標示相關之文字及多媒體資料。並提供了一套可以自動檢查格律、韻腳、批改的「依韻入詩格律自動檢測索引教學系統」，協助孩子們依韻作詩，協助教師批改習作。
樹圖資料庫	http://treebank.sinica.edu.tw/ 「中文句結構樹資料庫」是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中，抽取句子，經由電腦剖析成，結構樹並加以人工修正、檢驗後的所得的成果。在中文句結構樹中標示了中文句語意和語法的訊息。目前開放網上檢索及資料移轉，以供學者專家在中文句法、語意關係研究參考之用。
中英雙語知識本體詞網	http://bow.sinica.edu.tw/ 結合詞網，知識本體，與領域標記的詞彙知識庫。
搜文解字	http://words.sinica.edu.tw/ 包含「搜詞尋字」、「文學之美」、「遊戲解惑」、「古文字的世界」四個單元，可由部件、部首、字、音、詞互查，並可查詢在四書、老、莊、唐詩中的出處，及直接連結到出處，閱讀原文。
文國尋寶記	http://www.sinica.edu.tw/wen/ 在搜文解字的基礎之上，以華語文學習者為對象，進一步將字、詞、音的檢索功能與國編、華康、南一等三種版本的國小國語課本結合，與唐詩三百首、宋詞三百首、紅樓夢、水滸傳等文學典籍結合，提供網路上國語文學習的素材。
漢籍電子文獻	http://www.sinica.edu.tw/~tdbproj/handy1/ 包含整部25史整部阮刻13經、超過2000萬字的臺灣史料、1000萬字的大正藏以及其他典籍。
紅樓夢網路教學研究資料中心	http://cls.hs.yzu.edu.tw/HLM/home.htm 元智大學中國文學網路系統研究室所開發的「網路展書讀—中國文學網路系統」，為研究中心負責人羅鳳珠老師主持，紅樓夢是其中一個子系統，其他還包括善本書、詩經、唐宋詩詞、作詩填詞等子系統。此網站為國內Internet最大中國文學研究資料庫，提供使用者最完整的中國文學研究資料。

语料库资源————（三）

语料库资源在线：

其他

热门文章

最新文章

相关课程

相关电子书

相关实验场景