中英文语料公开数据集大全

简介: 中英文语料公开数据集大全

用于对话系统的中英文语料数据,点击超链接直接进入即可。

中文电影对白语料


中文电影对白语料,噪音比较大,许多对白问答关系没有对应好


  • 短消息语料


包含中文和英文短信息语料,据说是世界最大公开的短消息语料


  • 中文聊天语料


ChatterBot聊天引擎提供的一点基本中文聊天语料,量很少,但质量比较高


  • NLP相关数据集


这是他人收集的自然语言处理相关数据集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,都是英文文本。可以使用机器翻译为中文,供中文对话使用


  • 小黄鸡语料


传说中的小黄鸡预料:xiaohuangji50w_fenciA.conv.zip (已分词) 和 xiaohuangji50w_nofenci.conv.zip (未分词)


  • 论坛问答语料


由白鹭时代官方论坛问答板块10,000+ 问题中,选择被标注了“最佳答案”的纪录汇总而成。人工review raw data,给每一个问题,一个可以接受的答案。目前,语料库只包含2907个问答。


  • 其他语料


chat corpus collection from various open sources

包括:开放字幕、英文电影字幕、中文歌词、英文推文


  • 保险行业QA语料

通过翻译 insuranceQA产生的数据集。train_data含有问题12,889条,数据 141779条,正例:负例 = 1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据 22000条,正例:负例 = 1:10

相关文章
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
合合信息Embedding模型获得MTEB中文榜单第一
合合信息近日发布文本向量化模型acge_text_embedding,在MTEB中文榜单(C-MTEB)中荣获第一,该模型在处理文本分类、语义相似度计算和情感分析等方面表现出色。MTEB是一个评估文本嵌入模型的综合基准,包含多种语言和任务,而C-MTEB专注于中文文本。acge模型具有较小的模型大小和较高的分类任务性能,支持最大1024个tokens,适用于各种应用场景,如电商、医疗和教育领域,能提升信息处理效率和推荐精准度。此外,用户可以通过在线平台体验acge模型的效果。
|
11月前
|
自然语言处理 Python
中文大模型评测
中文大模型评测
780 3
|
12月前
|
人工智能
中文大语言模型的分析
为了体现分析的逻辑性,将会采用序数词排序对三个领域进行报告测评。
211 0
|
存储 缓存 人工智能
用于 LLM 的公开的数值数据
用于 LLM 的公开的数值数据
158 0
|
机器学习/深度学习 数据采集 自然语言处理
中文电影数据集情感分类的torch网络,数据集下载地址
步骤如下: 1. 数据集:找到一个中文电影评论数据集,可以从以下网站下载: • https://www.aclweb.org/anthology/O18-2012/ • https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb • 2. 数据预处理:将数据集分为训练集和测试集,并进行数据清洗、分词等预处理。 3. 构建模型:使用 PyTorch 框架构建一个情感分类模型,可以使用 LSTM 或 Transformer 等深度学习模型。 4. 5.
471 0
|
机器学习/深度学习 Web App开发 自然语言处理
基于神经标签搜索,中科院&微软亚研零样本多语言抽取式摘要入选ACL 2022
基于神经标签搜索,中科院&微软亚研零样本多语言抽取式摘要入选ACL 2022
|
编解码 算法 Oracle
3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot
3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot
307 0
|
机器学习/深度学习 自然语言处理 算法
SnowNLP使用自定义语料进行模型训练(情感分析)
SnowNLP使用自定义语料进行模型训练(情感分析)
1497 1
SnowNLP使用自定义语料进行模型训练(情感分析)
|
自然语言处理
歧义代词数据集有哪些公开数据集的下载方式
Winograd Schema Challenge (WSC)数据集的下载网站是:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml。
175 0