中英文语料公开数据集大全

简介: 中英文语料公开数据集大全

用于对话系统的中英文语料数据,点击超链接直接进入即可。

中文电影对白语料


中文电影对白语料,噪音比较大,许多对白问答关系没有对应好


  • 短消息语料


包含中文和英文短信息语料,据说是世界最大公开的短消息语料


  • 中文聊天语料


ChatterBot聊天引擎提供的一点基本中文聊天语料,量很少,但质量比较高


  • NLP相关数据集


这是他人收集的自然语言处理相关数据集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,都是英文文本。可以使用机器翻译为中文,供中文对话使用


  • 小黄鸡语料


传说中的小黄鸡预料:xiaohuangji50w_fenciA.conv.zip (已分词) 和 xiaohuangji50w_nofenci.conv.zip (未分词)


  • 论坛问答语料


由白鹭时代官方论坛问答板块10,000+ 问题中,选择被标注了“最佳答案”的纪录汇总而成。人工review raw data,给每一个问题,一个可以接受的答案。目前,语料库只包含2907个问答。


  • 其他语料


chat corpus collection from various open sources

包括:开放字幕、英文电影字幕、中文歌词、英文推文


  • 保险行业QA语料

通过翻译 insuranceQA产生的数据集。train_data含有问题12,889条,数据 141779条,正例:负例 = 1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据 22000条,正例:负例 = 1:10

相关文章
|
6月前
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
6月前
|
自然语言处理 物联网 Swift
联合XTuner,魔搭社区全面支持数据集的长文本训练
XTuner和魔搭社区(SWIFT)合作引入了一项长序列文本训练技术,该技术能够在多GPU环境中将长序列文本数据分割并分配给不同GPU,从而减少每个GPU上的显存占用。通过这种方式,训练超大规模模型时可以处理更长的序列,提高训练效率。魔搭社区的SWIFT框架已经集成了这一技术,支持多种大模型和数据集的训练。此外,SWIFT还提供了一个用户友好的界面,方便用户进行训练和部署,并且支持评估功能。
|
自然语言处理 Python
中文大模型评测
中文大模型评测
794 3
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
合合信息Embedding模型获得MTEB中文榜单第一
合合信息近日发布文本向量化模型acge_text_embedding,在MTEB中文榜单(C-MTEB)中荣获第一,该模型在处理文本分类、语义相似度计算和情感分析等方面表现出色。MTEB是一个评估文本嵌入模型的综合基准,包含多种语言和任务,而C-MTEB专注于中文文本。acge模型具有较小的模型大小和较高的分类任务性能,支持最大1024个tokens,适用于各种应用场景,如电商、医疗和教育领域,能提升信息处理效率和推荐精准度。此外,用户可以通过在线平台体验acge模型的效果。
|
人工智能
中文大语言模型的分析
为了体现分析的逻辑性,将会采用序数词排序对三个领域进行报告测评。
224 0
|
机器学习/深度学习 数据采集 自然语言处理
中文电影数据集情感分类的torch网络,数据集下载地址
步骤如下: 1. 数据集:找到一个中文电影评论数据集,可以从以下网站下载: • https://www.aclweb.org/anthology/O18-2012/ • https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb • 2. 数据预处理:将数据集分为训练集和测试集,并进行数据清洗、分词等预处理。 3. 构建模型:使用 PyTorch 框架构建一个情感分类模型,可以使用 LSTM 或 Transformer 等深度学习模型。 4. 5.
518 0
|
机器学习/深度学习 自然语言处理 算法
SnowNLP使用自定义语料进行模型训练(情感分析)
SnowNLP使用自定义语料进行模型训练(情感分析)
1713 1
SnowNLP使用自定义语料进行模型训练(情感分析)
|
机器学习/深度学习 人工智能 自然语言处理
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA(1)
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
124 0
|
自然语言处理 数据可视化 算法
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA(2)
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
189 0