中英文语料公开数据集大全

简介: 中英文语料公开数据集大全

用于对话系统的中英文语料数据,点击超链接直接进入即可。

中文电影对白语料


中文电影对白语料,噪音比较大,许多对白问答关系没有对应好


  • 短消息语料


包含中文和英文短信息语料,据说是世界最大公开的短消息语料


  • 中文聊天语料


ChatterBot聊天引擎提供的一点基本中文聊天语料,量很少,但质量比较高


  • NLP相关数据集


这是他人收集的自然语言处理相关数据集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,都是英文文本。可以使用机器翻译为中文,供中文对话使用


  • 小黄鸡语料


传说中的小黄鸡预料:xiaohuangji50w_fenciA.conv.zip (已分词) 和 xiaohuangji50w_nofenci.conv.zip (未分词)


  • 论坛问答语料


由白鹭时代官方论坛问答板块10,000+ 问题中,选择被标注了“最佳答案”的纪录汇总而成。人工review raw data,给每一个问题,一个可以接受的答案。目前,语料库只包含2907个问答。


  • 其他语料


chat corpus collection from various open sources

包括:开放字幕、英文电影字幕、中文歌词、英文推文


  • 保险行业QA语料

通过翻译 insuranceQA产生的数据集。train_data含有问题12,889条,数据 141779条,正例:负例 = 1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据 22000条,正例:负例 = 1:10

相关文章
|
26天前
|
存储 数据采集 人工智能
智能体来了:从 0 到 1 构建 RAG 检索增强系统
随着大模型在真实业务中的应用不断深入,单纯依赖模型参数内知识已难以满足需求。检索增强生成(RAG,Retrieval-Augmented Generation)成为连接大模型与外部知识的重要方式。 本文从 0 到 1 系统讲解 RAG 的核心原理、系统结构及落地步骤,帮助读者构建一个可用、可扩展的 RAG 检索增强系统,为智能体和企业级 AI 应用提供可靠基础。
227 1
|
2月前
|
存储 人工智能 自然语言处理
|
8月前
|
人工智能 自然语言处理 供应链
AI如何帮助中小企业进行赋能?
人工智能(AI)正加速赋能中小企业,在营销、生产、客服等领域助力转型升级。通过精准营销、智能运营与高效服务,企业可显著提升效率与竞争力。尽管面临技术门槛、数据安全与人才短缺等挑战,借助云服务、政策扶持与人才培养,中小企业仍能把握机遇,实现可持续发展。
727 0
|
机器学习/深度学习 人工智能 算法
《C++ 张量计算库:人工智能模型的强劲“引擎”》
张量计算是AI模型构建与训练的基石。在C++中开发一个通用且高效的张量计算库,能够满足不同模型对张量操作的多样化需求,加速模型训练,提升开发效率。该库需解决通用性和高效性两大挑战,通过抽象化、模板化设计及优化数据结构和算法,确保在处理大量数据时的性能与稳定性。同时,结合硬件特性如SIMD指令集和GPU加速,进一步提升计算效率,推动C++在AI领域的应用与发展。
292 9
|
传感器 算法 安全
蓝牙中频率跳变技术的原理及其应用
蓝牙中频率跳变技术的原理及其应用
1289 9
|
测试技术 Android开发
Android中使用performClick触发点击事件
Android中使用performClick触发点击事件
|
数据可视化 数据挖掘 Linux
Seaborn中的分布图:轻松展示数据分布情况
【4月更文挑战第17天】Seaborn是数据分析中的利器,提供直观的分布图以展示数据特性。包括:直方图(histplot,可选KDE),用于观察数据集中趋势和异常值;核密度估计图(kdeplot),呈现连续分布估计;箱线图(boxplot),通过中位数和四分位数展示分布和异常值;小提琴图(violinplot),结合箱线图和KDE,显示详细分布信息。通过自定义参数,可优化图表样式,提升可视化效果,助力数据分析。
|
JavaScript 前端开发 关系型数据库
Yum报错“undefined symbol: CRYPTO_num_locks”问题排查
Yum无法使用,报错 “/usr/lib64/python2.7/site-packages/pycurl.so: undefined symbol: CRYPTO_num_locks”。
13650 0
|
调度 云计算
云计算|OpenStack|错误记录和解决方案(不定时更新)
云计算|OpenStack|错误记录和解决方案(不定时更新)
2234 0
|
小程序 JavaScript Java
2023年创新创意 SpringBoot+Vue 毕业设计选题推荐,200 套 SptingBoot 精品项目,总有你需要的。
2023年创新创意 SpringBoot+Vue 毕业设计选题推荐,200 套 SptingBoot 精品项目,总有你需要的。

热门文章

最新文章