文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

[space-t 表格问答模型中文领域]该怎么构造自己的训练数据呢？

该怎么构造自己的训练数据呢？看了给出的预训练的语料也是不太理解呢。

展开

收起

SPACE-T表格问答预训练模型-中文-通用领域-base

marshal0514 2023-03-29 11:19:10 959 版权

阿里云 AI 助理回答

构造自己的训练数据是一个关键步骤，旨在确保模型能够学习到特定领域或任务的知识。根据提供的参考资料，以下是构建训练数据集的详细指导：

1. 确定数据需求

明确目标：首先明确您的模型将应用于哪个具体场景（如电商客服、金融服务等），这将直接影响数据收集的方向和内容。
业务场景多样化：设计数据时应覆盖该场景下的各种业务操作或对话情景，确保数据集具有专业性和多样性，避免模型偏向学习某一类特征。

2. 数据格式与结构

文本生成数据格式：如果任务涉及文本生成，按照Prompt和Completion的结构准备数据，即用户输入与期望输出的配对。
单行展开结构：每条数据由两部分组成，第一列是用户可能的输入（Prompt），第二列是模型应当生成的响应（Completion）。

3. 数据集规模与质量

基础要求：不同训练方法对数据量有不同的最低要求，例如CPT需要至少一千万Token的预训练数据，SFT则需上千条微调数据，DPO适合使用上百条人类偏好数据进行训练。
数据扩充策略：
- 模拟生成：利用现有大模型生成特定业务相关的数据作为补充。
- 数据清洗与增强：使用工具对原始数据进行处理，提升数据质量和多样性。
- 多渠道获取：通过网络爬虫、社交媒体、公开数据集、合作伙伴等途径人工搜集数据。

4. 实际操作指南

创建数据集：在阿里云平台上，访问“模型数据”页面，点击“新增数据集”，支持从阿里云云产品中导入文件夹形式的数据。
注意数据存储：选择合适的数据存储类型（如OSS、NAS、CPFS），并注意OSS的使用限制，比如不支持文件追加写和覆盖写。
数据均衡性：确保各业务场景的数据量相对均衡，比例符合实际应用场景，以维护模型的泛化能力。

5. 特别注意事项

自定义镜像：若训练任务有特殊环境需求，可准备自定义镜像，并确保与所选资源兼容。
训练语料规范：对于特定服务（如智能语音交互），遵循特定的格式和编码要求，如UTF-8无BOM，控制行长度和字符数，正确转换数字读音等。

通过上述步骤，您可以系统地构造出既符合模型训练需求又贴合实际应用场景的高质量训练数据集。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

相关问答

自然语言处理

Doc2Bot数据集中，一个文档对话数据示例包含哪些部分？

146

1

0

在Doc2Bot数据集中，对话状态信息对文档对话系统有何影响？

148

1

0

在文档智能中能将word解析为结构化数据吗？

249

1

0

文档智能这两个标题的字体和数字明显不一样，怎么返回的数据还是一个层级的？

220

0

0

在文档智能中类似于百度相关产品的功能档识别后，可以把数据进行分类吗？

171

1

0

文档智能我们下载到文档识别数据后就可以删除？

222

2

0

大佬有ModelScope的SPACE-T表格问答的群么？

269

2

0

您好，咨询一个文档智能问题，长文档信息抽取，我看对数据有要求，提到了是单页文档，那如果想要处理的文？

219

4

0

问一下目前这个BI表格问答用的模型是SPACE-T表格问答预训练模型么

385

2

0

在文档智能中咱们文档转换不支持pdf转ppt吗？

269

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

可编译执行伪代码（spec）解决 AI 编程幻觉

不用写代码也能做网站！秒悟Meoo AI助手：一句话生成网页H5、一键自动云端部署

Elasticsearch 入门教程：核心原理、Docker 部署与中文搜索实战

大模型内容安全实时防护：恶意Prompt注入拦截、越权阻断与熔断机制方案.166

相关解决方案

更多

基于 Spark 和 PyTorch 的模型训练方案

一键训练模型及部署GPU共享推理服务

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

GLM-5.2：长任务时代开源旗舰模型

热门讨论

热门文章

modelscope-funasr 热词如何设置？

在modelscope-funasr针对中文通话 SenseVoice和paraforma效果谁好？

我是一个小白，本机部署adaseq，vscode找不到modelscope的module

如何修改通义千问的system prompt，以修改自定义名字

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

运行官方示例在win环节下conda中报错

如何下载llama模型到本地？

modelscope-funasr如何释放显存呢？

modelscope-funasr中命令行用法如何生成带时间戳的结果？

modelscope-funasr现阶段支持华为的npu吗？

展开全部

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

[大模型实战 03预备] 云端炼丹房 1：Google Colab 上手指南

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

语义压缩，才是提示词工程的底层心法

Agent TARS：一键让AI托管电脑！字节开源PC端多模态AI助手，无缝集成浏览器与系统操作

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

Botgroup.chat：超有趣的开源 AI 聊天室！多个 AI 在线互怼，一键搭建你的专属 AI 社群

展开全部

还有其他疑问?