AI 模型:数据收集和清洗

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: AI 模型:数据收集和清洗

为了训练AI模型,需要收集和准备足够的数据。数据应该涵盖各种情况和场景,以确保系统在各种情况下都能准确地运行。数据原始来源应该是真实的,并且应该涵盖系统预计的使用情况。数据应该根据特定的需求进行采样和处理,可以来自各种来源,例如公共数据集、第三方数据提供商、内部数据集和模拟数据集等。很多大模型训练的数据从广义上可以分成两大类,其一是通用文本数据,包含了网页、书籍、网络留言以及网络对话,这类主要是因为获取容易、数据规模大而被广泛的大模型利用,通用文本数据更容易提高大模型的泛化能力;其二是专用文本数据,主要是一些多语言类别的数据、科学相关的产出数据以及代码,这类数据可以提高大模型的专项任务的能力。在准备数据时,还应该注意数据的质量,例如数据的准确性、完整性和一致性。另外,还应该考虑隐私和安全问题,如果数据包含敏感信息,例如用户的个人身份信息,应该采取脱敏措施确保数据的安全性和隐私性。数据收集和准备是测试AI系统的重要步骤之一,需要充分的计划和准备,以确保测试的准确性和全面性。

数据收集完成后,通常是要对数据进行清洗,这里的清洗说的是对数据一些“不好”的内容的处理,这里的不好指的是数据的噪音、冗余、有毒等内容,从而确保数据集的质量和一致性。
image.png

无论收集到的数据集是通用文本数据、还是专用文本数据都要经过一系列的数据清洗才能用于 LLM 模型的训练,在面对初始收集的数据集需要首先通过质量过滤提高数据集的数据质量,常规的做法是设计一组过滤规则,消除低质量的数据,从而实现数据质量的提高。那么常用的规则有基于语言的过滤规则、基于度量的过滤规则、基于关键词的过滤规则。

  • 基于语言的过滤规则:如果LLM主要用于某一类语言的任务处理,那么就可以建立清除其他语言的数据的过滤规则,从而剩下目标语言的数据。
  • 基于度量的过滤规则:可以利用生成文本的评估度量,也就是 LLM 生成的问题进行度量从而检测并删除一些不自然的数据。
  • 基于统计的过滤规则:利用数据集中统计特征来评价数据集中的数据的质量过滤低质量的数据,这里的统计特征可以是标点的分布、符号与单词比率,句子长度等。
  • 基于关键词的过滤规则:基于特定的关键词集合,可以识别和删除文本中的噪音或无用元素,例如 HTML 标签、有毒词语等。

在数据清洗中一个重要的工作就是去重和补缺,在收集到的数据集中可能有很多重复的样本,那么在数据集可以投入使用之前通过对数据各个字段的检测删除重复内容,确保数据集中的样本都是唯一的。在去重的过程中,我们同样也会关注数据是否有缺失,这里的缺失是指某些字段或者特征缺少信息,而不是说少了某一方面的数据,对于缺失值的数据我们可以选择删除该条记录,也可以使用插补方法填充缺失内容。目前常用的插补方法有均值填补、中位数填补、众数填补以及用其他一些模型进行预测填补,均值填补就是使用数据集中缺失字段其他记录中其他数据的算术平均数进行填补(算术平均数是一组数据之和,除以这组数据个数的结果值);中位数填补和均值填补的思路类似(中位数是按顺序排列的一组数据中居于中间位置的数),就是填补进去的值不再是算数平均数而是对应缺失字段的中位数;众数填补(众数是在一组数据中,出现次数最多的数据。)也是同样的道理,就是用众数替换了上面的算术平均数。用模型进行预测填补是一个目前还说相对较新的方向,利用一些模型的预判能力补充数据的缺失。无论是哪一种,都会面临一些填补后数据出现重复样本的可能,因此去重和数据缺失填补是一个交替的工作。
由于数据集的来源不唯一,因此数据除去重复、缺失值意外还有可能很多不一致的问题,这些问题有些是因为原系统的数据是人工输入的、也有可能是不通系统的设计差异导致的,例如在日期的存储中,不同的系统设计差异性非常大,有的采用了日、月、年的方式存储,有的是月、日、年的顺序存储,有的采用了/作为分割线(20/02/2022,是 2022 年的 02 月 20 日),有的采用-作为分割线(02-20-2022,是 2022 年的 02 月 20 日),因此需要将其含义一样,但是表现不一致的数据统一格式,将文本数据转换为小写或大写形式,统一单位等。在处理数据一致性的过程中同时也会关注数据的异常值,这里说的异常值不是数据缺失,而是数据有明显的问题,数据很多原始来源都是人工输入的,往往很多原始系统的设计就会导致数据出现问题。异常值可能是由于测量错误、数据录入错误或真实且重要的异常情况引起的,例如我们在人口统计的数据中,年龄的字段看到了 300 ,那么这个数据就明显违反了常规逻辑,因此我们可以选择删除异常记录,或者按照前面缺失值填补方法中的均值填补、中位数填补、众数填补等方法进行填补。

隐私去除也是必不可少的数据清洗的流程,用于训练大模型的数据绝大部分都是来自网络的,这里面包含了大量的敏感信息和个人隐私信息,如果这样的数据用于大模型的训练那么对于大模型的伦理道德的会形成潜在的风险,增加隐私泄露的可能性。因此,必须从数据集中删除这方面的内容。在隐私去除过程中我们比较常用的就是基于规则的方法,例如建立删除规则的关键字,通过关键字规则删除姓名、电话、地址、银行账号等等的隐私数据。

在完成如上的数据逻辑方面的清洗后,就要进行数据可用方面的清洗,将数据类型进行正确的转换,确保数据的类型与任务的要求相匹配。例如,将文本字段转换为分类变量、将数字字段转换为连续变量或离散变量。在完成转换后,要对数据进行验证,验证数据的格式、结构是否满足了预期,例如日期字段是不是要求的格式、数据精度是否符合模型需求等等。对于跨多个数据表、数据源的数据集,对齐数据之间的关联性也需要进行分析,提出由于数据来源的不通而引起的数据偏差和错误。如果数据集过大,可以采用随机或其他采样方法来减少数据量,以加快处理和分析的速度。但要注意,采样可能会引入采样偏差,因此需要权衡和考虑采样策略。如上全部的清洗过程,都需要记录、留痕,也为了能够在后续的模型训练过程中出现一些非预期的结果的时候,反向追溯可以浮现数据清洗过程,帮助查找问题。

目录
相关文章
|
1天前
|
机器学习/深度学习 人工智能 编解码
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
35 21
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
|
2天前
|
人工智能 Python
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
ImBD是一款由复旦大学、华南理工大学等机构联合推出的AI内容检测器,能够快速识别机器修订文本,适用于多种场景,显著提升检测性能。
25 8
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
47 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
17天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
85 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
1天前
|
人工智能 物联网
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
27 10
|
26天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
78 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
28天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
67 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
28天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
66 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
1月前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
171 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
1月前
|
机器学习/深度学习 人工智能 编解码
【AI系统】Transformer 模型小型化
本文介绍了几种轻量级的 Transformer 模型,旨在解决传统 Transformer 参数庞大、计算资源消耗大的问题。主要包括 **MobileVit** 和 **MobileFormer** 系列,以及 **EfficientFormer**。MobileVit 通过结合 CNN 和 Transformer 的优势,实现了轻量级视觉模型,特别适合移动设备。MobileFormer 则通过并行结构融合了 MobileNet 和 Transformer,增强了模型的局部和全局表达能力。
64 8
【AI系统】Transformer 模型小型化