GPT4 vs Llama,大模型训练的坑

简介: 训练大模型,总觉得效果哪里不对,查了三天,终于发现了原因

最近搞了8张A100,训练大模型,对比了GPT4、llama 2、还有若干国内大模型,总觉得效果哪里不对,查了三天,终于发现了原因。

原来相同的汉字,编码值不同。 注意是相同的编码方式,例如都是unicode。
这里不是字体不同,是纯文本,与字体无关,相同编码方式,不同的是编码值。

例:


能看出区别吗?一个编码值是\u2ee6,一个是\u9e1f。不信邪的可以自己试试。
类似的还有很多,常用来举例说明的比较明显的是:“戶”、“户”、“戸”。
还有:⽣, 生;⼩, 小;⽟, 玉;⼤, 大;⽉, 月;⽜, 牛;⾼, 高;⼉, 儿;⼆, 二;⾦, 金;⽂, 文;⼭, 山;⾹, 香;⾉, 艮;⽴, 立;⼋, 八;⽥, 田;⽕, 火;⼦, 子……
不一一例举。

对于用多种来源未经验证的中文语料数据训练模型,尤其要注意上述问题。

对我们人类来说,是相同的字,对计算机来说,是不同的字。
果然,汉语言博大精深!

那又鸟不是鸟,那马户不是驴。

下课!

原创干货,转载请注明出处。

相关文章
|
18天前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
22 1
|
2月前
|
人工智能 搜索推荐 测试技术
模拟试错(STE)法让7B大模型测试超GPT-4
【2月更文挑战第24天】模拟试错(STE)法让7B大模型测试超GPT-4
41 1
模拟试错(STE)法让7B大模型测试超GPT-4
|
2月前
GPT-4 vs. ChatGPT:19个弱项问题(多步逻辑推理、概念间接关联)的横向对比
GPT-4在逻辑推理和概念关联上的准确率提升至100%,超越ChatGPT,其智力可能超过95%的人。在逻辑和多模态理解上有显著进步,但数数和某些逻辑推理仍是挑战。擅长处理成本计算和复杂情境,能建立概念间的间接关联,如遗忘与老龄化的联系。在数学和物理领域表现出色,但处理复杂间接关系和抽象概念时仍有局限。总体而言,GPT-4展现出超越人类智能的潜力,但仍需面对认知任务的挑战。![GPT-4进步示意](https://developer.aliyun.com/profile/oesouji3mdrog/highScore_1?spm=a2c6h.132)查看GPT-5教程,可访问我的个人主页介绍。
40 0
GPT-4 vs. ChatGPT:19个弱项问题(多步逻辑推理、概念间接关联)的横向对比
|
12天前
|
机器学习/深度学习 传感器 人工智能
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
26 1
|
22天前
|
数据采集 编解码 人工智能
超越GPT-4V,苹果多模态大模型上新!
【4月更文挑战第17天】苹果公司推出Ferret-UI,一款专为移动UI理解的新型MLLM,优于GPT-4V。该模型针对移动UI特点优化,采用“任意分辨率”技术处理屏幕细节,通过广泛的基础UI任务和高级任务训练,提升理解和推理能力。在基准测试中,Ferret-UI表现突出,显示了苹果在多模态语言模型领域的领先地位。尽管面临灵活性和训练数据质量挑战,Ferret-UI为移动应用自动化和智能助手发展开辟新路径。
27 1
超越GPT-4V,苹果多模态大模型上新!
|
2月前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
34 0
|
3月前
|
存储 人工智能 开发者
比GPT-4快18倍,世界最快大模型Groq登场!
【2月更文挑战第2天】比GPT-4快18倍,世界最快大模型Groq登场!
65 3
比GPT-4快18倍,世界最快大模型Groq登场!
|
3月前
|
传感器 自动驾驶 安全
万字长文 | 看看GPT-4V是怎么开车的,必须围观,大模型真的大有作为!!!
万字长文 | 看看GPT-4V是怎么开车的,必须围观,大模型真的大有作为!!!
43 0
|
3月前
|
SQL 人工智能 自然语言处理
GPT- BI在中国一汽上线,大模型技术融入数智化转型
GPT- BI在中国一汽上线,大模型技术融入数智化转型
269 1
|
4月前
|
机器学习/深度学习 存储
百川智能发布超千亿大模型Baichuan3,中文评测超GPT-4
1月29日午间消息,百川智能宣布发布超千亿参数的大语言模型Baichuan 3。在 CMMLU、GAOKAO 和 AGI-Eval 等评测中,Baichuan 3 号称在中文任务上超越了 GPT-4。