为什么要学习大模型?

简介: 本文深入探讨了大模型的学习意义、应用需求及训练方法,帮助读者理解其底层逻辑与潜力。通过类比PPT和Excel在职场中的重要性,强调掌握大模型技能对未来职业发展的关键作用。文章还分析了LLM微调的必要性及其在企业内外部场景的应用价值,如智能客服、游戏NPC等。此外,专栏专注于ChatGPT与通义千问的训练原理,提供系统化的学习路径,适合从零基础到进阶的不同人群。无论想提升工作效率还是从事相关工程开发,都能从中受益。内容收录于[Github](https://github.com/Java-Edge/Java-Interview-Tutorial),欢迎关注!

本文已收录在Github关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 🚀 魔都架构师 | 全网30W技术追随者
  • 🔧 大厂分布式系统/数据中台实战专家
  • 🏆 主导交易系统百万级流量调优 & 车联网平台架构
  • 🧠 AIGC应用开发先行者 | 区块链落地实践者
  • 🌍 以技术驱动创新,我们的征途是改变世界!
  • 👉 实战干货:编程严选网

1 学习大模型的意义

1.1 底层逻辑

AI大潮已来,不加入就被淘汰。就像现在职场谁不会用PPT和excel一样。你问任何一个人他会不会用PPT,都说会用,只是说好还是不好,除非岗位跟电脑完全无关。但凡用电脑,基本都用excel和PPT,不会用的基本都被淘汰,逻辑一样。

AI虽有应用场景,好像跟普通人无关?

如智能驾驶,人脸识别,跟普通人关系不大,我们都是被动使用。但现在大模型跟我们每人都有关,强大的提升工作效率工具。你不会用,就好像跟PPT和excel一样,你就会慢慢被职场淘汰。

会用就行?

用大模型,好像很简单。无论通义千问、ChatGPT,用起来简单,聊天就OK。但还不够,因为我们用它不只是当搜索引擎,用它是为提升工作效率,得用的好。

1.2 啥叫用的好?

如写文章、PPT和excel,让他给你优化。甚至coding,让大模型帮你写。完全替代你的代码不可能,但给你写一些框架性东西或具体一个小问题,然后拿过来你试下好不好用,有bug也可让他改。还是大幅提升工作效率,最终跟PPT和excel依然逻辑类似。

2 LLM潜力与微调

LLM是AI代表,潜力与使用方式有关。潜力要通过微调挖掘,以适应不同场景和需求。大模型出现引发行业需求爆发,尤其随ChatGPT问答能力超过临界值,行业需求逐渐增加。

PPT和excel技能高的的PPT一看就惊艳,excel用的特熟练,你这数据分析用的非常到位,待遇自然远高于那些用的不好的。LLM同理:

  • 用好,几倍原效率
  • 用不好,就感觉和现状无区别

差距明显,有人可一人干两人活,待遇肯定高于原效率的人。

LLM底层逻辑用的不好

  • 没挖掘出大模型潜力,你只是让他答普通问题
  • prompt写不好,他就乱答
  • 问的问题范围不好,也不着边际乱答

这都是用的不好的标志。

若已通过各种尝试磨练或技巧学习,把某模型潜力发挥到极致。如ChatGPT最终能解决所有问题吗?也不行,就比如大模型不会回答你公司内部信息问题,因为他不知道,没数据训练过。

通过知识库可部分解决这问题,但知识库不是万能,最终会有场景需要训练。如想调整他回答的语气活泼点或更官方点或有些个人特色。这种场景大模型,因为没有训练这种内容,所以不可能满足你的需求。你要对它训练,至少微调。

所以不仅要会用,还要用好,甚至微调,才能拉开跟其他职场人差距。待遇才能更丰厚,工作机会更多。

问答能力突破临界值

行业需求爆发,自大模型出现,问答能力突破临界值。以前模型都在临界值下徘徊,难商用,只能在学术界兜转。直到ChatGPT迈过阀值,错误少到一定界限。问什么都能回答,这就是奇点。导致行业需求爆发。

3 大模型的应用需求

公司内部问题解决、产品解答、智能聊天和游戏NPC等方面的应用需求。大模型可提高效率、流畅度和人机交互体验。随需求增加,相关工程师需求也会提升。

3.1 对内

像OA、ERP和CRM等问题,平时都是文档来文档去,如OA公司制度都是文档,某人对某制度疑惑,要么问HR或行政,整体效率低。这些知识全都可接入大模型,模型+知识库。

3.2 对外

类似客服解答产品的这种需求。每个公司都有自己的一些产品,有些产品边界、产品参数,还有一些应对各种情况的服务之类的,都要解答客户问题。现在解决方法一般先建一个官方网站里面介绍产品,然后后面再对接一个真人客服,当然也会加一些智能客服内容,但总体效果不如未来使用大模型加知识库,然后还有智能聊天,这是最底层需求。但现在人越来越忙,尤其老年人,他们没人聊天。这需求其实非常大,但一直没有被满足。但总之现在大模型出现之后,让问题看见曙光。

3.3 智能NPC

如游戏里面的NPC都是写死的,都是给你一个逻辑控制,遇到啥场景他做啥回答,完全写死,所以感觉刻板。如将来游戏NPC也接入大模型,让他对话更流畅,更像一个人。但这个游戏里面单纯的找各种不同人对话,是不是感觉也很有意思?这就是游戏里需求,也非常大。尤其未来元宇宙如果出现vr、ar都结合上之后,再加大模型,这里面的需求场景几乎无限大。

行业需求爆发,是不是可能让从事相关工作的工程师的待遇进行提升?肯定的,不过个案不能代替全部。如果说按一个行业,它总体待遇是由供需关系和创造价值量决定的。但是总体上它的需求产生了爆炸性提升。但总体上,互联网其实就是一个这样一层一层往上叠代爆发的过程。

4 互联网行业技术发展与工资待遇

互联网行业工资待遇高的原因是因为需求突然爆发,供应不足;互联网是编辑成本低的行业;创造的价值量与用户量成正比,但成本不成正比;技术的发展也是一层一层往上叠代的,学习最顶层的技术才能拿到高薪。

互联网刚出,你会个HTML,简单JS,工资可能就拿非常高。当时根本无法想象的。90年代当时美国互联网泡沫,你就是会一个HTML这么简单的一个东西就可以拿很高的年薪。就是因为这个需求突然爆发了,但供应提不上来,没那么多人会,所以工资待遇高。而且互联网又是一个编辑成本很低的一个行业。就是你只要做出一个东西,可以给全球每一个人看你这个成本,还是原来的成本不会增加太多。

这就是为什么互联网行业的待遇容易比较高,这就是创造的价值量跟你的用户量成正比,但是你的用户量跟你的成本却不成正比。你一个用户成本跟100万个用户的成本其实差不了许多,差的可能你就是服务器成本,但是你主要的研发成本差不多,剩下主要是供需关系。

最开始HML假设在这位置,然后就是ASP、PHP语言刚出来的一些动态页面,会这些语言你就高薪。再往后安卓出来智能手机IOS之前可能还有java,java是在这位置后,然后IOS和安卓它是一层一层往上开发,然后到算法,现在到了大模型。

你现在再学习下面的东西,如HTML,PHP5、java。在现在这个位置学习他,你不可能高薪,因为它已是基础设施。就好像你开发应用一样,你现在去开发操作系统,你除非说国产替代,正常来讲,微软和苹果已把操作系统完全占领,你不可能再打开空间。再往上,可能微信QQ之类的,你再开发一个类似的,也不可能打败它。

跟这个技术的原理是类似的,技术也是一层一层往上叠代。你现在这个角度去学习更底层东西。不是说完全没必要学,如果说你有时间可学习,这样知识体系更完整。但仅靠下面知识找工作,高薪不易。你只有拿最顶层技术,可能高薪。

5 大模型训练经验与高薪offer

前段时间有个大模型训练的拿到200万年薪。工作经验只有六年。他为什么那么高offer?大模型经验他比较多,大模型其实是GPT3出来后,CP3出来到现在大概也就三年。算上GBTR大概四年,他在阿里就有四年大模型训练经验,很难得。

模型本身其实现在工作需求已比较大。如果说它下面游戏NPC有了一个突破,然后你又比较熟悉这方向,会的人又比较少。这时你立马就可跳槽拿高薪。

6 为啥通过本专栏学习大模型?

专栏围绕大模型,就围绕ChatGPT、通义千问进行组织的。首先基于ChatGPT的历史发展开始讲解前后左右:

  • 前就是它的历史
  • 后讲大模型延伸。但完整175B ChatGPT训练不动。所以用高效微调训练一个6B模型及launch基于long ten结合一个稍微小一点的语言模型6B的进行一些应用的开发
  • 强化学习,在ChatGPT训练时用到

不像有的人讲ChatGPT,直接把NLP一大套底层知识搬给你。这些也不是没用,但对你这个入门主题偏了,导致理论啃太久,兴趣丧失,不利学习。等用到这些知识再给你讲就不显得过于单薄。

现关于大模型或ChatGPT的专栏,主要还是一些帖子或简单专栏。对GPT依赖的一些知识,如transformer、历史,还有强化学习都不多。这就需要你有较多理论基础知识才能看懂。而本专栏相对降低对基础知识要求。讲解时也包含一些底层思考和类比,让你更好理解这些模型到底在干啥。

7 专栏学习方法及收获

现在训练专栏都不系统,因为ChatGPT是新兴事物,22年8月才出现,然后11月才火起来,至今不满2年。要么它就是基于传统的NOP专栏,然后再单独开一张,介绍一下全程PPT。

7.1 学习方法

不只是学习本套专栏的方法,其实学习所有人工智能你都可以用这套方法,就是关于数学公式推导。人工智能有大量数学公式推导,是人工智能专栏最大难点,但你数学不好,又想学课咋办?建议先跳过,先扫两眼公式,感觉看懂就看看。看不懂跳过,把公式推倒当成黑盒,只记结论及逻辑。但建议你有能力,感觉数学还可,还是把公式啃完,当然了大部分应用开发工程师不需要。

7.2 收获

你会学习到ChatGPT、千问等大模型训练原理,即:

  • 底层原理
  • 如何训练

再掌握多种NLP逻辑,因为fort就是为解决下游NLP任务,如文本分类,N12,阅读理解。就拿一个人家训练好的Bert模型拿过来,然后在下游进行或者分类,或者说NE2,去接一下不同的下游处理,就可以直接上手处理不同的任务。一般还是需要微调,所以你再训练即可解决实际问题。

理解bert系列、GPT系列模型差异。学会高效调参技巧,如PEFT和 Langchain。就是显存不够时,还能把LLM训起来,如6B、13B。最后学会用langchain加不同LLM如qwen + 一个知识库使用向量数据库,搭建一个自己的智能助手,这就是收获。

8 适合人群

想从0开始学习chatGPT的人群。基础不多想学没关系,数学基础不是那么的优秀也可学。可把数学公式推导先跳过。后面对数学有兴趣,把这基础补补再来看也可。

想理解大模型底层原理,以便更好使用大模型。如为什么大模型避免不了幻觉,就是说它避免不了胡乱回答。你只有理解底层原理才知为什么,你才能尽量的有指导性去回避让他乱答。

想自行训练和搭建大模型服务的人群:

  • 要么就是外包,你给别公司去搭建
  • 要么就是你在公司里,其他人都不会,又不想花很多钱去买外包服务

但自己学一下给自己公司搭一个大模型的服务地图储备,这个其实还看目的。如只是想学会它底层原理,然后去更好使用这些模型,那懂点点python、linux就可。对技术依赖不多。但想训练场,想玩更彻底,还是要有些数学和AI基础。

相关实践学习
如何快速创建插件agent
阿里云百炼应用基于Assistant API技术架构,结合大语言模型(LLM)的推理、知识检索增强、插件调度等能力,构建应对各类复杂场景任务的场景应用。通过集成化、直观易用的产品界面,为开发者提供了丰富的应用配置选项,包括大型语言模型(LLM)选择、Pro
目录
打赏
0
0
0
0
1951
分享
相关文章
AI邂逅青年科学家,大模型化身科研“搭子”
2025年6月30日,首届魔搭开发者大会在北京举办,涵盖前沿模型、MCP、Agent等七大论坛。科研智能主题论坛汇聚多领域科学家,探讨AI与科研融合的未来方向。会上展示了AI在药物发现、生物计算、气候变化、历史文献处理等多个领域的创新应用,标志着AI for Science从工具辅助向智能体驱动的范式跃迁。阿里云通过“高校用云”计划推动科研智能化,助力全球科研创新。
Springboot集成AI Springboot3 集成阿里云百炼大模型CosyVoice2 实现Ai克隆语音(未持久化存储)
本项目基于Spring Boot 3.5.3与Java 17,集成阿里云百炼大模型CosyVoice2实现音色克隆与语音合成。内容涵盖项目搭建、音色创建、音频合成、音色管理等功能,适用于希望快速掌握Spring Boot集成语音AI技术的开发者。需提前注册阿里云并获取API Key。
AR眼镜与AI视觉大模型,开启AR工业巡检与维护全新体验
AR眼镜与AI视觉大模型深度融合,革新工业设备巡检方式。实时采集数据、智能分析预警,提升巡检效率与准确性,保障工业生产安全高效运行。
AR眼镜与AI视觉大模型,开启AR工业巡检与维护全新体验
真·零门槛!原来手搓AI应用这么简单
这是一篇关于如何创作小红书爆款文案的专业指南,涵盖标题技巧、正文结构、情绪表达及关键词运用。内容包括高吸引力标题公式、正文六种开篇模板、关键词库和写作规则,帮助用户高效打造高转化文案。
Open WebUI 和 Dify 在构建企业AI应用时的主要区别
本文对比了企业AI应用构建中的两大开源工具——Open WebUI与Dify,在技术架构、核心能力及适用场景方面的差异。Open WebUI适合轻量级对话场景,侧重本地部署与基础功能;而Dify则聚焦复杂业务流程,提供可视化工作流编排与端到端RAG支持。文章结合典型用例与落地建议,助力企业合理选型并实现高效AI集成。
Open WebUI 和 Dify 在构建企业AI应用时的主要区别
Open WebUI与Dify是企业AI落地的两大开源方案,定位差异显著。Open WebUI专注零代码交互界面开发,适合快速部署对话式前端;Dify提供全栈低代码平台,支持AI应用全生命周期管理。前者优势在轻量化UI组件,后者强于复杂业务编排与企业级功能。企业可根据需求选择前端工具或完整解决方案,亦可组合使用实现最优效果。
当无人机遇上Agentic AI:新的应用场景及挑战
本文简介了Agentic AI与AI Agents的不同、Agentic无人机的概念、应用场景、以及所面临的挑战
190 5
当无人机遇上Agentic AI:新的应用场景及挑战
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
本文介绍了如何通过智能体组件化设计快速生成PPT。首先,创建一个“PPT大纲生成”智能体并发布为组件,该组件可根据用户输入生成结构清晰的大纲。接着,在新的智能体应用中调用此组件与MCP服务(如ChatPPT),实现从大纲到完整PPT的自动化生成。整个流程模块化、复用性强,显著降低AI开发门槛,提升效率。非技术人员也可轻松上手,满足多样化场景需求。
370 0
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问