大模型初探-百模大战百
大模型是指模型参数数量庞大、具有超过传统模型规模的深度学习模型。这些模型通常由数十亿到数百亿个参数组成,能够处理大规模的自然语言处理、计算机视觉和其他机器学习任务。
通俗地说,大模型就是一个非常庞大和复杂的计算机程序,它包含了数十亿到数百亿个参数(也可以理解为变量),用来处理和理解人类语言、图像和其他类型的数据。这些参数是通过对大量的数据进行学习和训练得到的。
大模型的目标是模拟人类的智能能力,使计算机能够更好地理解和处理人类的日常语言和视觉信息。通过学习海量的数据,大模型可以提取出其中的模式和规律,并据此生成具有逻辑和连贯性的文本、回答问题、生成图像描述等等。
相较于传统的小模型,大模型具有更强的表达能力和推理能力,能够更好地理解复杂的语义关系和上下文信息。这种能力的提升使得大模型在自然语言处理、机器翻译、推荐系统、语音识别、图像识别等领域取得了显著的进展。
然而,由于大模型的复杂性和计算资源的需求,它们通常需要在强大的计算设备上运行,并且需要大量的训练数据和计算时间来进行训练。因此,大模型的开发和应用往往需要大规模的研发团队和资源投入。
今天有幸被邀请去参加一个大模型沙龙座谈会,了解到了大模型技术目前概况,场景以及未来。一起来感受下当时的氛围。
此次会场选择在字节火山引擎总部举行,这个地方比较难找,我绕了一大圈才找到的。
然后就是嘉宾介绍大模型技术,发几张现场照片。
最后就是大模型场景的应用。
目前国内大模型最有影响力的实属百度出品"文心一言",目前已经给个人免费开放,也是唯一一个拿到国家大模型牌照给全网使用。我们看看国内还有哪些大模型:
- 百度,文心一言
- 腾讯,混元
- 京东,言犀
- 字节,Grace,6月内测
- 360,智脑大模型
- 腾讯云,MAAS
- 阿里,通义千问大模型
- 网易,玉言
- 华为,盘古大模型
- 中科院自动化研究所,紫东太初2.0
- 知乎,知海图Ai
- 昆仑万维,天工,个人用户已可免费使用
- 奇安信,类ChatGPT安全大模型,正在训练
- 浪潮信息,源1.0
- 云从科技,从容
- 商汤科技,日日新SenseNova
- 科大讯飞,星火认知大模型
- 紫光股份,百业灵犀
- 智源研究所,悟道.天鹰
- IDEA研究院,二郎神模型
- 光年之外,自研AI大模型,已被美团收购
- 达摩院,八卦炉
- 复旦大学,MOSS
- 清华大学,ChatGLM
- 北京大学,ChatLaw
- 哈尔滨工业大学,本草
- 上海交通大学,K2
- 东北大学,TechGPT 。。。
国外大模型有哪些呢?
- OpenAI,ChatGPT
- Meta,LLaMA
- Google,PaLM2
- Auto-GPT,Auto-GPT
- Anthropic,Claude(Claude+)
- Stability AI,Stable Diffusion XL
- 加州大学伯克利分校、微软研究院,Gorilla 。。。
这些大模型前赴后继的出现,颇有百团大战,百家争鸣的意思,因此业界称之为:百模大战。
大模型既然已经是一个趋势,为什么很多小公司不跟进呢?因为大模型的核心壁垒包括数据、算力、算法。
从算力上看,训练ChatGPT这样的生成式AI需要至少1万张英伟达A100显卡,单张显卡的价格目前是六七万,性能更优的V100单价8万元人民币,也就是说光算力投入至少就要达到六七个亿以上,只有少数头部公司和机构能承担得起。对于商业机构而言,花几个亿买一堆显卡,还不一定能产出成果,这是必须要思考的问题。
接下来是数据和算法,算法比较好理解,比如开发框架、优化算法。数据方面,中国不缺数据,甚至互联网数据比美国还要多,但是选择哪些数据去训练、采用什么样的方式处理,这些都是核心的壁垒。
因此可以肯定头部公司才具有实力跑出大模型。
有了大模型,我们可以在智能客服领域,机器人领域,零售领域,写作绘画领域,股票市场领域以及其他各种你所能看到的接触到的或者看不到的接触不到的领域应用大模型技术,它既可以是通用大模型,也可以是小模型,也或者是垂直大模型,比如ChatGPT是大模型,NaturalSpeech是语音合成小模型,MathGPT是垂直模型(专注数学领域)。以后这些模型会不断在云端或者客户端给企业或者客户提供价值,而我们能做的就是不断贡献数据,让模型深入了解你。未来会有很多个你,他们都是你的克隆 即数字人。你如果想写文章就交给:文章数字人,你想画画,就交给画画数字人,你想听歌,交接给听歌数字人。Whatever you want, they can do it
这些并不会离我们很遥远,也许就在不久的将来你我都有机会亲眼目睹这场有大模型带来的技术革命。
最后我想说的一点就是,大模型有了之后,基于大模型的场景应用将会带来爆发式增长,因此目前了解的越多,越对以后上车有帮助。