就在上周,微软继推出 new bing 之后,在 AIGC 领域再爆重磅炸弹:推出比 ChatGPT 更加全能的 AI —— AI--Kosmos-1
Kosmos,该词源于希腊语 kosmos,意思是:宇宙、和谐、表示一个有序且和谐的系统,与另外一个单词 chaos (混乱)相对。
怎么读?
本瓜:科哦日摸斯~~
ChatGPT 只能是纯文本对话,而这个 Kosmos-1 可以处理文本、音频、图像和视频等内容!!
ChatGPT 是【大型语言模型】(LLM) ,Kosmos-1 是【多模式大型语言模型】(MLLM)
来看看它的表现,一图胜千言:
CRAZY,在原先文本对话的基础上,再加图片的理解、音频的理解等,确实更进一步。
它原理如何?
咱们用魔法打败魔法,让兄弟产品 new bing 来作解释:
原理还是有点复杂,主要的观点:
KOSMOS-1 主干基于 Transformer 的因果语言模型,整合了语言、视觉、语言等模态的输入,对于连续信号模态(例如图像和音频),将输入表示为离散编码。
KOSMOS-1 借助了 PyTorch 框架,这个框架是一个深度学习的优化张量库,可使用 GPU 和 CPU 进行计算。
PyTorch 提供了灵活的动态计算图、自动求导功能、分布式训练和部署等特性,我们可以用它来构建各种神经网络模型,如卷积神经网络、循环神经网络、变分自编码器等。。。
Kosmos-1 在哪体验?
目前它还只是一个研究项目,未商用。最新进展在:
- Microsoft Introduces Kosmos-1: A Multimodal Large Language Model That Can Perceive General Modalities, Follow Instructions, And Perform In-Context Learning - MarkTechPost
- Microsoft Introduces Kosmos-1: A Multimodal Large Language Model That Can Perceive General Modalities, Follow Instructions, And Perform In-Context Learning - MarkTechPost
别的不说,微软这波确实走在了前头,首先它们以最快的速度引入 GPT 3.5 到自家 Edge 浏览器中,推出 new bing ,狂拉一波浏览器的使用率,之前这个基本被 Google 吞占了。
而后,又推出 Kosmos-1,将 AI 与图片分析、音频分析结合,可看出其野心。
前两天在 YOUTUBE 上看到一个博主说:微软正准备将 GPT 整合到自己的各类工具中,比如文档写作 office、onenote 等等,这必将带来又一波波爆炸式的产品增长。
凭借 AIGC,微软这波或能弯道超车,在 AI 应用上,超越谷歌、甲骨文等公司。
微软这波又赢了~~