📣📣📣视觉智能开放平台子社区建立新版块——AI热点日报~
我们汇总了世界各地最具影响力的AI项目、研究成果和创新应用的信息,为读者带来前沿的科技资讯。无论你是科技爱好者、人工智能从业者或者只是对未来科技趋势感兴趣的读者,我们都致力于满足你的需求。通过简明易懂的报道和深入的分析,本系列文章将带你领略未来的畅想,了解人工智能正在如何改变我们的生活和社会。
不容错过的每一期,让我们与科技同行,共同探索AI的无限可能。
🌈热点内容直通车
1.字节发布自研芯片 联合英伟达开源多媒体框架
火山引擎于“视象新生”主题火山引擎视频云&AIGC大会上发布了自研视频编解码芯片,可以根据视频场景,提供不同的算力支持;携手英伟达发布多媒体处理框架BMF(Babit MultiMedia Framework),并全面开源,包含BMF框架层整体开源、9个开箱即用案例、20+API调用范例,旨在帮助企业和开发者将各类视频的原子能力与方案做到优势互补、协同工作和快速落地。
此次火山引擎方面称,字节自研芯片将主要服务于抖音、西瓜视频等视频业务,并将通过火山引擎视频云开放给企业客户。与具备通用计算能力的CPU芯片相比,字节跳动自研芯片仅支持视频编解码任务,因此能够在特定场景具备更高的计算密度。视频编解码是视频应用的基础技术,作用是对图像进行压缩和数字编码,以尽可能小的带宽传送高质量的视频数据。
火山引擎视频云架构技术总监王悦称,一台视频编解码芯片服务器的转码能力,与上百台CPU服务器相当,该芯片可以将单个视频的计算、存储和传输边界成本降到极致。他解释说,芯片领域需要一定规模,才能用累加的边际收益覆盖前期投入,字节自研芯片选择视频领域,是建立在抖音等产品的大用户规模之上的,因此可以持续投入。
2.阿联酋推出开源阿拉伯语 AI 大语言模型 Jais,拥有 130 亿参数
阿联酋团队日前公布了一个名为 Jais 的阿拉伯语 AI 大模型,该模型由一群工程师、研究人员和一家硅谷芯片公司合作开发。据介绍,Jais 大型语言模型包含 130 亿个参数,这些参数由大量阿拉伯语和英语相结合的数据组成,其中一部分来自计算机代码。
该模型在总部位于硅谷的 Cerebras Systems 超级计算机中进行了训练,是 Cerebras、阿联酋人工智能大学、阿联酋 G42 科技集团旗下子公司 Inception(专注于人工智能)之间的合作项目。Jais 的命名来自阿联酋的最高峰,阿联酋人工智能大学教授 Timothy Baldwin 表示,由于没有足够的阿拉伯语数据来训练 Jais 大小的模型,因此英语数据中的计算机代码有助于训练模型的推理能力。
3. 同方知网与华为云签约共建“华知大模型”
近日,在华为云盘古大模型主题论坛上,同方知网数字出版技术股份有限公司与华为云计算技术有限公司正式签署中华知识大模型及人工智能联合创新实验室合作协议。双方将基于华为云盘古大模型打造知识服务行业的 AI 大模型,实现知识服务行业高度智能化发展,推进更深层次的行业数字化转型。
🎤观点方向多了解
Agent并非ChatGPT升级版,它不仅告诉你“如何做”,更会帮你去做;如果CoPilot是副驾驶,那么Agent就是主驾驶;Agent的成败将是决定这一场GPT革命是否是新一代工业革命的关键
5.4亿至3.6亿年前,海洋生物破发,相比于以前的单细胞或简单多细胞生物,三叶虫、海绵和脊索动物等更高层次的智能诞生了。类似于寒武纪生命大爆发,BabyGPT、AutoGPT、Generative Agents等实验性产品相继出现。
从进化的角度来看,生命体的发展主要通过单元增强和组织增强两种方式实现。这两种增强方式相辅相成,使生命体具备了更多样复杂的表达形式。
如同Agent——我们希望它是在任何系统中能够独立思考并与环境交互的智能体。
现在它已经有了一颗足够智商的“大脑”,如何让Agent像人一样思考和执行——只要给定任何一个目标,它就能自动解决各种问题。是进一步提高智商,增强智能体的“自身”单元;还是借助外部模块,强化“组织”能力?
虽然今天的Agent尚无法完成通用任务,也难以如多细胞之间的社会化分工,形成动态稳定体。但在个体Agent的局部模块上,如HuggingGPT,已展示了其使用工具的能力,包括Plug-in成为实际落地的重要里程碑,在大模型的下半场,将是Agent寒武纪落地爆发的时刻。
Agent的成败将是决定这一场GPT革命是否是新一代工业革命的关键。
原文:大模型下半场,关于Agent的几个疑问 (qq.com)
🔥开源模型先体验
Meta开源发布AI翻译模型及数据集
Meta于当地时间8月22日开源发布了AI翻译模型SeamlessM4T,能转录和翻译数百种语言的语音和文本,并开源了翻译数据集SeamlessAlign。Meta称,这是迄今为止最大的开放多模式翻译数据集,覆盖挖掘的语音和文本对齐总计27万小时。
在进行鲁棒性测试时,与当前最先进的模型相比,SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好,平均分别提高了37%和48%。
Demo地址:https://seamless.metademolab.com/
GitHub开源地址:https://github.com/facebookresearch/seamless_communication
关注子社区,每周热点抢先看~
更多精彩内容欢迎点击下方链接,了解更多viapi相关信息。