📣📣📣视觉智能开放平台子社区建立新版块——AI热点日报~
我们汇总了世界各地最具影响力的AI项目、研究成果和创新应用的信息,为读者带来前沿的科技资讯。无论你是科技爱好者、人工智能从业者或者只是对未来科技趋势感兴趣的读者,我们都致力于满足你的需求。通过简明易懂的报道和深入的分析,本系列文章将带你领略未来的畅想,了解人工智能正在如何改变我们的生活和社会。
不容错过的每一期,让我们与科技同行,共同探索AI的无限可能。
🌈热点内容直通车
1. 书生・浦语 20B 开源 AI 大模型发布,消费级 GPU 单卡即可运行
近日,上海 AI 实验室、商汤科技、香港中文大学、复旦大学宣布推出书生・浦语 20B 版本,这是一款中量级大模型,号称基于 2.3T Tokens 预训练语料从头训练,相较于 InternLM-7B,其理解能力、推理能力、数学能力、编程能力等都有显著提升。
20B 量级模型可在单卡上进行推理,经过低比特量化后,可运行在单块消费级 GPU 上,因而在实际应用中更为便捷。相比于此前的开源模型,InternLM-20B 拥有几大亮点:
- 以不足 1/3 的参数量,测评成绩达到了 Llama2-70B 的水平。
- 支持数十类插件,上万个 API 功能,还具备代码解释和反思修正能力。
- 实现了对长文理解、长文生成和超长对话的有效支持,同时支持 16K 语境长度。
- 研究团队进行了基于 SFT 和 RLHF 两阶段价值对齐,并通过专家红队的对抗训练大幅提高其安全性。
此外,书生・浦语开源工具链也已全新升级,形成更完善的体系,包括预训练框架 InternLM-Train、低成本微调框架 XTuner、部署推理框架 LMDeploy、评测框架 OpenCompass 以及面向场景应用的智能体框架 Lagent。
书生・浦语-20B:
https://modelscope.cn/models/Shanghai_AI_Laboratory/internlm-20b
书生・浦语-对话-20B:
https://modelscope.cn/models/Shanghai_AI_Laboratory/internlm-20b-chat
2. OpenAI发布DALL·E 3,AI绘画能力大幅提升
OpenAI发布了最新版本的DALL·E 3,将AI绘画和ChatGPT相结合。新版DALL·E 3降低了提示词门槛,能够准确描述细节,实现精确到细节的绘画。用户只需随意想象,ChatGPT帮助拓展词,DALL·E 3提供精确细节的绘画。此外,DALL·E 3还具备模糊形容词的能力,能够创作一致形象,并解决了之前版本不会写字的问题。OpenAI还预告了DALL·E 3即将推出的图像鉴别器,用于识别DALL·E 3生成的图像。DALL·E 3将在10月对ChatGPT Pro会员和企业版用户开放,独立版将在今年秋天晚些时候提供。
3. 波兰初创公司Auctoria利用生成式AI创建视频游戏模型
波兰VR游戏开发商Carbon Studio的联合创始人Aleksander Caban发现现代游戏设计存在一个问题:手动创建游戏环境的基本元素非常耗时。于是他与团队合作开发了Auctoria,这是一个利用AI从零开始生成3D视频游戏资源的平台。Auctoria使用生成式AI技术创建不同类型的模型,包括整个3D游戏关卡、上传的图像和纹理的3D等效模型。Auctoria的AI算法和训练数据都是自主开发的。该公司计划与游戏开发工作室合作,并希望筹集500万美元用于扩展平台。
4. 雷蛇推出雷幻创作功能:简单三步让用户自建高分辨率壁纸
雷蛇在今天召开的 RazerCon 2023 大会上,宣布今天(2023 年 9 月 21 日)已经在全球范围内,推出雷幻创作(Axon Create)功能,简单三步,创建自己的高分辨率壁纸。
雷幻创作是一个壁纸生成工具,让每个人都可以通过 Razer 的 AI 机器学习技术创建自己的高分辨率壁纸并添加自己的色度效果。其具备以下亮点:
- 简单三步,创建自己的高分辨率壁纸,并添加独有的 Chroma 幻彩 RGB 效果
- 只需简单的文本输入,任何人都可以获得人工智能生成的独特壁纸
- 新增 Chroma 幻彩生成功能会根据壁纸的核心颜色,自动完成幻彩 RGB 效果添加,直到创作者满意为止
- 完成后,创作者可以立即将壁纸和幻彩 RGB 效果应用到电脑上
🎤观点方向多了解
Inflection & DeepMind联合创始Mustafa Suleyman新访谈的主要观点
Mustafa Suleyman在80000hours的新访谈(https://80000hours.org/podcast/episodes/mustafa-suleyman-getting-washington-and-silicon-valley-to-tame-ai/),在即将到来的浪潮中,为了限制新兴技术的负面和不可预见的后果,他给出了六点建议
1)不要简单地把人划分为悲观主义者和乐观主义者。我们应该客观地看待事实,理性讨论风险。
2)要让怀疑者重视安全问题,可以从国家安全和模型误用等角度来说服。过于注重超智能会让讨论陷入歧路。
3)关键是遏制武器化应用的扩散而不是训练模型本身。公司内部员工参与这些讨论很重要。
4)不能完全开源前沿模型,否则小组或个人也能获得巨大的影响力。但要平衡开放性与控制之间的利弊。
5)一些自愿承诺还需转为法定强制要求,如能力审计、禁止教导制造生物化学武器等。也应限制在选举中使用大型语言模型。
6)需要继续就人工智能的风险与控制进行理性讨论和行动。既不可过于悲观,也不能轻视潜在问题。
模型训练军备竞赛会加剧AI的风险吗?
Inflection AI正在建造世界上最大的超级计算机之一,并且他认为在接下来的18个月内,他们可能会进行一次比制造GPT-4的语言模型训练运行大10倍或100倍的训练运行。100倍的训练仍然会产生一个聊天机器人,可以理解为一个更好的GPT-4,尽管这会成为一个更令人印象深刻的模型,但这并不危险——因为它缺乏自主性,不能改造物理世界等让模型自身变得危险的基本要素。仅仅生产一个非常好的、更好的 GPT-4 还不算危险;为了让它变得危险,我们需要增加其他能力,比如前边提到的,让模型能够自我迭代,自我制定目标等等。那大约是五年、十年、十五年、二十年之后的事了。
Suleyman认为,Sam Altman最近说过他们没有训练 GPT-5,可能没有说实话。(Come on. I don’t know. I think it’s better that we’re all just straight about it.)他希望所有拥有大规模算力的公司都能尽可能的保持透明,这也是他们披露自己拥有的计算总量的原因。他们正在训练比GPT-4更大的模型。目前,他们有6000台H100正在训练模型。到12月,22,000个H100全面投入运营。从现在开始,每个月都会增加1000到2000台H100。他认为谷歌DeepMind也应该做同样的事情,应该披露Gemini接受了多少FLOPS训练。
对于开源的看法(作为一直在闭源科技公司工作的Suleyman,对于开源模型的价值和可能的风险有非常与众不同的观点)
首先,他认为,在未来5年这个时间维度之内,开源模型始终会落后最前沿的闭源模型3-5年的时间。而且开源模型会增加AI带来的社会风险。如果所有人都能无限制地访问最新的模型,将会出现一个现象——「力量的快速扩散」。开源的大模型会将这种力量交到每个人的手中,相当于给了每个人一个潜在的大规模不稳定破坏性的工具。而到时候,再想办法避免这些工具可能产生的破坏性后果,有人做了一个很巧妙的比喻——试图通过用手接住雨水来让雨停下来。
他曾经向监管部门解释过,AI技术未来会降低很多潜在危险化合物或者武器的开发门槛。AI能在实际制作这些东西时提供大量的帮助——比如告知在实验室中遇到技术挑战时从哪里获取工具等等。不过确实,从预训练中删除这些内容,对模型进行对齐等等办法,可以有效地降低这样的风险。
总之,对于用大模型能力来做坏事的人,需要尽量让他们在做这些事的时候变得困难。但是如果尽可能的开源一切模型,未来面对能力越来越强的模型,将会把更多的类似风险暴露出来。所以虽然开源模型对于很多人来说确实是一件好事,能够让所有人都获得模型并且进行各种各样的尝试,带来技术上的创新和改进,但是也一定要看到开源的风险,因为并不是每个人都是善意和友好的。
在谷歌和DeepMind期间的抓马
谷歌的出发点是好地,但它运作的方式仍然像传统的官僚机构一样。当我们设立了谷歌的伦理委员会时,计划有九名独立成员,是对于开发敏感技术过程中进行外部监督的重要措施。但因为任命了一个保守派人士,而她过去曾发表过一些有争议的言论,很多网友就在推特等场合抵制她,同时也抵制其他支持她的几个成员,要求他们退出委员会。这是一场彻底的悲剧,非常令人沮丧。我们花了两年时间来建立这个委员会,这是朝着对我们正在开发的非常敏感的技术进行外部审查的第一步。不幸的是,在一周内,九名成员中的三名辞职了,最终她也辞职了,然后我们失去了半数委员会成员。然后公司转身说:「我们为什么要招人来限制自己?这纯粹是浪费时间。」
当DeepMind被收购时,我们提出了收购的条件,即我们要有一个伦理和安全委员会。我们计划在伦理和安全委员会之后,我们要将DeepMind打造成一个全球利益公司:一个所有利益相关者在做决策时都能发声的公司。它是一个按担保有限责任设立的公司。然后,我们计划制定一个宪章,为AGI的开发制定相关的伦理安全的目标;这样使得我们可以将收入的大部分用于科学和社会使命。这是一个非常有创意和实验性的结构。但是当Alphabet看到设立伦理委员会发生的事情时,他们变得胆怯了。他们说:「这完全疯了。你们的全球利益公司也会发生同样的事情。为什么要那样做?」最终,我们将DeepMind合并进入到了谷歌,从某种程度上说,DeepMind从未独立过——现在当然也完全从属于谷歌。
谷歌下一代大模型Gemini
与OpenAI类似,谷歌使用GPT-4的方法来构建模型,由多个具有特定能力的人工智能专家模型组成。简言之,Gemini同样是一个混合专家模型(MoE)。这也可能意味着,谷歌希望提供不同参数规模的Gemini,因为从成本效益上考虑是个不错的选择。除了生成图像和文本外,Gemini接受过YouTube视频转录数据的训练,也可以生成简单的视频,类似于RunwayML Gen-2。另外,比起Bard,Gemini在编码能力方面也得到了显著提升。
Gemini推出之后,谷歌也计划逐步将其整合到自家产品线中,包括升级Bard,谷歌办公全家桶、谷歌云等等。其实,在Gemini之前,DeepMind还有一个代号为「Goodall」的模型,基于未宣布的模型Chipmunk打造,可与ChatGPT匹敌。不过GPT-4诞生后,谷歌最后决放弃这一模型研发。
据称,至少有20多位高管参与了Gemini的研发,DeepMind的创始人Demis Hassabis领导,谷歌创始人Sergey Brin参与研发。还有谷歌DeepMind组成的数百名员工,其中包括前谷歌大脑主管Jeff Dean等等。Demis Hassabis在此前接受采访表示,Gemini将结合AlphaGo类型系统的一些优势和大型模型惊人的语言能力。
🔥开源模型先体验
阿里云发布开源LLM开发框架ModelScope-Agent
近日阿里云AI模型社区魔搭(ModelScope)推出适配开源大语言模型(LLM)的AI Agent开发框架ModelScope-Agent,其代码已开源。此前,魔搭已用这套框架在社区做了“打样”,搭建了ModeScopeGPT,它能通过自然语言与用户交互、接受用户指令,通过“中枢模型”通义千问调用社区的众多AI模型API,自主完成人类布置的任务。ModeScopeGPT的调用量已超过25万。
据称,AI Agent(AI智能体、AI代理)是当前大模型领域热门的研究方向,它是指基于LLM的、能够使用工具自主完成特定任务的智能体。目前阶段的LLM存在能力边界,主要擅长处理文本任务。AI Agent将LLM与其他模型、软件等外部工具协同,便能处理真实世界中的各种复杂任务,比如接入视频生成模型,自主生产视频;接入外部软件,帮人类写邮件、订票、购物等。AI Agent的工作流程一般包括任务的理解、规划和执行,其中,LLM负责任务规划、工具调用以及回复生成,是整个流程的智能中枢。
ModelScope-Agent开源地址:https://github.com/modelscope/modelscope-agent/
关注子社区,每周热点抢先看~
更多精彩内容欢迎点击下方链接,了解更多viapi相关信息。