📣📣📣视觉智能开放平台子社区建立新版块——AI热点日报～

我们汇总了世界各地最具影响力的AI项目、研究成果和创新应用的信息，为读者带来前沿的科技资讯。无论你是科技爱好者、人工智能从业者或者只是对未来科技趋势感兴趣的读者，我们都致力于满足你的需求。通过简明易懂的报道和深入的分析，本系列文章将带你领略未来的畅想，了解人工智能正在如何改变我们的生活和社会。

不容错过的每一期，让我们与科技同行，共同探索AI的无限可能。

🌈热点内容直通车

1. 书生・浦语 20B 开源 AI 大模型发布，消费级 GPU 单卡即可运行

近日，上海 AI 实验室、商汤科技、香港中文大学、复旦大学宣布推出书生・浦语 20B 版本，这是一款中量级大模型，号称基于 2.3T Tokens 预训练语料从头训练，相较于 InternLM-7B，其理解能力、推理能力、数学能力、编程能力等都有显著提升。

20B 量级模型可在单卡上进行推理，经过低比特量化后，可运行在单块消费级 GPU 上，因而在实际应用中更为便捷。相比于此前的开源模型，InternLM-20B 拥有几大亮点：

以不足 1/3 的参数量，测评成绩达到了 Llama2-70B 的水平。
支持数十类插件，上万个 API 功能，还具备代码解释和反思修正能力。
实现了对长文理解、长文生成和超长对话的有效支持，同时支持 16K 语境长度。
研究团队进行了基于 SFT 和 RLHF 两阶段价值对齐，并通过专家红队的对抗训练大幅提高其安全性。

此外，书生・浦语开源工具链也已全新升级，形成更完善的体系，包括预训练框架 InternLM-Train、低成本微调框架 XTuner、部署推理框架 LMDeploy、评测框架 OpenCompass 以及面向场景应用的智能体框架 Lagent。

书生・浦语-20B：

https://modelscope.cn/models/Shanghai_AI_Laboratory/internlm-20b

书生・浦语-对话-20B：

https://modelscope.cn/models/Shanghai_AI_Laboratory/internlm-20b-chat

2. OpenAI发布DALL·E 3，AI绘画能力大幅提升

OpenAI发布了最新版本的DALL·E 3，将AI绘画和ChatGPT相结合。新版DALL·E 3降低了提示词门槛，能够准确描述细节，实现精确到细节的绘画。用户只需随意想象，ChatGPT帮助拓展词，DALL·E 3提供精确细节的绘画。此外，DALL·E 3还具备模糊形容词的能力，能够创作一致形象，并解决了之前版本不会写字的问题。OpenAI还预告了DALL·E 3即将推出的图像鉴别器，用于识别DALL·E 3生成的图像。DALL·E 3将在10月对ChatGPT Pro会员和企业版用户开放，独立版将在今年秋天晚些时候提供。

3. 波兰初创公司Auctoria利用生成式AI创建视频游戏模型

波兰VR游戏开发商Carbon Studio的联合创始人Aleksander Caban发现现代游戏设计存在一个问题：手动创建游戏环境的基本元素非常耗时。于是他与团队合作开发了Auctoria，这是一个利用AI从零开始生成3D视频游戏资源的平台。Auctoria使用生成式AI技术创建不同类型的模型，包括整个3D游戏关卡、上传的图像和纹理的3D等效模型。Auctoria的AI算法和训练数据都是自主开发的。该公司计划与游戏开发工作室合作，并希望筹集500万美元用于扩展平台。

4. 雷蛇推出雷幻创作功能：简单三步让用户自建高分辨率壁纸

雷蛇在今天召开的 RazerCon 2023 大会上，宣布今天（2023 年 9 月 21 日）已经在全球范围内，推出雷幻创作（Axon Create）功能，简单三步，创建自己的高分辨率壁纸。

雷幻创作是一个壁纸生成工具，让每个人都可以通过 Razer 的 AI 机器学习技术创建自己的高分辨率壁纸并添加自己的色度效果。其具备以下亮点：

简单三步，创建自己的高分辨率壁纸，并添加独有的 Chroma 幻彩 RGB 效果
只需简单的文本输入，任何人都可以获得人工智能生成的独特壁纸
新增 Chroma 幻彩生成功能会根据壁纸的核心颜色，自动完成幻彩 RGB 效果添加，直到创作者满意为止
完成后，创作者可以立即将壁纸和幻彩 RGB 效果应用到电脑上

🎤观点方向多了解

Inflection & DeepMind联合创始Mustafa Suleyman新访谈的主要观点

Mustafa Suleyman在80000hours的新访谈（https://80000hours.org/podcast/episodes/mustafa-suleyman-getting-washington-and-silicon-valley-to-tame-ai/），在即将到来的浪潮中，为了限制新兴技术的负面和不可预见的后果，他给出了六点建议

1)不要简单地把人划分为悲观主义者和乐观主义者。我们应该客观地看待事实，理性讨论风险。

2)要让怀疑者重视安全问题,可以从国家安全和模型误用等角度来说服。过于注重超智能会让讨论陷入歧路。

3)关键是遏制武器化应用的扩散而不是训练模型本身。公司内部员工参与这些讨论很重要。

4)不能完全开源前沿模型，否则小组或个人也能获得巨大的影响力。但要平衡开放性与控制之间的利弊。

5)一些自愿承诺还需转为法定强制要求,如能力审计、禁止教导制造生物化学武器等。也应限制在选举中使用大型语言模型。

6)需要继续就人工智能的风险与控制进行理性讨论和行动。既不可过于悲观,也不能轻视潜在问题。

模型训练军备竞赛会加剧AI的风险吗？

Inflection AI正在建造世界上最大的超级计算机之一，并且他认为在接下来的18个月内，他们可能会进行一次比制造GPT-4的语言模型训练运行大10倍或100倍的训练运行。100倍的训练仍然会产生一个聊天机器人，可以理解为一个更好的GPT-4，尽管这会成为一个更令人印象深刻的模型，但这并不危险——因为它缺乏自主性，不能改造物理世界等让模型自身变得危险的基本要素。仅仅生产一个非常好的、更好的 GPT-4 还不算危险；为了让它变得危险，我们需要增加其他能力，比如前边提到的，让模型能够自我迭代，自我制定目标等等。那大约是五年、十年、十五年、二十年之后的事了。

Suleyman认为，Sam Altman最近说过他们没有训练 GPT-5，可能没有说实话。（Come on. I don’t know. I think it’s better that we’re all just straight about it.）他希望所有拥有大规模算力的公司都能尽可能的保持透明，这也是他们披露自己拥有的计算总量的原因。他们正在训练比GPT-4更大的模型。目前，他们有6000台H100正在训练模型。到12月，22,000个H100全面投入运营。从现在开始，每个月都会增加1000到2000台H100。他认为谷歌DeepMind也应该做同样的事情，应该披露Gemini接受了多少FLOPS训练。

对于开源的看法（作为一直在闭源科技公司工作的Suleyman，对于开源模型的价值和可能的风险有非常与众不同的观点）

首先，他认为，在未来5年这个时间维度之内，开源模型始终会落后最前沿的闭源模型3-5年的时间。而且开源模型会增加AI带来的社会风险。如果所有人都能无限制地访问最新的模型，将会出现一个现象——「力量的快速扩散」。开源的大模型会将这种力量交到每个人的手中，相当于给了每个人一个潜在的大规模不稳定破坏性的工具。而到时候，再想办法避免这些工具可能产生的破坏性后果，有人做了一个很巧妙的比喻——试图通过用手接住雨水来让雨停下来。

他曾经向监管部门解释过，AI技术未来会降低很多潜在危险化合物或者武器的开发门槛。AI能在实际制作这些东西时提供大量的帮助——比如告知在实验室中遇到技术挑战时从哪里获取工具等等。不过确实，从预训练中删除这些内容，对模型进行对齐等等办法，可以有效地降低这样的风险。

总之，对于用大模型能力来做坏事的人，需要尽量让他们在做这些事的时候变得困难。但是如果尽可能的开源一切模型，未来面对能力越来越强的模型，将会把更多的类似风险暴露出来。所以虽然开源模型对于很多人来说确实是一件好事，能够让所有人都获得模型并且进行各种各样的尝试，带来技术上的创新和改进，但是也一定要看到开源的风险，因为并不是每个人都是善意和友好的。

在谷歌和DeepMind期间的抓马

谷歌的出发点是好地，但它运作的方式仍然像传统的官僚机构一样。当我们设立了谷歌的伦理委员会时，计划有九名独立成员，是对于开发敏感技术过程中进行外部监督的重要措施。但因为任命了一个保守派人士，而她过去曾发表过一些有争议的言论，很多网友就在推特等场合抵制她，同时也抵制其他支持她的几个成员，要求他们退出委员会。这是一场彻底的悲剧，非常令人沮丧。我们花了两年时间来建立这个委员会，这是朝着对我们正在开发的非常敏感的技术进行外部审查的第一步。不幸的是，在一周内，九名成员中的三名辞职了，最终她也辞职了，然后我们失去了半数委员会成员。然后公司转身说：「我们为什么要招人来限制自己？这纯粹是浪费时间。」

当DeepMind被收购时，我们提出了收购的条件，即我们要有一个伦理和安全委员会。我们计划在伦理和安全委员会之后，我们要将DeepMind打造成一个全球利益公司：一个所有利益相关者在做决策时都能发声的公司。它是一个按担保有限责任设立的公司。然后，我们计划制定一个宪章，为AGI的开发制定相关的伦理安全的目标；这样使得我们可以将收入的大部分用于科学和社会使命。这是一个非常有创意和实验性的结构。但是当Alphabet看到设立伦理委员会发生的事情时，他们变得胆怯了。他们说：「这完全疯了。你们的全球利益公司也会发生同样的事情。为什么要那样做？」最终，我们将DeepMind合并进入到了谷歌，从某种程度上说，DeepMind从未独立过——现在当然也完全从属于谷歌。

谷歌下一代大模型Gemini

与OpenAI类似，谷歌使用GPT-4的方法来构建模型，由多个具有特定能力的人工智能专家模型组成。简言之，Gemini同样是一个混合专家模型（MoE）。这也可能意味着，谷歌希望提供不同参数规模的Gemini，因为从成本效益上考虑是个不错的选择。除了生成图像和文本外，Gemini接受过YouTube视频转录数据的训练，也可以生成简单的视频，类似于RunwayML Gen-2。另外，比起Bard，Gemini在编码能力方面也得到了显著提升。

Gemini推出之后，谷歌也计划逐步将其整合到自家产品线中，包括升级Bard，谷歌办公全家桶、谷歌云等等。其实，在Gemini之前，DeepMind还有一个代号为「Goodall」的模型，基于未宣布的模型Chipmunk打造，可与ChatGPT匹敌。不过GPT-4诞生后，谷歌最后决放弃这一模型研发。

据称，至少有20多位高管参与了Gemini的研发，DeepMind的创始人Demis Hassabis领导，谷歌创始人Sergey Brin参与研发。还有谷歌DeepMind组成的数百名员工，其中包括前谷歌大脑主管Jeff Dean等等。Demis Hassabis在此前接受采访表示，Gemini将结合AlphaGo类型系统的一些优势和大型模型惊人的语言能力。

🔥开源模型先体验

阿里云发布开源LLM开发框架ModelScope-Agent

近日阿里云AI模型社区魔搭（ModelScope）推出适配开源大语言模型（LLM）的AI Agent开发框架ModelScope-Agent，其代码已开源。此前，魔搭已用这套框架在社区做了“打样”，搭建了ModeScopeGPT，它能通过自然语言与用户交互、接受用户指令，通过“中枢模型”通义千问调用社区的众多AI模型API，自主完成人类布置的任务。ModeScopeGPT的调用量已超过25万。

据称，AI Agent（AI智能体、AI代理）是当前大模型领域热门的研究方向，它是指基于LLM的、能够使用工具自主完成特定任务的智能体。目前阶段的LLM存在能力边界，主要擅长处理文本任务。AI Agent将LLM与其他模型、软件等外部工具协同，便能处理真实世界中的各种复杂任务，比如接入视频生成模型，自主生产视频；接入外部软件，帮人类写邮件、订票、购物等。AI Agent的工作流程一般包括任务的理解、规划和执行，其中，LLM负责任务规划、工具调用以及回复生成，是整个流程的智能中枢。

ModelScope-Agent开源地址：https://github.com/modelscope/modelscope-agent/

关注子社区，每周热点抢先看~

更多精彩内容欢迎点击下方链接，了解更多viapi相关信息。

视觉智能开放平台直通车

【OpenVI—AI热点日报】9月22日

🌈热点内容直通车

1. 书生・浦语 20B 开源 AI 大模型发布，消费级 GPU 单卡即可运行

2. OpenAI发布DALL·E 3，AI绘画能力大幅提升

3. 波兰初创公司Auctoria利用生成式AI创建视频游戏模型

4. 雷蛇推出雷幻创作功能：简单三步让用户自建高分辨率壁纸

🎤观点方向多了解

Inflection & DeepMind联合创始Mustafa Suleyman新访谈的主要观点

🔥开源模型先体验

阿里云发布开源LLM开发框架ModelScope-Agent

视觉智能

热门文章

最新文章

相关课程

相关电子书

相关实验场景