【OpenVI—AI热点日报】9月13日

2023-09-13 164

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AI热点日报隆重推出！我们汇集了最新的AI热点信息、最新论文和观点，为您提供最前沿的AI领域资讯。（往期链接请在子社区查看官方博文哦~）

📣📣📣视觉智能开放平台子社区建立新版块——AI热点日报～

我们汇总了世界各地最具影响力的AI项目、研究成果和创新应用的信息，为读者带来前沿的科技资讯。无论你是科技爱好者、人工智能从业者或者只是对未来科技趋势感兴趣的读者，我们都致力于满足你的需求。通过简明易懂的报道和深入的分析，本系列文章将带你领略未来的畅想，了解人工智能正在如何改变我们的生活和社会。

不容错过的每一期，让我们与科技同行，共同探索AI的无限可能。

🌈热点内容直通车

1. 阿里云通义千问 AI 大模型今日正式向全社会开放

阿里云今日宣布通义千问大模型已首批通过备案，并正式向公众开放。

小伙伴可登录通义千问官网（https://qianwen.aliyun.com/）体验。
企业用户可以通过阿里云调用通义千问 API（https://dashscope.console.aliyun.com/model）。

今年 4 月，阿里云通义千问开启邀测，官方透露仅一个月就有超 20 万企业和机构用户申请接入通义千问测试。目前，OPPO、得物、钉钉、淘宝、浙江大学等已与阿里云达成合作，基于通义千问训练自己的专属大模型或开发大模型应用。上个月，阿里云宣布开源通义千问 70 亿参数模型，包括通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat，两款模型均已上线魔搭社区，开源、免费、可商用。阿里云表示，近期将开源一个更大参数规模的大模型版本，供全社会免费商用。

2. 微软研究院提出PromptTTS 2，用语音生成文本提示

据 Huggingface 页面显示，微软研究院近日提出一种名为PromptTTS 2的方法，可通过语音来生成文本提示。

研究团队表示，PromptTTS 2 使用语音理解模型来生成语音的文本提示，以从语音中识别语音属性，并使用大语言模型来根据识别结果制定文本提示。实验结果显示，与之前的方法相比，PromptTTS 2生成的语音与文本提示更加一致，并支持多种语音变异性的采样。

3. 伊利诺伊理工学院研究者提出新方法加速扩散模型生成

伊利诺伊理工学院的研究者提出了一种新的方法，可以加速扩散模型的生成过程。他们使用后训练量化（PTQ）来压缩噪声估计网络，实验结果表明，这种方法可以将全精度的扩散模型量化为8位模型，并且在性能上保持甚至提高。这项研究对于加速人工智能前沿研究具有重要意义

4. 微软发布 13 亿参数小模型 phi-1.5：AGIEval 跑分优于 70 亿参数的 Meta Llama2

微软研究院昨日发布了名为 phi-1.5 的全新预训练语言模型，共有 13 亿个参数，适用于 QA 问答、聊天格式和代码等等场景。

phi-1.5 采用来自 StackOverflow 平台关于 Python 板块的 Q&A 内容、code_contests 中的竞争代码、合成 Python 教科书，gpt-3.5-turbo-0301 生成等各种数据集，此外还包括各种 NLP 合成文本组成的新数据源。

微软表示在测试常识、语言理解和逻辑推理的基准下，phi-1.5 的表现超出了大部分参数低于 100 万的模型。phi-1.5 在 AGIEval 得分上超过了拥有 70 亿参数、来自 Meta 的 llama-2；在带 LM-Eval Harness 的 GPT4AL 跑分套件中，可以媲美 70 亿参数的 llama-2。

📖新鲜论文早知道

1. Hinton学生Alex Graves新作|《贝叶斯流网络，解决离散数据生成问题》

论文概述：

解决问题：本篇论文旨在介绍一种新的生成模型——贝叶斯流网络（BFNs）。通过将一组独立分布的参数在噪声数据样本的指导下进行贝叶斯推断，然后将其作为输入传递给神经网络，输出第二个相互依赖的分布。通过从简单的先验开始，迭代更新这两个分布，可以得到类似于扩散模型的反向过程的生成过程，但是它在概念上更简单，因为不需要正向过程。该论文的目标是提出一种新的生成模型，解决离散领域中的数据生成问题。
问题背景：近来，大规模神经网络彻底改变了生成式模型，使模型具有前所未有的捕捉许多变量之间复杂关系的能力，例如建立高分辨率图像中所有像素的联合模型。大多数神经网络（包括自回归模型、基于流的模型、深度 VAE 和扩散模型）表达能力的关键在于，它们编码的联合分布被分解为一系列步骤，从而避免了「维数灾难（curse of dimensionality）」。也就是说，它们将难题分解成多个简单问题来解决。

论文链接：2308.07037.pdf (arxiv.org)

2. 中科大、微软等|DragNUWA，拖拽下图像就能生成视频

论文概述：现有可控视频生成工作主要存在两个问题：首先，大多数现有工作基于文本、图像或轨迹来控制视频的生成，无法实现视频的细粒度控制；其次，轨迹控制研究仍处于早期阶段，大多数实验都是在 Human3.6M 等简单数据集上进行的，这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型 ——DragNUWA。DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。以拖动（drag）的方式给出运动轨迹，DragNUWA 就能让图像中的物体对象按照该轨迹移动位置，并且可以直接生成连贯的视频。