【OpenVI—AI热点日报】8月28日

2023-08-28 227

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AI热点日报隆重推出！我们汇集了最新的AI热点信息、最新论文和观点，为您提供最前沿的AI领域资讯。（往期链接请在子社区查看官方博文哦~）

📣📣📣视觉智能开放平台子社区建立新版块——AI热点日报～

我们汇总了世界各地最具影响力的AI项目、研究成果和创新应用的信息，为读者带来前沿的科技资讯。无论你是科技爱好者、人工智能从业者或者只是对未来科技趋势感兴趣的读者，我们都致力于满足你的需求。通过简明易懂的报道和深入的分析，本系列文章将带你领略未来的畅想，了解人工智能正在如何改变我们的生活和社会。

不容错过的每一期，让我们与科技同行，共同探索AI的无限可能。

🌈热点内容直通车

1. 阿里云开源通义千问多模态视觉模型 Qwen-VL，号称“远超同等规模通用模型表现”

阿里云25日推出了大规模视觉语言模型 Qwen-VL，目前已经在 ModeScope 开源，阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。

据悉，Qwen-VL 是一款支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的 VL 模型，其除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。Qwen-VL 以 Qwen-7B 为基座语言模型，在模型架构上引入视觉编码器，使得模型支持视觉信号输入，该模型支持的图像输入分辨率为 448，此前开源的 LVLM 模型通常仅支持 224 分辨率。

官方表示，该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景，在主流的多模态任务评测和多模态聊天能力评测中，取得了远超同等规模通用模型的表现。此外，在 Qwen-VL 的基础上，通义千问团队使用对齐机制，打造了基于 LLM 的视觉 AI 助手 Qwen-VL-Chat，可让开发者快速搭建具备多模态能力的对话应用。

通义千问团队同时表示，为了测试模型的多模态对话能力，他们构建了一套基于 GPT-4 打分机制的测试集 “试金石”，对 Qwen-VL-Chat 及其他模型进行对比测试，Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果。

2. 科大讯飞：华为 GPU 可对标英伟达 A100，通用大模型明年上半年对标 GPT-4

在2023 亚布力中国企业家论坛第十九届夏季高峰会期间，科大讯飞创始人刘庆峰表示，“中国 AI 领域的算法没有问题，但算力似乎始终被英伟达按住。”以前的“百模大战”，基本都是英伟达训练出来的，在企业内部只能做出微小的调优、训练，从而训练模型“还是比较难的”。

我特别高兴告诉大家，华为的 GPU 能力现在已经跟英伟达 A100 一样了。任正非高度重视，还有华为的三个董事到科大讯飞专班工作，现在已经做到对标英伟达的 A100。

此外刘庆峰再度表态，今年科大讯飞定了一个目标，到今年 10 月 24 日，科大讯飞将发布通用大模型，全面对标 ChatGPT ，且要实现中文全面超越，英文跟它相当。“坦白讲，今天我们跟它还有差距，但是我们很清楚，10 月份就能赶上，明年上半年就对标 GPT-4。”

3. Midjourney 推出“Inpainting”功能，可对已生成图片进行局部重绘

AI 作画工具 Midjourney 日前上线了一项新功能“Inpainting”，以每月 10 美元（约 73 元人民币）的价格订阅 Midjourney 的用户现可体验。

据称，该功能能够使用户对已生成图片的局部或细节进行修改，不需要重新创建一个全新的作品。外媒 PCMag 报道称，用户可以先利用该工具生成一张“一条鱼从水面跃出”的图片，随后通过“Vary（Region）”按钮，可输入一个新的提示，例如将此前生成的鱼替换成鲨鱼。

Midjourney 表示，该功能在所选区域占图像大小 20%-50% 的情况下，能够拥有最佳表现。此外，如果更改的局部细节与图片匹配度更高，效果也就更好。

比如下图所示，一名此前参与测试的用户 Chase Lean 称，该功能可以更换一名模特的衣服，并演示了将她的衣服从蓝色运动服变为黑色运动服、乃至各种时装 / 职业装的效果，而背景和模特的姿态几乎没有任何改变。

📖新鲜论文早知道

清华推出AI大模型数据库管理工具D-Bot

清华大学研究团队于8月10日发布论文《LLM As DBA》，提出了基于大型语言模型（LLM）的数据库管理员D-Bot，可以不断从文本源中获取数据库维护经验，为目标数据库提供合理及时的诊断和优化建议。该技术有望在保证数据库安全性的基础上，降低数据库管理成本。

项目地址： https://github.com/TsinghuaDatabaseGroup/DB-GPT

论文地址：https://arxiv.org/abs/2308.05481

🔥开源模型先体验

15B模型单项能力锤得过GPT3.5，开源SQLCoder已上岗

作为一个 SOTA 大型语言模型， SQLCoder 将自然语言问题转换为 SQL 查询。在开发者的开源评估框架 SQLEval 中，SQLCoder 的性能明显优于所有主要的开源模型，并且优于 OpenAI 的 GPT-3.5。SQLCoder 是一个 15B 参数的 LLM，也是 StarCoder 的微调实现。SQLCoder 在手工制作的 SQL 查询上进行了微调，难度依次递增。在针对单个数据库模式进行微调时，它的性能可与 GPT-4 媲美，甚至更胜一筹。作者不仅开源了模型权重，同样开源了评估框架与评估数据集。发布数据集的目的是丰富可用基准，帮助研究人员和工程师更好地了解文本到 SQL 生成模型的性能，特别是该模型对返回结果中的无害变化（如列重命名、附加列和重新排序）的稳健性。

创建数据集：作者创建了一个手工编辑的 prompt - 补全对数据集，重点是文本到 SQL 任务。该数据集由 10 个不同的模式创建，问题难度各不相同。此外，他们还从 7 个新模式中创建了一个包含 175 个问题的评估数据集。他们确保在训练数据集和评估数据集中都选择了有 4-20 张表的复杂模式，这是因为只有 1 或 2 个表的模式由于关系有限，往往只能进行简单直接的查询。
问题分类：数据集创建后，作者将数据集中的每个问题分为易、中、难、特难四类。这种分类通过调整 Spider 数据集使用的标准来完成，以衡量 SQL 难度。最后，他们将数据集分为两个不同的子部分，分别是简单问题和中等问题，以及难题和超难题。
微调：作者分以下两个阶段对模型进行了微调。首先，仅在简单和中等难度的问题上对 StarCoder 基础模型进行了微调。其次，在难题和超难题上对得到的模型（代码为 defog-easy）进行微调，从而得到 SQLcoder。
评估：作者在自己创建的自定义数据集上对模型进行了评估。评估 SQL 查询的正确性非常困难，他们曾考虑使用 GPT-4 作为评估标准，但遇到了很多问题。过程中他们还意识到，两个不同的 SQL 查询可能都正确。

关注子社区，每周热点抢先看~

更多精彩内容欢迎点击下方链接，了解更多viapi相关信息。

视觉智能开放平台直通车

【OpenVI—AI热点日报】8月28日

🌈热点内容直通车

1. 阿里云开源通义千问多模态视觉模型 Qwen-VL，号称“远超同等规模通用模型表现”

2. 科大讯飞：华为 GPU 可对标英伟达 A100，通用大模型明年上半年对标 GPT-4

3. Midjourney 推出“Inpainting”功能，可对已生成图片进行局部重绘

📖新鲜论文早知道

清华推出AI大模型数据库管理工具D-Bot

🔥开源模型先体验

15B模型单项能力锤得过GPT3.5，开源SQLCoder已上岗

视觉智能

热门文章

最新文章

相关课程

相关电子书

相关实验场景

【OpenVI—AI热点日报】8月28日

🌈热点内容直通车

1. 阿里云开源通义千问多模态视觉模型 Qwen-VL，号称“远超同等规模通用模型表现”

2. 科大讯飞：华为 GPU 可对标英伟达 A100，通用大模型明年上半年对标 GPT-4

3. Midjourney 推出“Inpainting”功能，可对已生成图片进行局部重绘

📖新鲜论文早知道﻿

清华推出AI大模型数据库管理工具D-Bot

🔥开源模型先体验

15B模型单项能力锤得过GPT3.5，开源SQLCoder已上岗

视觉智能

热门文章

最新文章

相关课程

相关电子书

相关实验场景

📖新鲜论文早知道