【OpenVI—AI热点日报】8月28日

简介: AI热点日报隆重推出! 我们汇集了最新的AI热点信息、最新论文和观点,为您提供最前沿的AI领域资讯。 (往期链接请在子社区查看官方博文哦~)

📣📣📣视觉智能开放平台子社区建立新版块——AI热点日报~

     我们汇总了世界各地最具影响力的AI项目、研究成果和创新应用的信息,为读者带来前沿的科技资讯。无论你是科技爱好者、人工智能从业者或者只是对未来科技趋势感兴趣的读者,我们都致力于满足你的需求。通过简明易懂的报道和深入的分析,本系列文章将带你领略未来的畅想,了解人工智能正在如何改变我们的生活和社会。

不容错过的每一期,让我们与科技同行,共同探索AI的无限可能。



🌈热点内容直通车

1. 阿里云开源通义千问多模态视觉模型 Qwen-VL,号称“远超同等规模通用模型表现”

     阿里云25日推出了大规模视觉语言模型 Qwen-VL,目前已经在 ModeScope 开源阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat

     据悉,Qwen-VL 是一款支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的 VL 模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。Qwen-VL 以 Qwen-7B 为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的 LVLM 模型通常仅支持 224 分辨率

      官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。此外,在 Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于 LLM 的视觉 AI 助手 Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。

     通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于 GPT-4 打分机制的测试集 “试金石”,对 Qwen-VL-Chat 及其他模型进行对比测试,Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果


2. 科大讯飞:华为 GPU 可对标英伟达 A100,通用大模型明年上半年对标 GPT-4

   在2023 亚布力中国企业家论坛第十九届夏季高峰会期间,科大讯飞创始人刘庆峰表示,“中国 AI 领域的算法没有问题,但算力似乎始终被英伟达按住。”以前的“百模大战”,基本都是英伟达训练出来的,在企业内部只能做出微小的调优、训练,从而训练模型“还是比较难的”。

我特别高兴告诉大家,华为的 GPU 能力现在已经跟英伟达 A100 一样了。任正非高度重视,还有华为的三个董事到科大讯飞专班工作,现在已经做到对标英伟达的 A100。

     此外刘庆峰再度表态,今年科大讯飞定了一个目标,到今年 10 月 24 日,科大讯飞将发布通用大模型,全面对标 ChatGPT ,且要实现中文全面超越,英文跟它相当。“坦白讲,今天我们跟它还有差距,但是我们很清楚,10 月份就能赶上,明年上半年就对标 GPT-4。”


3.  Midjourney 推出“Inpainting”功能,可对已生成图片进行局部重绘

     AI 作画工具 Midjourney 日前上线了一项新功能“Inpainting”,以每月 10 美元(约 73 元人民币)的价格订阅 Midjourney 的用户现可体验。

     据称,该功能能够使用户对已生成图片的局部或细节进行修改,不需要重新创建一个全新的作品。外媒 PCMag 报道称,用户可以先利用该工具生成一张“一条鱼从水面跃出”的图片,随后通过“Vary(Region)”按钮,可输入一个新的提示,例如将此前生成的鱼替换成鲨鱼

     Midjourney 表示,该功能在所选区域占图像大小 20%-50% 的情况下,能够拥有最佳表现。此外,如果更改的局部细节与图片匹配度更高,效果也就更好。

     比如下图所示,一名此前参与测试的用户 Chase Lean 称,该功能可以更换一名模特的衣服,并演示了将她的衣服从蓝色运动服变为黑色运动服、乃至各种时装 / 职业装的效果,而背景和模特的姿态几乎没有任何改变





📖新鲜论文早知道

清华推出AI大模型数据库管理工具D-Bot

清华大学研究团队于8月10日发布论文《LLM As DBA》,提出了基于大型语言模型(LLM)的数据库管理员D-Bot,可以不断从文本源中获取数据库维护经验,为目标数据库提供合理及时的诊断和优化建议。该技术有望在保证数据库安全性的基础上,降低数据库管理成本。

项目地址: https://github.com/TsinghuaDatabaseGroup/DB-GPT

论文地址:https://arxiv.org/abs/2308.05481



🔥开源模型先体验

15B模型单项能力锤得过GPT3.5,开源SQLCoder已上岗


作为一个 SOTA 大型语言模型, SQLCoder 将自然语言问题转换为 SQL 查询。在开发者的开源评估框架 SQLEval 中,SQLCoder 的性能明显优于所有主要的开源模型,并且优于 OpenAI 的 GPT-3.5。SQLCoder 是一个 15B 参数的 LLM,也是 StarCoder 的微调实现。SQLCoder 在手工制作的 SQL 查询上进行了微调,难度依次递增。在针对单个数据库模式进行微调时,它的性能可与 GPT-4 媲美,甚至更胜一筹。作者不仅开源了模型权重,同样开源了评估框架与评估数据集。发布数据集的目的是丰富可用基准,帮助研究人员和工程师更好地了解文本到 SQL 生成模型的性能,特别是该模型对返回结果中的无害变化(如列重命名、附加列和重新排序)的稳健性。

  • 创建数据集:作者创建了一个手工编辑的 prompt - 补全对数据集,重点是文本到 SQL 任务。该数据集由 10 个不同的模式创建,问题难度各不相同。此外,他们还从 7 个新模式中创建了一个包含 175 个问题的评估数据集。他们确保在训练数据集和评估数据集中都选择了有 4-20 张表的复杂模式,这是因为只有 1 或 2 个表的模式由于关系有限,往往只能进行简单直接的查询。
  • 问题分类:数据集创建后,作者将数据集中的每个问题分为易、中、难、特难四类。这种分类通过调整 Spider 数据集使用的标准来完成,以衡量 SQL 难度。最后,他们将数据集分为两个不同的子部分,分别是简单问题和中等问题,以及难题和超难题。
  • 微调:作者分以下两个阶段对模型进行了微调。首先,仅在简单和中等难度的问题上对 StarCoder 基础模型进行了微调。其次,在难题和超难题上对得到的模型(代码为 defog-easy)进行微调,从而得到 SQLcoder。
  • 评估:作者在自己创建的自定义数据集上对模型进行了评估。评估 SQL 查询的正确性非常困难,他们曾考虑使用 GPT-4 作为 评估标准,但遇到了很多问题。过程中他们还意识到,两个不同的 SQL 查询可能都正确。




关注子社区,每周热点抢先看~

更多精彩内容欢迎点击下方链接,了解更多viapi相关信息。

视觉智能开放平台直通车

相关文章
|
22天前
|
机器学习/深度学习 存储 人工智能
AI日报:戴尔首席执行官:我们可能在10年内需要100倍以上的数据中心
AI日报:戴尔首席执行官:我们可能在10年内需要100倍以上的数据中心
|
22天前
|
数据采集 人工智能 机器人
AI日报:欧盟人工智能法案通过后行业面临合规障碍
AI日报:欧盟人工智能法案通过后行业面临合规障碍
AI日报:欧盟人工智能法案通过后行业面临合规障碍
|
22天前
|
传感器 人工智能 安全
AI日报:一个新的“科技超级周期”正在出现
AI日报:一个新的“科技超级周期”正在出现
|
22天前
|
人工智能 安全 数据库
AI日报:这种病毒从生成式AI工具中窃取您的数据
AI日报:这种病毒从生成式AI工具中窃取您的数据
AI日报:这种病毒从生成式AI工具中窃取您的数据
|
22天前
|
人工智能 自然语言处理 搜索推荐
AI日报:Anthropic推出商业友好型Claude 3人工智能模型
AI日报:Anthropic推出商业友好型Claude 3人工智能模型
|
22天前
|
人工智能 算法 机器人
AI日报:埃隆·马斯克起诉OpenAI
AI日报:埃隆·马斯克起诉OpenAI
|
22天前
|
机器学习/深度学习 人工智能 算法
AI日报:人工智能使用和评估的关键任务
AI日报:人工智能使用和评估的关键任务
|
22天前
|
人工智能 边缘计算 机器人
AI日报:谷歌的“双子时代”:将第二代人工智能嵌入其所做的一切
AI日报:谷歌的“双子时代”:将第二代人工智能嵌入其所做的一切
|
22天前
|
人工智能 安全 芯片
AI日报:扎克伯格瞄准AGI通用人工智能
AI日报:扎克伯格瞄准AGI通用人工智能
|
22天前
|
人工智能 安全 搜索推荐
AI日报:人工智能将成为2024年消费电子展的中心舞台
AI日报:人工智能将成为2024年消费电子展的中心舞台

热门文章

最新文章