📣📣📣达摩院-视觉智能开发平台子社区建立新版块——AI热点日报~
我们汇总了世界各地最具影响力的AI项目、研究成果和创新应用的信息,为读者带来前沿的科技资讯。无论你是科技爱好者、人工智能从业者或者只是对未来科技趋势感兴趣的读者,我们都致力于满足你的需求。通过简明易懂的报道和深入的分析,本系列文章将带你领略未来的畅想,了解人工智能正在如何改变我们的生活和社会。
不容错过的每一期,让我们与科技同行,共同探索AI的无限可能。
🌈热点内容直通车
1. Python团队官宣下线GIL:可选择性关闭
Python官方宣布,在新版的CPython中,GIL锁将成为「可选择项」。
GIL的关闭,意味着此前只能串行的多个线程将可以并行运行。对于人工智能、机器学习等计算密集型领域,工作效率将大大提高。
根据官方通告显示,GIL的下线工作将分为三个阶段:
短期内,「无GIL」将作为实验性功能供用户选择。当有足够的社区支持能力后,GIL的退出将进入中期阶段。这一阶段当中,分销商将开始提供no-GIL版本。而Python团队的长期目标是将no-GIL作为默认选项,甚至彻底抹去GIL的一切痕迹。
2. 灵动AI发布首款可商用的AIGC产品「灵动AI商品图」
灵动AI(灵动无限科技redoon.ai),最近发布了首款可商用的AIGC产品“灵动AI商品图”,并与京东智能新品孵化平台合作,为商家和产业带客户提供AIGC“营销+设计”服务。
本次发布的“灵动AI商品图”,是业内首个工业级商品图AI生成工具。该工具采用了生成式AI技术,并结合自研的商品+场景融合系列专用AI模型及智能审美评价系统,为B端用户和设计师创作高质量商品场景图提供助力。此外,该工具还支持进一步输出2D+3D融合的动态海报、视觉特效和短视频。
3. OpenAI:安卓版 ChatGPT 现已全面上线
OpenAI 今日宣布,安卓版 ChatGPT 已在所有支持的国家和地区上线。
4. Runway视频生成工具Gen-2开启免费试用
Runway宣布,Gen-1 和 Gen-2 已经彻底开放,任何人都可以注册一个账号免费尝试。生成的视频长度为 4 秒,每秒消耗 5 个积分,利用免费额度可以生成二十几个视频。如果免费积分耗尽,付费标准为 0.01 美元 / 积分,也就是生成一个视频需要 0.2 美元。
Gen-1 功能非常丰富,包括风格化、故事版、蒙版、渲染、自定义等等,而今年 3 月份发布的 Gen-2 延续了这些功能,可以将图片或文本提示的构图和风格应用于原视频上。同时,它还新增了文字、图片生成视频功能。也就是说,仅需输入文字、图像或文字加图像的描述,Gen-2 即可在很短的时间内生成相关视频。它是市场上第一个公开可用的文本到视频模型。
比如,我们输入一段纯文字:「午后的阳光透过纽约阁楼的窗户照进来。」Gen-2 会直接「脑补」出视频:
目前,Runway 已经开放了网页端的免费体验窗口,相关应用(RunwayML)也已经在苹果的应用商店上线。
5. 谷歌DeepMind发布首个机器人算法模型
谷歌DeepMind宣布推出应用于机器人领域的新产品——名为Robotics Transformer 2(RT-2)的AI模型。它是一种全新的“视觉-语言-行动”(VLA)模型,通过它,机器人能像人类一样学习更多内容,将学到的概念应用于全新的情境中。
6. 华为云后续将推出盘古数字人大模型
2023 年华为云数字文娱 AI 创新峰会上,华为云将在后续推出盘古数字人大模型(包含数字人形象、动作、表情、口型、声音等要素),可帮助用户 12 小时完成数字人生成。数字人生成后,用户可以驱动数字人生成高清视频。
据称,用户可通过输入文字(文本、Prompt 文本),在 10 秒左右生成数字人模型;通过上传照片,在 30 秒左右生成不同类型的数字人模型。
此外,用户还可以通过拍摄一段 5 分钟的视频,在一个小时内通过训练来生成数字人。官方表示,通过此手段生成的数字人,可保留用户的个性化形象、表情、动作、声音和口型信息。生成数字人后,可以通过对话完成对数字人的二次编辑和背景融合,比如发型、配饰、服装等。
📖新鲜论文早知道
GPT4随着时间流逝变”笨“了
斯坦福大学和UC伯克利大学的一篇最新论文显示:6月的GPT-4在一些任务上的表现客观上就是比3月的更差。比如用同样500道「判断给定整数是否为质数」的问题来测这两个版本,发现3月份的GPT-4答对了488个,而6月只对了12个……成功率直接从97.6%下降到2.4%!而当研究员通过经典的「Let’s think step by step」办法来引导后者往正确答案上靠时,居然不好使了——6月的GPT-4已不再尝试给出中间步骤,而是仍然直接回答「yes」或「no」。不止如此,代码能力也下降了。
对于50道简单级别的LeetCode题,6月的GPT-4只能做到有10%的答案可以不经更改直接运行,而在3月份的时候,这个数字还是52%。
论文地址:2307.09009.pdf (arxiv.org)
🎤热门产品新发布
AI Native应用:PickPod
PickPod 简单来说是一个“知识助手”,可以帮助发现散落在播客等音视频内容中的“非共识”。这个项目始于2023.2,它的雏形是一款音视频识别和转录工具。在 ChatGPT 开放 API 之后,大量 AI 工具涌现,其中有一个很大的场景是“总结”,例如有很大一类是用 AI 总结音视频的插件。这里其实反映出一个需求,即相对于文字,从音视频内容中获取信息的时间成本很高,尤其是信息密度较高的知识型内容
实现一个 “信息助手”的功能,让 LLM 找到散落在音视频中的“非共识观点”,最终实现播客的个性化的推荐:从获取全球科技领域的高质量、前沿内容角度,播客一定是最好的信息源之一。但就像我们前面提到的,文本内容的信息捕获是快于音视频的,大部分人在收听播客或者视频访谈时常常会遇到的一个问题时,即无法提前获知这篇内容是否足够有用?即便以嘉宾质量作为判断标准,但因为各种原因可能某些大咖嘉宾输出的仍旧是市场共识,同时,又因为音视频收听成本的原因,一些小众、长尾的播客虽然信息密度极高但很难被人们注意到,除非是有人以文本的形式,如Twitter,将其核心观点分享出去。 个性化推荐问题不是仅靠调整 Prompt、或者换个模型就可以解决的,本质上这是产品设计的问题而不是单纯的技术工程问题。这里需要获得增量信息。比如对于一个视频总结的内容都是比较泛或者“正确的废话”,增量信息其实是非常少的,要理解增量信息从信息熵的角度是非常便捷的,但 LLM 时代不需要这么麻烦,直接问即可,比如:(见图三)
体验地址:
国内 IP:pickpod.shixiangcap.com
关注子社区,每周热点抢先看~
更多精彩内容欢迎点击下方链接,了解更多viapi相关信息。