📣📣📣达摩院-视觉智能开发平台子社区建立新版块——AI热点日报~
我们汇总了世界各地最具影响力的AI项目、研究成果和创新应用的信息,为读者带来前沿的科技资讯。无论你是科技爱好者、人工智能从业者或者只是对未来科技趋势感兴趣的读者,我们都致力于满足你的需求。通过简明易懂的报道和深入的分析,本系列文章将带你领略未来的畅想,了解人工智能正在如何改变我们的生活和社会。
不容错过的每一期,让我们与科技同行,共同探索AI的无限可能。
🌈热点内容直通车
1. 通义千悟功能上新!首创自动提取PPT
今年6月,阿里云首次宣布通义听悟开放公测。8月2日,通义听悟进行了更新,在原有实时记录、音视频文件转写、全文概要、章节速览等功能基础上上线了三大新功能:
- 视频自动提取PPT。该功能通过引入视觉AI算法,自动将PPT讲解视频分割为演示文稿,并对每页PPT进行要点总结,形成一份图文并茂的大纲,解决培训、网课学习等场景“求PPT难”的问题。
- 支持浏览器插件和移动端。用户开会、上网课、看直播、看视频时,Chrome和Edge浏览器插件功能可全程录制,并实时生成双语字幕,帮助用户更轻松地浏览视频内容。
- 在移动端,通义听悟钉钉和微信小程序不仅支持PC端的基础功能,还可以一键转写手机和聊天记录的音视频文件。
本次新功能上线期间,阿里云继续联合各大平台和社区推出定制口令码,用户根据口令码可随机抽取20h、30h、66h、88h、100h的免费转写时长。通义听悟集成了阿里云的语音、语言和视觉AI技术,未来还将陆续上线适用于更多场景的新功能。
2. Cohere推出知识助手Coral(企业聊天机器人)
Cohere在7月25日推出一款知识助手Coral,适用于希望提高最具战略性团队生产力的企业。Coral是一个企业聊天机器人,可以与用户对话,帮助他们完成业务任务。Coral由Cohere的Command模型提供支持,该模型经过聊天、推理和写作能力的训练。然后通过数据连接增强其知识库并私下部署以保护敏感数据,从而为企业进行定制。
3. OpenAI 正测试 DALL-E 3 模型,有望推动 AI 图像生成进入新阶段
去年 4 月,OpenAI推出第二代 DALL-E “文生图”模型,其过硬的实力吸引了业界广泛注意,也因此一度出圈。
据外媒 Decoder 表示,OpenAI 日前正在准备下一代 DALL-E AI 模型(DALL-E 3),目前该公司正在进行一系列 Alpha 测试,而部分用户已经提早接触到了该 AI 模型。一位匿名分享了他在测试 DALL-E 3 时的体验:测试版本已经能够生成多种长宽比的图像,同时支持更长的提示语句,还能生成“正常的文字”。7 月的测试版本有可能随机生成一系列 NSFW 场景,以及受版权保护的商标图案,OpenAI 希望能够从模型层面禁止此类“不当内容”生成,因此 DALL-E 3 还需要一定时间进行相关训练调整。
▲ 图源 Decoder
外媒表示,DALL-E 3 在图像质量和多样性方面均有所突破,有望推动 AI 图像生成进入新阶段。
4. Gartner 报告称全球客服中心拥抱对话式AI,今年支出将增长 16.2%
根据市场调查机构 Gartner 公布的最新报告,全球客服中心(CC)正大力拥抱对话式 AI 和虚拟助手,预估 2023 年 CC 支出将达到 186 亿美元,比 2022 年增长 16.2%。
Gartner 首席分析师 Megan Marek Fernandez 表示:“因为业务波动导致决策周期延长,CC 和 CC 会话式 AI 和虚拟助手的短期投资增长率预计将下降”。不过从长期来看,客户体验(CX)领导者希望同时提高客户服务运营的效率和整体客户体验,因此生成式人工智能和日益成熟的对话式人工智能将加速客服中心平台的迭代升级。预计在2024年,全球对话式人工智能和虚拟助理市场有望实现实现 24% 的增长。
Gartner 估计,到 2023 年,约有 3% 的交互将通过 CC AI 处理,到 2027 年将增长到 14%。
📖新鲜论文早知道
1. Google DeepMind:不用大模型,进化算法来搜索控制机器人的Python代码
Jim Fan推荐了谷歌的这篇论文,不采用大语言模型或神经网络,而是使用进化算法来搜索控制机器人的Python代码的方法论文。这种方法的优点是:
- 可解释性强:直接演化Python代码,可以清楚地理解和分析控制逻辑。
- 可适应性好:代码可以根据环境变化进行模块化和在线调整,实现对环境变化的适应。
- 更简单可控:不需要复杂的神经网络结构,编程和调试更简单。
- 更高效:不需要大量数据进行神经网络预训练,直接搜索代码可以更高效获得控制策略。
- 对理论研究有帮助:输出的代码形式有利于分析算法背后的理论原理。
2. Stanford:用于语言模型的鲁棒性无失真水印,实质建立了一种架设于LM大模型、用户、检测方三者之间的使用协议,解决了辨别从语言模型生成内容来源的需求
- 提出一种对语言模型文本进行无失真水印插入和鲁棒性检测的方法,实现了在文本中插入可靠水印的目标。
- 动机:提出一种在文本中插入水印的方法,使得水印在文本经过扰动后仍然可靠地检测,而不改变文本的分布。
- 方法:所使用的方法是通过将一系列随机数映射到语言模型的样本,来生成带有水印的文本,并通过水印检测方法来验证文本是否包含水印。
- 优势:所提出的水印方法对文本进行了无失真的插入,并且在面对各种复述攻击时具有良好的鲁棒性,可靠地检测水印,且不影响文本的分布。
🔥开源模型先体验
Stability AI推出Stable Diffusion XL 1.0,文本到图像模型
Stability AI宣布推出Stable Diffusion XL 1.0,这是一个文本到图像的模型,该公司将其描述为迄今为止“最先进的”版本,在博客中也介绍了SDXL 1.0的更多技术细节。
- SDXL 1.0在对比度、光线和阴影方面做了增强,能生成更加鲜明准确的色彩,可生成100万像素的图像(1024×1024)。而且还支持在网页上直接对生成图像进行后期编辑。
- 提示词比之前更简单。
- 模型在规模和架构上都有了新突破。它创新性地使用了一个基础模型(base model)+一个细化模型(refiner model),二者的参数规模分别为35亿和66亿。
Stability AI创始人Emad Mostaque表示,更大规模的参数量能让模型理解更多概念,教会它更深层次的东西。同时在SDXL 0.9版本还进行了RLHF强化。Stability AI团队现在也正在构建新一代可用于特定任务的结构、风格和组合控件,其中T2I/ControlNet专门用于SDXL。
试玩入口:https://clipdrop.co/stable-diffusion
GitHub:https://github.com/Stability-AI/generative-models
关注子社区,每周热点抢先看~
更多精彩内容欢迎点击下方链接,了解更多viapi相关信息。