📣📣📣达摩院-视觉智能开发平台子社区建立新版块——AI热点日报~
我们汇总了世界各地最具影响力的AI项目、研究成果和创新应用的信息,为读者带来前沿的科技资讯。无论你是科技爱好者、人工智能从业者或者只是对未来科技趋势感兴趣的读者,我们都致力于满足你的需求。通过简明易懂的报道和深入的分析,本系列文章将带你领略未来的畅想,了解人工智能正在如何改变我们的生活和社会。
不容错过的每一期,让我们与科技同行,共同探索AI的无限可能。
🌈热点内容直通车
1. 新壹科技发布视频大模型
近日新壹科技发布国内首款聚焦视频的大模型“新壹视频大模型”、AIGC视频生成平台“秒创视频创作平台”、首款基于商用的数字人平台“新壹数字人平台”,以及国内首款明星数字人祝福视频制作产品“秒祝”。
新壹视频大模型是以视频生成为核心的多模态AIGC模型。基于深度学习海量视频样本,具有从脚本生成、素材匹配、智能剪辑配音到数字人播报的AI全流程视频生产能力,具备多模态感知、实时学习、自迭代及多场景交叉推理的核心能力。有助于让用户实现高质量、高效率、低成本、无门槛视频创作。秒创视频创作平台可在用户创作内容的过程中提供AI生成服务,其中包括文字续写、文字转语音、文生图、图文转视频等。至此新壹科技的AI生成能力已覆盖文本、图像、音视频等内容模态。
2. 生成式AI独角兽Cohere成为AWS的基础模型供应商;AWS推出Agenfor Amazon Bedrock功能,Agent可以自动分解任务,无需任何手动编码
独角兽Cohere亚马逊云科技(AWS)在7月26日举行的纽约AWS峰会上宣布扩展其完全托管的基础模型服务Amazon Bedrock,包括新增Cohere作为基础模型供应商、来自Anthropic和Stability AI的最新基础模型Claude 2和Stable Diffusion XL 1.0。客户可使用Amazon Bedrock通过访问简单的API,选用AI21 Labs、Anthropic、Cohere、Stability AI、亚马逊等公司提供的基础模型来构建和扩展生成式AI应用程序。
AWS还推出Agents for Amazon Bedrock功能,让企业可以创建聊天机器人来执行复杂的任务,并根据其专有数据为其应用程序提供定制的最新答案。只需点击几下,Amazon Bedrock代理就会自动分解任务并创建编排计划,无需任何手动编码。
3. 字节跳动对话类AI“Grace”开测
据 Tech 星球报道,字节跳动内测的对话类 AI 项目已经开启测试,代号为 Grace。目前,供测试使用的网站已经初搭建完毕,需要邀请或授权的相关账号登录后才可使用。
Grace 的测试网站为 gracebot.cn,跳转该网址后,可以看到网站标题显示“Grace-你的AI伙伴”等字样,当前提供邮箱、Gmail、飞书账号登录,但需要得到授权。
现阶段,用户可对 Grace 生成的话术进行点赞、拉踩,或重新生成,帮助其完善回答能力。除了这种文生文的对话形式外,Grace还支持文生图,例如,在聊天框内输入“生成一个哆啦A梦图”,Grace就会生成多幅与哆啦A梦类似的图,并且Grace还会在已生成图画的基础上,为用户联想更多的选择,如“画一幅山水画”等,进一步完善画作,但“仍有提高空间”。对此,字节跳动相关负责人向 Tech 星球方面表示,“目前产品还不成熟,还在内测阶段,与国外的领先模型相比还有较大差距。”
此前有科技媒体报道,语言大模型团队由字节搜索部门牵头,团队规模在数十人左右,图片大模型团队则由产品研发与工程架构部下属的智能创作团队牵头,整体由字节跳动的核心技术人员朱文佳负责。
4. OpenAI宣布ChatGPT已默认升级到GPT-4版本
OpenAI 8月5日通过官方 X(推特)账号,宣布 ChatGPT 现在已经默认升级到 GPT-4 版本。
ChatGPT 此前一直默认在 GPT-3.5 版本上运行,意味着已经落后于微软的 Bing Chat。
📖新鲜论文早知道
1. 哥大发布GPT Researcher智能体,可生成详细论文
近期哥大研究人员开发了一个名为GPT Researcher的AI智能体项目,已经能独立完成各种类型的网络科研任务。GPT Researcher的开发者称它可以生成详细、准确和客观的研究报告,并提供定制选项,以便用户能聚焦相关资源、提纲和课程。研究人员说他们是受到了Auto GPT和最近Plan-and-Solve论文的启发,通过GPT Researcher 解决了速度和确定性的问题。通过并行化智能体完成工作,而不是同步操作,提供了更稳定的性能和更快的速度。说白了就是,写论文中那些费时费力的事交给它来做,作者们就专注好那些真正需要动脑子的事情就好了。可以想象,未来学术圈科研圈都会在类似工具的加持下越来越卷。
和大多数Auto GPT的智能体类似,GPT Researcher的主要原理是运行「规划者」和「执行者」智能体。其中规划者生成研究问题,而执行者智能体根据每个生成的研究问题寻找最相关的信息。最后,规划者筛选和汇总所有相关信息,并生成一份研究报告。智能体利用gpt3.5-turbo-16k和gpt-4来完成研究任务。
网站:https://tavily.com/
Github:https://github.com/assafelovic/gpt-researcher
2. Nature封面,HADAR系统环境感知周围世界
环境感知是自动驾驶领域非常重要的一项任务。特别是在夜晚或者极端天气的情况下,现有的视觉感知和激光雷达两种方式对环境的感知和识别都效果不佳。这给自动驾驶等高风险应用带来了挑战。
有些研究提出使用热像仪来弥补 LiDAR 和视觉摄像头的缺陷。但由于物体不断发出热辐射,粒子会扩散到附近的环境中,导致热成像变得模糊、无纹理,形成「鬼影(ghost)」,使这种方法难以实际应用。
来自普渡大学等机构的研究者开发了一种新的系统, 称为「热辅助探测和测距系统(HADAR)」。HADAR 能够穿透光学杂波来检测物体的温度、材料成分和热辐射模式,而不受雾、烟和黑暗等视觉障碍的影响。因此,无论一天中的时间或环境如何,HADAR 基于对深度和纹理的渲染都能创建极其详细、清晰的图像。借助该系统,可以在环境不佳的情况下获得精细的环境图像,细节与精度和传统相机在明亮日光下拍摄的图像相当。研究论文已登上 Nature 封面。
论文地址:https://www.nature.com/articles/s41586-023-06174-6
🔥开源模型先体验
开源框架MetaGPT爆火,模拟软件开发流程,GitHub 1.1万星
随着大型语言模型(LLM)的日渐成熟,利用其构建 AI 智能体成为一个新的研究方向。已有研究使用 LLM 驱动多智能体自主完成了一些任务。然而,现有研究主要集中在简单任务上,缺乏对复杂任务的探索。这主要是因为大型语言模型存在「幻觉」问题,特别是当多个智能体相互作用时,幻觉会进一步被放大,以至于无法用于复杂任务。最近,一个名为「MetaGPT」的开源框架尝试解决这个问题。MetaGPT 旨在将有效的人类工作流程作为元编程方法注入到 LLM 驱动的多智能体协作中。MetaGPT 在 GitHub 上线几天,就狂揽超过 11.1k star。
简单来说,MetaGPT 让多智能体的协作过程模拟软件开发公司的工作流程,这就需要为每个智能体分配角色,并规划智能体的协作过程。具体来说,MetaGPT 首先将标准化操作程序 (SOP) 编码到 prompt 中,使得多个智能体的协作过程结构化。然后,研究团队进一步让输出模块化,赋予智能体与人类工作者相当的领域专业知识,以验证输出并减少复合错误。通过这种方式,MetaGPT 以工作流水线的形式为各个智能体分配了不同的角色,进而建立了一个能够有效、凝聚地解构复杂多智能体协作问题的框架。对于软件开发来说,系统架构和接口设计是非常关键的一步,研究团队以推荐引擎开发为例,展示了 MetaGPT 中的「架构师智能体」自主生成的系统接口设计。
项目地址:https://github.com/geekan/MetaGPT
论文地址:https://arxiv.org/pdf/2308.00352.pdf
关注子社区,每周热点抢先看~
更多精彩内容欢迎点击下方链接,了解更多viapi相关信息。