云栖发布:通义听悟AI能力再进化,开放API接口

简介: 云栖发布:通义听悟AI能力再进化,开放API接口

文章来自 阿里语音AI公众号

继今年6月份,聚焦音视频内容的大模型产品“通义听悟”上线,成为国内首个开放公测的大模型应用产品。通义听悟作为工作学习AI助手,以通义千问大模型为基座,融合了音视频AI技术的功能和优势,拥有感知记忆领悟理解融会贯通的能力,全面提升知识从音视频向图文形态转化的效率,包括高准确度生成对话记录、快速出摘要总结、提取回答关键问题等。

(阿里云CTO周靖人 · 2023云栖大会)

近月来,一键提取PPT发现更多播客内容云盘文件一键听悟,对音视频内容提问的“小悟”助手等功能陆续上新。截止目前,通义听悟已累计服务100万用户,深受白领、学生、媒体人等群体的喜爱,每日处理音视频超过5万份。


image.png  00:13

(通义听悟新功能速览)在2023年云栖大会上,通义听悟AI能力再升级,推出“小悟助手”,方便用户直接对自己的记录进行提问和对话,不仅支持单记录及跨记录内容的问答,还支持多语言自由提问。同时,通义听悟还开放了API接服务,所有功能皆可接入企业系统,通过大模型分析理解音视频资料,开发构建企业自己的听悟。

(通义实验室语音团队负责人鄢志杰 · 2023云栖大会

正如通义实验室语音团队负责人鄢志杰所言:“随着API的开放,通义听悟的能力将通过行业专属大模型的定制进入垂直领域,并能为行业提供颇具壁垒的竞争力。我们特别期待与开发者们一道共创,让通义听悟的能力在更多的行业里开花结果。“

(通义听悟API获取方式

相关文章
|
14天前
|
传感器 人工智能 IDE
AI IDE正式上线!通义灵码开箱即用
作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。
664 8
|
30天前
|
人工智能 缓存 JavaScript
通义灵码深度体验:AI编程助手如何提升全栈开发效率
通义灵码是一款强大的AI编程助手,支持从代码补全到智能体自主开发的全流程辅助。在React+Node.js项目中,其实现了100%字段匹配的Mongoose Schema生成;通过`@灵码`指令,30秒内完成天气查询CLI工具开发,包含依赖管理与文档编写。其上下文记忆能力可自动关联模块逻辑,如为商品模型扩展库存校验。集成MCP服务时,不仅生成基础代码,还推荐最佳实践并添加缓存优化。测试显示,其响应速度快、复杂任务准确率高,适合中小型项目快速迭代,初期开发效率提升约40%。尽管存在文档同步延迟和TypeScript支持不足的问题,仍是一款优秀的AI编程伙伴。
92 7
|
29天前
|
人工智能 安全 自动驾驶
通义灵码入职蔚来汽车,AI生成代码30%以上
通义灵码已正式应用于蔚来汽车智能座舱部门,近400名成员使用该工具,AI生成代码占比达30%以上,“天探”项目中甚至高达70%-80%。它通过提升代码开发效率、降低维护成本、智能生成单元测试及问题排查等功能助力研发。蔚来选择通义灵码看重其企业专属版的安全能力和知识管理功能。未来,期望AI编程将研发流程规范化,成为类似自动驾驶的高效指引工具。
121 5
|
10天前
|
人工智能 IDE 开发工具
|
24天前
|
人工智能 自然语言处理 搜索推荐
AI 零成本搭建个人网站,小白 3 步搞定!通义灵码智能体+MCP 新玩法
通过AI技术,即使不编写代码也能高效开发项目。从生成诗朗诵网页到3D游戏创建,这些令人惊叹的操作如今触手可及。经过摸索,我利用AI成功上线了个人站点:https://koi0101-max.github.io/web。无需一行代码,借助强大的工具即可实现创意,让开发变得简单快捷!
950 68
|
9天前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
|
7天前
|
人工智能 IDE 定位技术
AI IDE正式上线!通义灵码开箱即用
通义灵码AI IDE现已正式上线,用户可免费下载使用。作为AI原生开发环境工具,它深度适配千问3大模型,集成通义灵码插件能力,支持编程智能体、行间建议预测和行间会话等功能。其核心亮点包括:支持最强开源模型千问3,具备MCP工具调用能力;开箱即用的智能编码助手;自带编程智能体模式,端到端完成编码任务;长期记忆、NES行间预测及Inline Chat功能,大幅提升编程效率。目前,通义灵码插件下载量超1500万,生成代码超30亿行,广泛应用于企业开发场景。
AI IDE正式上线!通义灵码开箱即用
|
20天前
|
传感器 人工智能 搜索推荐
【通义灵码 2.5 + Qwen3 + MCP Sever】AI总结微信提取聊天记录!再也不怕错过重要信息!
本文介绍了一套基于通义灵码2.5、Qwen3模型和开源chatlog工具的微信聊天记录提取与总结方案。通过智能体模式能力,AI可自主完成任务规划与执行,支持环境感知及多种内置工具使用。结合MCP协议,实现与chatlog无缝集成,轻松查询群聊数量、总结特定成员发言内容等功能。未来可拓展至个性化画像分析、自动纪要生成等场景,助力信息管理与知识沉淀。文末附有详细操作步骤及多平台链接,适合开发者与职场人实践使用。
708 13
【通义灵码 2.5 + Qwen3 + MCP Sever】AI总结微信提取聊天记录!再也不怕错过重要信息!
|
7天前
|
人工智能 IDE 定位技术
通义灵码 AI IDE 上线,第一时间测评体验
本文介绍了阿里通义灵码AI IDE的使用体验。作者第一时间尝试了这款IDE,发现其结合了阿里大模型Qwen3的优势,在代码生成、插件扩展和MCP工具调用方面表现出色。文中通过实例演示了如何利用Lingma IDE查询火车票信息、生成地图标注及发布网页等操作,整个过程无需手动编写代码,仅需简单对话即可完成复杂任务。此外,文章还提到了IDE的其他功能如代码建议预测、AI Rules和记忆能力等,展示了AI编程的强大潜力。最后表达了对下一版Lingma IDE的高度期待,并提供了下载链接。