语音技术的搜索结果_第10页-阿里云开发者社区

小华同学ai

|

5月前

|

博文

25.9K star！AI一键生成高清短视频，这个开源神器让内容创作起飞！

"MoneyPrinterTurbo 是基于AI大模型的全自动短视频生成工具，只需输入主题，3分钟即可生成包含智能脚本、AI配音、专业字幕和流畅画面的高清视频

# 人工智能 # 语音技术 # iOS开发 # Docker # MacOS

蚝油菜花

|

5月前

|

博文

|

来自： ModelScope模型即服务

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

Dolphin是清华大学与海天瑞声联合研发的语音识别大模型，支持40种东方语言和22种中文方言，采用CTC-Attention混合架构，词错率显著低于同类模型。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 语音技术 # Python

阿里云开发者

|

5月前

|

博文

全模态模型Qwen2.5-Omni开源，7B尺寸实现全球最强性能

通义千问Qwen2.5-Omni-7B正式开源，作为首个端到端全模态大模型，支持文本、图像、音频和视频等多种输入形式，实时生成文本与自然语音合成输出。它在多模态融合任务测评中刷新纪录，性能远超同类模型。Qwen2.5-Omni采用Thinker-Talker双核架构，实现语义理解与语音生成高效协同，以小尺寸7B参数让全模态大模型广泛应用成为可能，现已在魔搭社区和Hugging Face同步开源。

# 人工智能 # 自然语言处理 # 算法 # 语音技术 # 开发者

nefelibata

|

5月前

|

博文

合力亿捷云客服系统：2025年大模型如何重塑全渠道对话体验

2025年，以DeepSeek等大模型为核心的智能客服系统，突破传统效率瓶颈，通过全渠道整合、多模态交互、个性化服务与情感智能，重构企业客户互动模式。从机械应答到认知共情，从单一文本到多维交互，大模型赋能客服系统成为企业价值创造的战略资产，推动客户服务迈向智能化新纪元。

# 客服工作台 # 自然语言处理 # 搜索推荐 # 机器人 # 数据挖掘 # 语音技术

modelscope

|

5月前

|

博文

|

来自： ModelScope模型即服务

重磅发布｜支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦！

在当今数字化时代，语音识别技术已成为人机交互的关键桥梁，广泛应用于智能客服、语音助手、会议转录等众多领域。

# 机器学习/深度学习 # 自然语言处理 # 人机交互 # 语音技术 # 开发者

游客u47je7pgqayge

|

5月前

|

问答

|

来自： ModelScope模型即服务

funasr 微调没有效果？微调数据量是多少，如何调整batch_size

# 智能语音交互 # 语音技术

游客a4oswvtctqbx6

|

5月前

|

博文

推动人工智能技术和产业变革，啥是核心驱动力？生成式人工智能认证（GAI认证）揭秘答案

人工智能（AI）正以前所未有的速度重塑世界，其发展离不开领军人才与创新生态的支持。文章探讨了AI领军人才的核心特质及培养路径，强调构建产学研深度融合的创新生态，并通过教育变革与GAI认证提升全民AI素养，为技术与产业变革提供持续动力。这不仅是推动社会高质量发展的关键，也为个人与企业带来了更多机遇。

# 人工智能 # 语音技术

蚝油菜花

|

6月前

|

博文

|

来自： ModelScope模型即服务

PaddleSpeech：百度飞桨开源语音处理神器，识别合成翻译全搞定

PaddleSpeech是百度飞桨团队推出的开源语音处理工具包，集成语音识别、合成、翻译等核心技术，基于PaddlePaddle框架提供高性能解决方案。

# 智能语音交互 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 语音技术 # 异构计算

蚝油菜花

|

6月前

|

博文

|

来自： ModelScope模型即服务

EmotiVoice：网易开源AI语音合成黑科技，2000+音色情感可控

EmotiVoice是网易有道开源的多语言语音合成系统，支持中英文2000多种音色，通过提示词控制情感输出，提供Web界面和API接口，具备语音克隆等先进功能。

# 智能语音交互 # 人工智能 # API # 语音技术 # Docker # 容器

modelscope

|

6月前

|

博文

|

来自： ModelScope模型即服务

看听说写四维突破：Qwen2.5-Omni 端到端多模态模型开源！

今天，通义千问团队发布了 Qwen2.5-Omni，Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。

# 文字识别 # 测试技术 # 语音技术 # Docker # 容器

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

语音技术