语音技术的搜索结果_第12页-阿里云开发者社区

modelscope

|

6月前

|

博文

|

3月14日，创造出病毒级虚拟助手 Maya 的Sesame团队开源了他们的语音生成模型 CSM-1b，可根据文本和音频输入生成 RVQ 音频代码。这意味着，我们每个人都可以0成本拥有一个真正的AI伴侣了，甚至可以自己动手搭建、测试和改进模型。

# 人工智能 # 安全 # 语音技术 # 开发者

游客a4oswvtctqbx6

|

6月前

|

博文

学什么能不被AI取代？探索生成式人工智能认证的价值

在AI快速发展的时代，生成式人工智能（Generative AI）成为关键竞争力。掌握其技能可拓宽职业空间，而生成式人工智能认证（如GAI认证）提供了系统学习框架，涵盖核心知识、实用工具及道德法律内容，获国际认可。选择此认证，不仅能提升个人竞争力，还能应对AI带来的职业挑战，开启未来职场新篇章。无论学生还是在职人士，都可通过学习迎接AI时代的机遇。

# 人工智能 # 算法 # 语音技术

wxchyy-39337

|

6月前

|

博文

|

来自：大数据与机器学习

强化学习:动态规划求解最优状态价值函数——手把手教你入门强化学习(四)

本文介绍了基于模型的强化学习算法，重点讲解动态规划（DP）。动态规划通过分解问题为子问题求解状态价值函数，利用贝尔曼期望方程迭代更新。其核心性质包括最优子结构和重叠子问题，适用于已知转移概率和奖励的MDP场景。文章回顾了前期强化学习基础，并展望了后续内容如蒙特卡罗法。适合初学者系统了解强化学习算法原理与应用。

# 人工智能平台 PAI # 机器学习/深度学习 # 算法 # 关系型数据库 # 语音技术 # C++

楠竹11

|

6月前

|

博文

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

BitNet a4.8 是一种新型的 1-bit 大语言模型架构，由微软研究院和中国科学院大学提出。该模型通过混合量化与稀疏化技术，在注意力和前馈网络中使用 4 位激活值，中间状态采用 8 位量化，有效减少量化误差。相比 BitNet b1.58，BitNet a4.8 在性能相当的情况下显著提升了推理速度，并支持 3 位 KV 缓存。其两阶段训练策略从 8 位逐步适应到 4 位激活值，简化了训练过程。尽管存在特定任务上的局限性，BitNet a4.8 为 1-bit LLM 的发展提供了新方向，未来可进一步优化并拓展至更多领域。

# 存储 # 缓存 # 人工智能 # 语音技术 # 计算机视觉

技术员阿伟

|

6月前

|

博文

《量子比特：AI复杂算法破局的关键力量》

在科技迅猛发展的时代，量子计算与人工智能（AI）成为推动人类进步的双引擎。量子比特作为量子计算的核心，凭借叠加态和纠缠特性，展现出超越传统比特的独特优势。它能同时处理多种状态，大幅提升复杂AI算法的效率，如加速图像识别、语义分析及优化问题求解。尽管量子技术仍面临挑战，但其潜力将为AI注入新活力，推动智能化社会的到来。

# 机器学习/深度学习 # 人工智能 # 算法 # 量子技术 # 语音技术

蚝油菜花

|

6月前

|

博文

|

来自： ModelScope模型即服务

Open-LLM-VTuber：宅男福音！开源AI老婆离线版上线，实时语音+Live2D互动还会脸红心跳

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目，支持实时语音对话、视觉感知和生动的 Live2D 动态形象，完全离线运行，保护用户隐私。

# 图像识别 # 人工智能 # 并行计算 # 语音技术 # 异构计算 # Windows

技术员阿伟

|

6月前

|

博文

《深度剖析：将先进语音识别技术融入鸿蒙系统AI应用》

语音识别技术是人工智能的重要组成部分，而鸿蒙系统凭借其分布式架构和强大能力，为语音技术的应用开辟了新方向。本文介绍了鸿蒙系统的智能语音交互架构，包括语音输入、识别、处理、合成及应用层，并探讨了如何选择适配的语音识别方案。同时，文章分析了语音数据优化、多语言支持、实时性等关键问题，以及如何将语音技术与智能家居、车载、办公等场景深度融合。随着技术进步，鸿蒙生态中的语音识别将带来更智能的用户体验。

# 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 算法 # 语音技术 # 开发者

技术员阿伟

|

6月前

|

博文

《AI算法训练困境求解：深挖鸿蒙系统资源优势》

鸿蒙系统作为面向万物互联的操作系统，其微内核架构与分布式软总线技术为AI算法训练提供了新路径。通过资源整合与动态调配，鸿蒙可优化数据处理、模型训练及优化阶段，显著提升效率。例如，在智能家居领域，借助鸿蒙加速AI训练实现精准场景联动。未来，随着生态扩展与技术优化，鸿蒙将在语音识别等AI应用中发挥更大潜力，推动多领域智能化发展。

# 机器学习/深度学习 # 人工智能 # 算法 # 数据处理 # 语音技术

1235930077713436

|

6月前

|

问答

|

来自： ModelScope模型即服务

语音识别 ASR: FunASR、SenseVoice-Small

# 智能语音交互 # 智能语音交互 # 语音技术 # Java

小华同学ai

|

6月前

|

博文

吊打中文合成！这款开源语音神器效果炸裂，逼真到离谱！

Spark-TTS 是一个面向中文及多语言文本转语音（TTS）场景的开源项目，旨在帮助开发者快速、简便地生成自然流畅的语音合成结果。它拥有灵活的配置方式和良好的扩展性能，对于需要文本到语音功能的应用场景，如有声读物、播客制作、智能客服、语音助手等，都提供了高可用性和可定制化的方案。凭借对多语种、多音色的支持以及清晰自然的发音质量，Spark-TTS 获得了许多开发者的青睐。

# 自然语言处理 # 语音技术 # 开发者 # 异构计算 # 容器

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

语音技术