海天瑞声做智能语音界的“幕后英雄”

简介:

 不知从什么时候开始,人类已经迈入智能时代,机器变得更加“贴心”,能对人类行为有所感知,让人类生活变得丰富多彩起来。智能时代,人们通过智能语音系统发送简讯、操纵汽车、遥控设备,这一切主要归功于智能语音的诞生。

海天瑞声从1998年进入智能语音行业至今已经有18年的历史。作为中国最早进入到工程化应用语音语料领域的资源供应商,海天瑞声可以提供110多种语言、覆盖全球75个国家和地区的语音语料数据的采集和人工转写标注服务,能够制作45种语言的专业发音词典,图形图像视频音频数据的采集和标注服务之外,还可以根据客户的需要提供一站式的综合数据解决方案,从语料设计,采集,处理,模型训练,语音系统测评测等各个环节的服务,为客户提供全面的解决方案。

“我们公司所做的事情,有点像智能语音产业的‘幕后英雄’,用户看不到我们,却能时时刻刻体验到我们。”北京海天瑞声科技有限公司的市场总监陈清说道。目前市场上的车载语音系统,在悦耳自然的声音背后,就可以发掘到用来训练引擎模型的大规模的音语料库的身影。

人机交互作为智能语音的核心技术,通过相互理解的交流与通信让机器理解人类语言,从而可以让机器听从人类的安排。机器“能听会说”的技术重点主要依靠两方面:一是语音识别(能听)和语音合成(能说)引擎开发的技术成熟度,二是用于训练引擎的训练语料的规模和品质,其中包含语音和文本语料两大类。

人类语言是一个极为复杂的体系,机器对人类语言的理解和识别过程与人类极为不同。在一定程度上,智能语音的两大核心——语音识别和语音合成引擎的开发技术水平已经十分成熟。正因如此,训练语料越来越成为一个提升用户体验的瓶颈。

陈清指出,作为最终用户,对语音识别系统的体验不仅要从它的识别速度,更要从识别的精准度两方面来衡量,这就要求开发者从引擎设计运算能力、网络速度以及训练语料的设计水平等多方面进行不断提升,努力破除用户体验的瓶颈。

语音合成引擎是信息处理领域的一项前沿技术,解决的主要问题是如何将文本状态的文字信息转化为可听的声音信息,使以往只能用眼睛看的文字信息,也可以用耳朵来听。通俗地说,就是让电脑开口说话的技术。

合成语音的自然度和流利度,包括同一句话里的自然停顿,语气正常起伏等能直接感知的指标,与引擎算法设计和语料库,有同等重要的关系。因此,在语料设计方面,就需要考虑到性别年龄口音音色说话速度方言口音等多方面的因素。同时,考虑到成本和计算机运算能力的限制,要用尽可能少的数量覆盖尽可能多的语言现象和发音特点, 这对语料设计者的语言学和语意学的研究积累,也是一个很大的挑战。

未来海天瑞声还将推出的中国最大智能语音数据资源平台——天籁数据中心,面向全球科研用户,提供免费或极低收费的高品质科研数据,支持智能语音及相关人工智能领域,如自然语音理解,机器翻译等人机交互技术的科研,测试和模型训练的需要。  

原文发布时间为:2015-7-14

 

本文作者:孙博

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网


目录
相关文章
|
1月前
|
人工智能 自然语言处理 算法
“破冰”探索两周年,AI和媒体碰撞出了什么火花?
2022年末,大模型浪潮席卷新闻媒体行业,引发内容生产方式的深刻变革。2023年1月,传播大脑科技公司在杭州成立,成为浙江新闻传媒领域的重要探索。两年后,大模型技术进一步重构新闻生产和分发逻辑,传播大脑通过整合资源、打破壁垒,推出了国内首个媒体垂类大模型,并在全国范围内推广“浙江模式”,助力多省份媒体融合进程。2025年初,传播大脑在智能化办公、内容创作和形式创新等方面取得显著成果,为媒体行业的未来提供了新的解决方案和启示。
96 14
|
6月前
|
自然语言处理 语音技术
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
"FunAudioLLM震撼来袭!重塑语音交互新纪元,让每一次对话都充满魔法与情感共鸣!"
【8月更文挑战第11天】随着AI技术的发展,语音交互正经历革新。阿里巴巴推出的FunAudioLLM是一款先进的语音技术框架,包含SenseVoice和CosyVoice两大核心模型。SenseVoice擅长多语言语音识别与情感分析;CosyVoice则专精于自然语音生成,支持多语言、音色与情感控制。这两个模型结合,能实现在语音翻译、情绪对话等场景下的广泛应用,为人机交互带来更加真实与丰富的体验。通过开源社区的支持,FunAudioLLM将持续进化,成为语音技术领域的重要推手。
132 5
|
6月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
106 0
|
人工智能 达摩院 机器人
元宇宙跨界对话,圆桌论坛
元宇宙跨界对话,圆桌论坛
503 282
元宇宙跨界对话,圆桌论坛
|
机器学习/深度学习 人工智能 算法
【年终特辑】看见科技创新力量 洞见时代创业精神—文旅娱乐—智媒云图:5G时代的“AI交互+数字艺术”双效引擎
【年终特辑】看见科技创新力量 洞见时代创业精神—文旅娱乐—智媒云图:5G时代的“AI交互+数字艺术”双效引擎
167 0
|
存储 人工智能 编解码
超越感官,沉浸赛场——大型体育赛事云上实战精选-第四章 2020东京奥运会:数智与虚拟之境-50亿观众的“云上奥运”,顶级媒体背后的数智化力量(中)
超越感官,沉浸赛场——大型体育赛事云上实战精选-50亿观众的“云上奥运”,顶级媒体背后的数智化力量
198 0
|
存储 人工智能 运维
超越感官,沉浸赛场——大型体育赛事云上实战精选-第四章 2020东京奥运会:数智与虚拟之境-50亿观众的“云上奥运”,顶级媒体背后的数智化力量(下)
超越感官,沉浸赛场——大型体育赛事云上实战精选-50亿观众的“云上奥运”,顶级媒体背后的数智化力量
209 0
|
人工智能 自然语言处理 搜索推荐
决定智能语音助手成败的,也许并只不是技术!
决定智能语音助手成败的,也许并只不是技术!
287 0
决定智能语音助手成败的,也许并只不是技术!