【AI生态如何从软到硬】专访胡郁:不能把讯飞只看成语音公司

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

6月28日,讯飞开放平台“万物一听”智能硬件新品发布会在深圳举行,本次新品发布会除了揭晓硬件方面的新品——“MORFEI 麦克风”、二麦DSP芯片降噪方案及光学麦克风外,发布会现场,科大讯飞执行总裁兼消费者BG总裁胡郁、科大讯飞消费者BG副总裁于继栋、科大讯飞研究院副院长王海坤、中国智能家居产业联盟秘书长周军、国美物联公司总经理徐燕松等业界领袖也为大家带来了精彩的分享。


最新硬件产品发布:欲解决行业三大痛点


智能硬件的开发有三大痛点:体积大;成本高,不仅硬件成本,还有软件成本;功耗大。据科大讯飞消费者BG副总裁于继栋介绍,本次科大讯飞发布的智能硬件产品,就是着眼于解决这三大难题。本次发布会上,科大讯飞重点介绍了公司三大硬件产品:


1. 二麦DSP芯片降噪方案


科大讯飞在本次发布会发布了二麦DSP芯片降噪方案,据介绍,芯片大概芝麻粒大,它主要解决的是高度集成的问题。通过高度集成提供一个非常低功耗的方案。这块芯片体积和功耗都是业界领先水平。



它现在可以广泛用在更小体积的一些硬件产品。在小体积的智能硬件里,大家都比较关心功耗问题,该芯片的待唤醒功耗是 2mW,唤醒后功耗是 6mW,拿目前主流的硬件设备举例,手机日常使用时的平均待机功耗是 200mW,无线耳机的电池容量一般在 100mW,相比来看,这款芯片的功耗对手机或者耳机的功耗几乎没有什么影响。



除了功耗之外,在识别效果上通过二麦的优化,在三米内的识别率可达到95%,最新AEC技术可以消除50dB的回声,在-35dB的信噪比下可轻松唤醒。


如果有这样的一个DSP之后,整个方案就可以用在小型的智能硬件上。最近智能手表,包括无线耳机,都是现在非常非常热的领域。通过这种DSP的方案,能够帮助这些对功耗比较敏感的公司实现非常好的语音交互识别体验,包括提供比较好的唤醒。


2. 成品:“MORFEI 麦克风”



新智元在发布会现场了解到,这个成品的麦克阵列是现在业界最小的双环8麦立体型阵列,可以全方位360度无差异呈现,其理念是希望融合到生活中的各个场景里去。 有以下几个特性:


  • 尺寸上,业界最精致小巧,仅为手机一半大小。便于融合进各类应用场景,不突兀;拾音功能上,八麦的4+4双环空间结构实现了全方位拾音功能;

  • 空间适应性上,摆放位置不受限制;以智能家居环境为例,可以将MORFEI摆放在任意位置:茶几、空调、书架、冰箱上…并且内置AIUI核心能力,可做到5米拾音距离和95%的唤醒率,同时具备AIUI最先进的全双工持续交互、上下文对话等交互特性,保障整体的交互流畅性和效果;

  • 开发周期短,相比于传统的接入方式,开发者使用MORFEI麦克风在经过短期的调试对接后,即可将自己的智能设备快速接入AIUI开放平台;

  • 开放性的连接方式,内置标准的协议,底部有串口的通信接口,可连接任意底座或配件,同时可通过wifi、蓝牙等种方式与手机app等连接;

  • 广阔的可定制空间,从业务场景到ID设计到logo都可定制,打造一款专属麦克风产品。




3. AIUI的开放平台


AIUI开放平台提供了丰富行业定制内容、信源以及上万种第三方业务技能,使开发者可直接配置使用,开发应用更加简洁方便。以控制空调举例,说法的词条达到了1260种,基本涵盖了所有对空调的指令。同时AIUI开放平台页提供自定义功能,开放私有语义的能力,包括自定义技能,自定义问答、自定义实体。在高度开放和宽松的开发环境下,开发者的应用将拥有高度的个性化,从而满足市场上各类不同的需求,可见即可说个性化也是AIUI一大亮点特性,在人机交互时,AIUI会实时上传交互界面的内容,生成短时间生效的个性化数据,作为热词被识别引擎和语义引擎加载,大大提升交互的成功率。


值得一提的是,本次发布会上,讯飞还首次发布了声学结构认证体系。在形成成品的时候,由于每个硬件的设计、结构都不一样,必须要有声学结果的认证,才能达到最好的产品效果。于继栋说,我们希望提供业界最专业的声学结构认证体系,认证维度广,精度高,为开发者提供最权威的认证,树立行业的声学结构标准。这也是讯飞开放平台带给开发者的福音,让开发者都可以集成讯飞最好的产品效果。


从软件的开源到硬件的开放:风起云涌的行业生态争夺


但从语音技术来说,科大讯飞无疑是中国AI行业中的龙头企业。数据显示,科大讯飞在中国智能语音市场上的占有率超过了70%。值得注意的是,从2015年开始,随着软件技术,包括算法模型上的突破性进步,科大讯飞开始强调“软硬件结合”的道路。


以面向开发者和商业合作伙伴的讯飞开放平台为例:


讯飞开放平台2010年10月28日发布,其前身是语音开放平台。根据科大讯飞提供的数据,这一平台,现在为止已经凝聚了将近 40 万的开发伙伴,他们开发出了将近35万的应用,这些应用已经覆盖到了 10 亿的活跃终端上。



从上图可以看到,2015年以前,科大讯飞的开放平台上释放的一律是软件上的能力。


该平台在硬件上的发展的典型例子是:2015年,科大讯飞第一次在业界提出了麦克风阵列的概念,带来了二麦、四麦、八麦的阵列。现在为止已经通过这样的形式,深入服务了超过3000家智能硬件的合作伙伴,在科大讯飞平台注册的智能硬件开发者已经接近5万,占到业界的80%。2016年6月底,科大讯飞发布了AIUI,其六麦的环形功能现在已经广泛地用在了90%的机器人的产品上,包括电视。


本次发布会上,科大讯飞一直在强调的一个词是“软件到软硬一体化方案”。


胡郁在接受媒体的采访时指出,我们不能再把科大讯飞仅仅看成是一家语音技术公司,它更是一家平台型的公司。


去年年底,在科大讯飞的年度发布会上,胡郁首次提出了“混合正交的商业生态”一词。在本次发布会的演讲中,他再次对这一概念进行了解释:“我们设想了一下将来人工智能会是什么样的生态,我们希望创造出自己的产品跟大家合作,将来每个公司都会有自己的人工智能大数据,但这些公司的商业方向可能会不一样,科大讯飞是平台型厂商,我们在这个平台上提供人和机器交互最好的方式,而每个产品每个机器人的公司,每个教育的公司,或者每一个具体的到每一个细分行业的公司,他们有他们的方向。我们希望在这种新的生态下能够共享经验、知识、数据和利益。这样我们能够一起创造一个混合的商业生态,我们在这个过程中共同得到收益,共同给最终用户创造最好的价值。”


科大讯飞不是国内唯一一家提出搭建生态系统的人工智能企业,甚至也不算唯一一家希望构建语音技术生态的企业。除了讯飞之外,至少百度与腾讯都曾提出过打造人工智能和语音技术生态的构想。


根据新智元此前的报道,百度COO陆奇就曾公开表示,百度的总体人工智能生态布局是基于百度大脑的,百度大脑是一整套的核心能力和核心算法,将语音识别、图像识别、视频识别、自然语言处理、大数据、用户画像等种种核心能力组装在一起,给同行业的创业者、创新者赋能。具体到语音上,更重要的一个布局是DuerOS,这是有史以来第一次让自然语言成为一个全方位的人机交互的界面。陆奇的构想中,DuerOS会无处不在,它可以在任何一个器件上,在任何一个场景上,在任何一个环境中,跟任何一个人都有交互的能力。


大公司争夺资源的“生态争夺战” 正在打响,而硬件上的开放和开源,已经成为各个“生态”之间争夺的另一个根据地。


新智元专访:18周岁成人礼,执行总裁胡郁谈科大讯飞根基


2017年6月初,科大讯飞庆祝了自己18岁的生日,圆满地完成了从大学生创业到国内顶尖 AI 公司的“成人礼”。 


“成人礼”过后,讯飞喜讯频传:6月21日,摩根士丹利资本国际公司(MSCI)宣布,从2018年6月开始将中国 A 股纳入 MSCI 新兴市场指数。A股市场169只股票及53只A+H股入选MSCI,其中 AI 代表型公司海康威视、科大讯飞入选。6月26日科大讯飞股价大涨 8.21%,报收于36.39元,市值达到505.34亿元。截止6月29日,其股价已经涨至40.05元。6月27日,由麻省理工学院(MIT)主办的《技术评论》在京发布了“2017年度全球50大最聪明公司”榜单。该榜单中共有9家中国公司上榜,其中,首次上榜的科大讯飞名列第6名。


科大讯飞近年来的成功不是偶然,18年前以语音技术为基础从校园创业走出的他们,在最新的人工智能热潮中走在了前列。在本次最新智能硬件发布会结束后,科大讯飞执行总裁兼消费者BG总裁胡郁接受了媒体专访。在与新智元的对话中,他谈到了科大讯飞最新的硬件开放战略、公司业务重心的战略布局以及公司在激烈的竞争中得以生存并发展壮大的根基与原因。



新智元:胡郁总,您好!我想请问您一个问题,咱们这次发布会上发布的是硬件上的开放平台,这个是不是一种硬件上的开源?是否意味着科大讯飞的开放之路在从软件向硬件的转化?


胡郁:人工智能向智能硬件的扩展,已经是这几年一直存在的事情。几年前我们就在考虑如何能够让硬件的开发者和硬件的厂商能够更容易地集成语音交互人工智能的手段。以前最开始讯飞开放平台上,主要是手机APP的使用,大家知道手机上跟语音应用相关的硬件其实在手机上本身就完成的,所以说手机原来的硬件就可以满足这样的需求。


但是在智能硬件上,到玩具机器人到车载,它是不一样的,有很多新的需求。而在过去的几年过程中,因为硬件标准的不一致,导致整个语音应用的两个问题,一个是开发的过程非常的复杂,这中间涉及到整个硬件电路的设计,芯片的选择,还有接口如何进行等等。另外就是最终用户体验不一致,不同公司采用不同的接口做出来的系统差别很大。所以我觉得将硬件和软件进行高度融合很有必要。我们这次发布的芯片和整个集成化硬件的组件,它其实是一个组件,是我们觉得解决以上两个问题的主要的手段。


准确地说,我倒不觉得这是一种开源的做法,它提高了集成效率和不同人群所使用的解决方案的作用。我认为,这也是必经道路。


新智元:对于一家公司来说,硬件上的壁垒比软件高吗?


胡郁:更准确的说,这是一种需求。从技术复杂性上来讲,软件肯定要在一个平台上才能运行,并且在智能硬件中,这会比原来的手机或者PC平台上要复杂,所以它里面用到的核心技术也需要更多一些,不像原来只要有这个语音计算的接口就可以了,它需要解决很多芯片上各种各样的问题,麦克风阵列各方面的问题。所以,你说的没错,壁垒门槛比原来纯软件要高一些。


新智元:去年年底你在公司的角色有了一个转变,担任了消费者事业部的总裁,科大讯飞之前给大家的印象是一家To B的公司,那么这段时间以来,科大讯飞的发展有什么变化吗?


胡郁:其实我们现在有越来越多的产品,面向的都是最终端的消费者。比如我们原来叮咚音箱,以及后来的阿尔法蛋机器人,最近我们的晓译翻译机卖得也很火等等。我们还有一系列面向最终用户的产品,将来都会陆续问世。

    

但是我们最终的目的并不是说我把所有的面向最终消费者的产品都做了,我们还是希望通过做这些消费级别的产品能够把语音交互和后台的内容以及信息打通,将来我们的服务不仅仅是跑在自己的硬件上,我相信可以跑在很多不同的硬件上。以叮咚音箱为例,我们提供的服务不仅仅用在这款音箱上,还有索尼很多外面的厂商等等,我们都有合作,我们也跟他们这些硬件品牌进行合作。所以我们最后会促进所有的硬件,只要他们需要跟人交互的,我们都会在各方面支持他们。所以总体上我们是一个平台型的公司,但是在某一些具有标志性的硬件上我们会先做出来展示给大家看,这个东西应该做成什么样,比如音箱。


新智元:也就是2C的目的最终目的还是2B。


胡郁:只要能给消费者带来好的体验,我可以2C,也可以2B,这都是我们的目标。


新智元:根据网上的报道,昨天《麻省理工科技评论》公布了全球50家最“聪明”的公司榜单,科大讯飞排中国第一,超过了BAT等大型互联网公司,你个人如何看待这种“聪明”上的超越?


胡郁:几个角度,第一个角度就是我们的根基还是技术创新型公司,所以我们在技术上的执著更甚,你看这几年我们不断地,包括我讲的人工智能的概念,还有人工智能的认识,以及对于交互,现在我们最核心的领域,不断地有新的概念和产品的发布。这可以看出来,科大讯飞在技术上非常执着。

    

第二点,科大讯飞在将人工智能应用于整个行业的时候,从两个角度去做,一方面我们做面向最终消费者的业务,包括我们今天发布的很多新产品,希望能够深入到千家万户中去,这个过程还在进行。

    

另外一方面,科大讯飞涉及到很多的行业,比如医疗、教育、法院、智慧城市等各方面,其实它是进入到国家的很多战略性的领域,我们为国家战略落地做了很多工作。所以我想这也是MIT TR 考虑到人工智能不仅仅是作用到最终用户,它也作用到很多行业,这个角度来讲我们也是更加全面,在不同的体系里都会使用到我们的人工智能,而不是仅仅把人工智能应用在某些点上。


胡郁演讲:科大讯飞要成为技术创新公司要做到4点



人工智能有很多东西可以讲,但很多人还是关心最近我们取得哪些方面的进展。我们都知道人工智能的三次发展浪潮。第一次跟我们基本上没啥关系。有一个门槛就是2000年左右的时候,大家都知道2000年左右学人工智能的人出来找不到工作,所有公司都恨不得做自己的互联网公司。但因为大数据的积累,人工智能在深度神经网络学习的情景下迎来了第三次浪潮,这次我们中国非常幸运,因为我们有很强的互联网和移动互联网的产业积累,也就是在2010年科大讯飞第一次发布了今天的讯飞开放平台的前身。

    

这个情况下我们看到弱人工智能,也就是工业上人工智能需要的三大法宝:深度神经网络、大数据、涟漪效应。其中最重要的是将我们的技术、人工产品用户嫁接在一起进行迭代。大家知道深度神经网络是微软研究院的邓力研究员,他是我们中科大的校友,在2009年左右和当时多伦多大学的教授一起做了一个合作,把这个技术用在语音上,取得初步成功以后,当时世界上并没有太多人相信他们,这个成果能够颠覆当时在语音识别中的模型。所以在去年新智元举办的《世界人工智能大会》上邓研究员就说世界上两个公司相信他的产品,一个是谷歌,一个是科大讯飞,我们当是还是切到了这个范围,并且快速在后面几年把深度神经网络不断地应用于合成、识别、翻译等多个方向。去年微软研究院有一个报告,提到了最新用于视觉识别的用于语音识别取得成功的这家公司分别是谷歌、微软和科大讯飞,所以我们在这方面一直处于世界前沿方面,我们也发展出了非常多的帮助。

    

这就是利用卷积神经网法读语谱,这也是语音识别的主流,大家想知道它的原理是什么,经过科学表明,很多盲人为什么听力特别好?因为他的视觉神经中一部分被借过来用于听力,所以他们的听觉能力好于常人。这方面我们取得了非常好的效果。讯飞输入法现在有1.2亿的月活用户,过去一年当中,随着人数不断增加,它的错误率不断下降,每年有30%的持续下降,这让我们看到它将来可以超越人类本身。


我们也看到这中间大数据发挥了巨大作用,因为我们现在在训练讯飞超脑项目的时候,模型的迭数目和需要更新的参数也非常巨大,不过很好的是现在超算已经能帮我们提供比较好的计算平台。在这个过程中,2014年开始的讯飞超脑计划,让我们从能听会说到能理解会思考。

    

我们去年取得的成绩,一个是美国CHIME的远场英文识别大赛,世界上很多顶尖机构也参加了,科大讯飞在三项比赛中都取得了第一名的成绩,而且我们相对上一年提高了将近100%,这是远场识别效果,而且是对英文的,所以可以看到我们在这方面技术的熟练程度。 


去年美国举办的知识图谱的比赛,用中文、英文和西班牙语描述的很多内容我们要找出他们之间的对应关系,包括逻辑之间、人物之间的对应关系,这方面我们也拿到了第一名和第二名。但也充分证明了我们在这方面进步很快。

    

另外就是要代替图灵测试的一个新的测试,大家知道图灵测试是测什么,就是有一个计算机和人跟你对话,但你不知道哪个是人哪个是计算机的时候,就算是通过图灵测试了。但后来发现计算机可以作弊,比如,在你问它:“你多大了?”机器人说:“你猜一猜”。


后来大家觉得需要更加严格的测试,就是测常识,因为常识对人类来讲很容易,但对计算机非常具有挑战性。它测的是什么?这上面本来应该显示的是两句话:爸爸举不起儿子,因为他太重了,还有一句话是爸爸举不起儿子,因为他太虚弱了。这样一个十岁的小孩可以轻松拿到90分,但计算机最好的成绩,我们是第一名也只能达到60分。所以这样严格的测试,对人工智能真正的进步非常有好处。

   

除此之外,今年我带领的863机器人高考项目,也参加了高考。整个测试可以告诉大家一些成绩,150分的语文和数学卷子,数学考了110,语文考了90 。

    

人工智能到底能在哪些方面应用?我们觉得人工智能能改变人类的两个方面,通俗地讲,一方面是改变了我们人类生产的很多产品,比如手机、电视、汽车、机器人,我们改变了产品本身;另外一方面利用人工智能,就像我们国家智能制造2025提到的,我们可以改变生产过程,这不只是硬件,也可以是服务,比如我们改变了生产教育内容的过程,我们改变了在医疗里面生产医疗保障体系的过程。而如果你要改变一个产品或者服务的生产过程,最周期的是这个过程中的很多专家,能不能学习这些专家的知识,并且使这个生产过程得到改变,这是我们人工智能起到的能够优化整个行业的切入点。



如果人工智能能改变我们的产品,最重要的一点就是交互,从过去的几十年来我们看到每一次IT产业的变革,硬件、软件、操作系统和人机交互的方式都会发生变化。语音是人和人之间交互最直接的方式,我今天在台上用语音大家听得最方便的。但是这里面有一个非常有意思的观察,我不知道大家注意到没有,我们的人获取的信息中,80%来自于我们的眼睛,但前提是你要有东西可看。


这里面非常有意思的是我们的机器是有显示屏的,而显示屏能把丰富的信息显示出来,而被人的眼睛所接收。但如果反过去,我们人类是没有显示屏的。我们人类输出想法最自然便捷的方式是语音,但机器对于语音的理解已经达到了已经可以对话的水平。而机器对于图像的理解还不行,反正我们人类还没有显示器给它看。所以这种情况下我们看到,越来越多的各种各样的交互智能硬件有的是只用语音进行交互,而有一些要配合画面来进行。在这样的交互情况下,语音其实成为我们跟机器之间沟通最自然便捷的方式。

    

两年前我们发布了AIUI,包括今天我们将发布的全新的产品,就是对这个理念最好的诠释,新产品能够抗噪,能够远场识别,我们希望在这个过程中越来越好地支持更多开发伙伴作出更好的产品。

    

在过去的一年当中,我们的开放平台也获得了很好的增长,我们开发伙伴达到了35万,这中间我们看到的是包括在座的开发者、创业者积极的参与。

    

我们也开发了一系列的产品,包括科大讯飞的“听见”,这些都帮助我们更好地探索在整个交互过程中去引领发展,我们希望把这些交互的体验磨合得更好,然后把这些能力和后面的内容一起开放给所有的开发伙伴,包括我们在车载方面的进展。

    

科大讯飞并不仅仅是提供能力给最终端的产品,我们在改变整个行业方面也做了很大的工作,我们知道现在的教育、医疗、公检司法等等行业里,专家人才成为紧缺资源。在教育领域我们让机器可以模仿老师的行为,就是批改作业。为什么我们现在要去最好的名校,因为里面的老师资源最好,他们能够给我们的孩子提供最好的辅导,但是老师是有限的,不可能每个老师对每个孩子都能进行精确的辅导。现在我们做的人工智能可以让机器来帮助老师批改作业。同时第二个我们能够从每个孩子的不同作业反馈来看到他缺少的知识。第三步我们可以进一步地根据每个孩子缺少的知识点布置新的不同的作业。这样一个学期下来,我们发现采用个性化因材施教的方法,成绩提升非常明显,这样的智能化学习就是我们复制了在教育体系中最值钱的专家老师的经验。

 

很多人问人工智能会不会把我们的工作全部抢走?我们的想法是这样的:大家都知道人类每个工作有非常多的技能,这些技能分不同的类型,比如下棋,随着机器的运算智能、感知智能和运动智能不断提高,这些完全信息公开的系统,机器一定能够逐步地替代我们,只是需要一定的时间。


但在工作里面有一些技能,比如当你要进行决策,当你要进行很多判断,很多信息是不完整的。这些不完整的信息决策,机器只能对我们提供辅助。比如,教育医疗行业里,有很多原创性的,从0到1的创造性的事情,只有人类能做出来。我相信在机器拥有灵魂之前,它们很难或者永远做不到这样的事情。所以对人类来讲,机器不是替换我们的工作,机器是逐步地在一个时间长度内替换我们某些技能,老师可以花更多时间辅导学生,辅导心灵、素质的发展,这会让我们跟机器有很好的融合。



将来科大讯飞希望跟整个业界形成一种什么样的合作?其实如果我们现在要做人工智能,不管是产品还是技术,它可能有两种创新模式,我们把一种叫做源头创新,一种叫系统创新,既需要中科大所在的合肥这样的城市,让基础创新得到新的攀升;同时,也需要很多创业者,很多合作伙伴在北上广深这些地方做快速的冲浪型的创新。如果能把这两种创新模式集合在一起,我相信我们就一定能够创造出让世界都惊呼的好产品。


在这个过程中,科大讯飞自己的定位是什么?我们希望成为一个技术创新性公司,我们会用互联网思维来研究我们的核心技术,但我们希望我们能够做到以下四点:


  • 第一是我们希望是世界上最先进的;

  • 第二我们希望通过核心技术加上商业模式和合作伙伴的合作,我们赢得相当的商业利润;

  • 第三点我们有了商业利润把它持续不断地投入到技术研究中,给大家提供更好的源头核心技术系统创新;

  • 最后我们希望我们能够国际化,我们希望能带着中国所有的硬件厂商还是产品厂商将来进军国际,能够在国际的新一轮的竞争中占据一席之地。这有点向之前在机械时代的航空发动机,大家知道航空发动机是所有器械的动力,我们就是希望拥有像当时的发动机一样的地位。

    

最后在人工智能的情况下,我们设想了一下将来人工智能会是什么样的生态,我们希望创造出自己的产品跟大家合作。将来每个公司都会有自己的人工智能大数据,但这些公司的商业方向可能会不一样。科大讯飞是平台型厂商,我们在这个平台上提供最好的人和机器交互方式。每个产品、每个机器人公司、每个教育公司,或者具体到每一个细分行业的公司,它们有自己的方向。但是,我们希望在这种新的生态下能够共享经验、知识、数据和利益。这样我们能够一起创造一个混合的商业生态,我们在这个过程中共同得到收益,共同给最终用户创造最好的价值。

    

今天我们在这里开这个发布会也是在这种目标的指引下,希望源源不断地将核心技术和产品进一步提升成能够直接让大家使用的聚合化的产品。我也期待,将来我们一起能够用我们的人工智能技术,用我们刚才说到的爬山型和冲浪型结合的方式,用我们的源头核心技术系统创新和产品创新、应用创新和微创新,共同打开人工智能的新时代。


文章转自新智元公众号,原文链接

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
人工智能
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
53 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
|
1月前
|
存储 人工智能 开发者
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
84 0
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
|
1月前
|
人工智能 语音技术 数据格式
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
35 0
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
|
2月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
2月前
|
人工智能 Linux iOS开发
AI超强语音转文本SenseVoice,本地化部署教程!
【9月更文挑战第7天】以下是AI超强语音转文本工具SenseVoice的本地化部署教程:首先确保服务器或计算机满足硬件和软件要求,包括处理器性能、内存及操作系统等。接着从官网下载适合的安装包,并按操作系统进行安装。配置音频输入设备和语言模型后,启动SenseVoice并测试其语音转文本功能。最后根据实际使用情况进行优化调整,并定期更新以获取最新功能。详细步骤需参照官方文档。
620 1
|
3月前
|
人工智能 数据处理 语音技术
通义语音AI技术问题之查看KAN-TTS在ModelScope上的模型列表如何解决
通义语音AI技术问题之查看KAN-TTS在ModelScope上的模型列表如何解决
51 10
|
3月前
|
人工智能 语音技术
通义语音AI技术问题之semantic 的 residualquantizer 模块的作用如何解决
通义语音AI技术问题之semantic 的 residualquantizer 模块的作用如何解决
34 9
|
3月前
|
人工智能 语音技术
通义语音AI技术问题之服务端对于音频数据如何解决
通义语音AI技术问题之服务端对于音频数据如何解决
36 7
|
3月前
|
机器学习/深度学习 人工智能 数据挖掘
通义语音AI技术问题之TTS的生成效果和流式推理高效性如何解决
通义语音AI技术问题之TTS的生成效果和流式推理高效性如何解决
67 5
|
3月前
|
人工智能 数据挖掘 语音技术
通义语音AI技术问题之说话人识别的两种类型分类如何解决
通义语音AI技术问题之说话人识别的两种类型分类如何解决
68 5
下一篇
无影云桌面