百度实时语音转换技术 DeepVocie;谷歌 Python Fire 等| AI 研习社周刊

简介:

█开发工具

  • 微软发布 Azure Stack  第三技术预览版本

Azure Stack 是微软为大型企业客户开发,在本地部署的数据中心运行私有云或混合云的服务。其正式版本预计于今年年中推出。3 月 1 日,微软公布了它的第三个技术预览版本。

微软副总裁 Mike Neil 强调,Azure Stack 将根据实际使用情况按需定价,但也会提供年费方式的固定价格选项。

详情:http://www.leiphone.com/news/201703/nYfx3ZLOXqMckzPZ.html?type=preview 

  • 谷歌开源 Python Fire

3 月 2 日,谷歌公布了新的 Python 工具包——Python Fire。它的功能很简单:能从任何 Python 代码生成命令行接口(CLI)。开发者面对任意一个 Python 程序,仅需调用 Python Fire 即可把该程序转为 CLI。Python Fire 已开源,用户可通过`pip install fire`在 PyPI 进行下载,也可以去 GitHub 查看它的源代码。

详情:http://www.leiphone.com/news/201703/faNO0yTImFEYCu6j.html?type=preview 

  • NASA 发布 2017-2018 软件目录

3 月 2 日,NASA 正式宣布了新一批对外开放的软件目录,包含大量 app、代码库和工具。当然,大部分 AI 从业者可能对其中大部分的气象、系统测试、航空动力装置、太空探索等领域的科研软件不感兴趣。雷锋网消息,NASA 开放软件中还包括了其科研人员日常使用的图像、数据处理软件,更有大量无人飞行器领域的研发、测试软件。

详情:http://www.leiphone.com/news/201703/faNO0yTImFEYCu6j.html?type=preview 

█硬件

  • 树莓派 Raspberry Pi Zero W 发布

 2 月 28 日,树莓派诞生五周年之际,Raspberry Pi Zero W 发布。它整合了 802.11n WiFi 和蓝牙 4.0 模块,其他参数与 Zero 一致。这是树莓派家中族第一款提供无线功能的产品。售价为 10 美元。

详情:http://www.leiphone.com/news/201703/nYfx3ZLOXqMckzPZ.html?type=preview

  • 英伟达发布 GTX 1080 Ti

雷锋网消息 ,2 月 28 日晚,英伟达发布了万众期待的 GTX 1080 Ti,并表示,其性能超过 GTX 1080 约 35%。雷锋网消息这使得 GTX 1080 Ti 与 Pasal Titan X 的性能不相上下,部分非公版型号甚至可能犹有过之。

详情:http://www.leiphone.com/news/201703/vd9ML1lRSaiZGEYD.html?type=preview 

█平台

  • Line、LG、索尼三巨头联手,推出 AI 语音助手平台 Clova

雷锋网消息,本周,日韩三巨头联手推出 Clova,以及与之捆绑的一系列 AI 软件工具。后者可对日语、韩语的语音识别和自然语言处理(NLP)进行支持。

作为对标亚马逊 Alexa 的服务,Clova 将在未来被应用于智能家居、玩具和其它智能硬件设备上。索尼将于 2018 年推出搭载 Clova 的智能硬件产品。另外,Line 还收购了东京物联网设备、家庭机器人初创公司 Vinclu,着手开发基于 Clova 的硬件产品。

详情:http://www.leiphone.com/news/201703/nYfx3ZLOXqMckzPZ.html?type=preview

█前沿技术

  • 百度 Deep Voice 实现文本到语音的实时转换

3 月 1 日,百度公开宣布了 Deep Voice,一个产品级的文本到语音转换( text-to-speech,TTS)系统。

该系统完全由深度神经网络搭建而成,最大的优势在于能够满足实时转换的要求。在以前,音频合成的速度往往非常慢,需要花费数分钟到数小时不等的时间才能转换几秒的内容,而现在,百度研究院已经能实现实时合成,在同样的 CPU 与 GPU 上,系统比起谷歌 DeepMind 在去年 9 月发布的原始音频波形深度生成模型 WaveNet,要快上400倍。

详情:http://www.leiphone.com/news/201703/vd9ML1lRSaiZGEYD.html?type=preview 





本文作者:三川
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
1天前
|
人工智能 算法 API
谷歌AI Gemini 2.0 pro国内使用教程, 2025最新版!
在 2025 年 2 月初,谷歌又推出了 Gemini 2.0 Pro 系列模型,进一步巩固了其在 AI 领域的领先地位,同时也正式向外界宣告,我们进入了 Gemini 2.0 时代
27 5
|
1天前
|
存储 人工智能 自然语言处理
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
FoloUp 是一个开源的 AI 语音面试平台,能够根据职位描述自动生成定制化的面试问题,并与候选人进行自然对话式的语音面试,帮助企业高效招聘。
29 9
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
|
1天前
|
人工智能 算法 API
重磅:谷歌AI Gemini 2.0 Pro/Flash已来,国内用户怎么使用?
当人工智能的浪潮席卷全球,谷歌再次站在了时代的潮头。Gemini 2.0,这个名字如今已成为 AI 领域最耀眼的明星。它不仅仅是一个模型的升级,更代表着一场技术革命的开端。2024 年末,Gemini 2.0 Flash 以其疾风骤雨般的速度震撼登场,紧接着,2025 年初,Gemini 2.0 Pro 系列的发布,则将这场革命推向了高潮。谷歌正式宣告,我们已步入 Gemini 2.0 时代!
42 15
|
8天前
|
人工智能 负载均衡 搜索推荐
谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!
谷歌近日推出基于“快慢思维”理论的双思维AI Agent系统,模仿人类大脑的两种思维模式:快速直观的Talker(系统1)和深思熟虑的Reasoner(系统2)。Talker负责日常对话与快速响应,Reasoner则处理复杂推理任务。该系统模块化设计,灵活高效,已在睡眠教练等场景中展现应用潜力,但仍面临工作负载平衡与推理准确性等挑战。论文详情见:https://arxiv.org/abs/2410.08328v1
37 1
|
10天前
|
机器学习/深度学习 存储 人工智能
预定下一个诺奖级AI?谷歌量子纠错AlphaQubit登Nature,10万次模拟实验创新里程碑
谷歌的量子纠错算法AlphaQubit近日登上《自然》杂志,被誉为量子计算纠错领域的重大突破。量子比特易受环境噪声干扰,导致计算错误,而AlphaQubit通过神经网络学习噪声模式,显著提升纠错准确性。实验结果显示,它在Sycamore处理器和Pauli+模拟器上表现优异,优于现有解码算法。尽管面临资源需求高等挑战,AlphaQubit为实用化量子计算带来新希望,并可能推动其他领域创新。论文详见:https://www.nature.com/articles/s41586-024-08148-8
33 5
|
27天前
|
机器学习/深度学习 人工智能 测试技术
登上Nature的AI芯片设计屡遭质疑,谷歌发文反击,Jeff Dean:质疑者连预训练都没做
2020年,谷歌的AlphaChip在Nature上发表并开源,其深度强化学习方法能生成超越人类水平的芯片布局,引发AI在芯片设计领域的研究热潮。然而,ISPD 2023的一篇论文对其性能提出质疑,指出未按Nature论文方法运行、计算资源不足等问题。谷歌DeepMind团队回应,强调AlphaChip已在多代TPU和Alphabet芯片中成功应用,并批驳ISPD论文的主要错误。此外,针对Igor Markov的“元分析”和无根据猜测,谷歌提供了详细的时间线和非机密部署情况,澄清事实并重申AlphaChip的开放性和透明度。
37 13
|
28天前
|
人工智能 自然语言处理 API
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。
675 4
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
|
30天前
|
Web App开发 机器学习/深度学习 人工智能
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
207 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
|
1月前
|
人工智能 JavaScript 前端开发
一段 JavaScript 代码,集成网站AI语音助手
根据本教程,只需通过白屏化的界面操作,即可快速构建一个专属的AI智能体。
|
1月前
|
人工智能 数据处理 语音技术
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。
107 23
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手

热门文章

最新文章

推荐镜像

更多