阿里云机器学习 PAI 年度发布:持续锻造云原生的 AI 工程平台
刚刚结束的 2022 云栖大会上,阿里云机器学习平台 PAI 发布了在开发者服务、企业级能力、工程性能优化三个方向的一系列新特性和功能。从支撑达摩院上云,到服务金融、汽车、互联网、制造等多个行业的创新实践,机器学习 PAI 不断夯实云原生的 AI 工程平台能力。
达摩院重要科技突破!空天数据库引擎Ganos解读
Ganos空天数据库引擎是李飞飞带领的达摩院数据库与存储实验室研发的新一代位置智能引擎,采用了平台即服务、多模融合、计算下推和云原生全新处理架构,为政府、企事业单位、泛互联网客户提供移动对象、空间/时空、遥感多模态数据混合存储、查询与分析服务,解决空天大数据使用流程复杂、使用门槛高、应用效率低等问题,主要应用于城市管理、交通物流、自然资源、航空航天、物联信息等领域。
ICASSP 2022 论文分享-CPT:语音翻译的跨模态前缀调优
ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。
本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。
本文介绍在语音翻译任务中,通过一个跨模态的 prefix network 来适配多语言文本预训练模型的新方式。
[OpenVI-视觉生产系列之视频稳像实战篇]再见吧云台,使用AI“魔法”让视频稳定起来
随着自媒体与短视频的兴起,人们有了越来越多的拍摄视频的需求。然而由于手持拍摄、硬件限制等原因,利用手机等普通摄影设备拍摄的视频难免存在视频抖动问题。尤其是开启较高倍数的变焦后,手持拍摄很难拍摄到稳定的视频,极易产生抖动的现象。使用云台、斯坦尼康等外设可以缓解这样的抖动,但是很多时候多带一个外设降低了拍摄视频的便利程度,会使得随时随地的拍摄体验大打折扣。
ICASSP2023|达摩院语音实验室入选论文全况速览
近日,语音技术领域国际会议ICASSP公布了本届论文审稿结果,阿里巴巴达摩院语音实验室有14篇论文被大会收录。本次被接收的论文研究方向涵盖语音识别、语音唤醒、语音增强、说话人日志、语义理解、多模态预训练等。
ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学,语音和信号处理会议,是IEEE信号处理协会组织的年度旗舰会议。历届的ICASSP会议都备受全球信号处理领域研究学者的广泛关注,ICASSP2023将于6月4号至6月10号于希腊举办。
达摩院开源工业级说话人识别模型CAM++
近日,达摩院正式向公众开源工业级说话人识别通用模型CAM++,兼顾准确率和计算效率,训练labels类别达20万,每类含20~200条梅尔频谱特征。当前该模型已上线Modelscope魔搭社区,后续将陆续开源针对各场景优化的工业级模型。模型下载地址:https://www.modelscope.cn/models/damo/speech_campplus_sv_zh-cn_16k-common/s