暂无个人介绍
达摩院语音实验室祝你新年快乐!
自ModelScope魔搭社区发布以来,众开发者在ModelScope上传与下载模型,并集成到自己的语音识别服务中。为了方便用户更好地利用ModelScope进行语音识别服务,我们推出了语音识别基础框架FunASR,希望在语音识别的学术研究和工业应用之间架起一座桥梁。FunASR已经集成到ModelScope中,提供的工业级的语音识别模型的推理与微调定制,使得研究人员和开发者可以更加便捷的进行语音识别模型的研究和生产,促进语音识别生态的发展。
近期,阿里巴巴达摩院发布新一代语音识别模型Paraformer,这是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。 目前,该模型于魔搭社区面向全社会开源,适用语音输入法、智能客服、车载导航、会议纪要等众多场景。
三分钟视频|看懂达摩院语音降噪模型训练全过程
三分钟视频|看懂达摩院新一代语音识别模型训练全过程
三分钟视频|看懂口语语言处理模型训练全过程
Empirical Methods in Natural Language Processing (EMNLP)是由国际计算语言学协会(Association for Computational Linguistics, ACL)举办的自然语言处理和人工智能方面的重量级国际会议,历届会议都会受到全球各地人工智能领域人士的广泛关注。 近期,阿里巴巴达摩院语音实验室的论文“Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis”被EMNLP 2022 主会长文接收。该论文展现了达摩院语音实验室在多方会议分
三分钟视频|看懂多情感语音合成模型训练过程
入驻ModelScope,一起魔搭吧(内附多项开发者权益)
本文详细介绍PoNet模型的原理以及其在ModelScope上的体验用法,包括PoNet简介原理、PoNet在ModelScope上怎么用、PoNet在各种下游任务上的效果等。
达摩院联合CCF开源发展委员会共同发起了国内首个中文AI模型开源社区--魔搭ModelScope,汇集了当前业界各类模态的领先模型,以及丰富的数据集,并吸引各大科研机构和科技公司来分享共建这一社区,方便科研工作者做横向的比较和研究,并共同推进技术创新和原创性模型研究的发展。 本届全国人机语音通讯学术会议——魔搭专场(线上)技术沙龙,将邀请魔搭ModelScope社区语音语义AI的贡献者和合作伙伴一同进行模型解读演示以及如何快速训练定制各类语音模型。
【OpenCall】ICASSP2023通用会议理解及生成挑战赛邀请函
继杭州云栖大会,阿里达摩院携手 CCF 开源发展委员会共同推出 AI 模型社区“魔搭” ModelScope以来,达摩院率先向魔搭社区贡献 300 多个经过验证的优质 AI 模型,进行了全面开源开放。澜舟科技、深势科技、智谱 AI等合作机构亦在社区开源业界领先模型,包括视觉、语音、自然语言处理、多模态等 AI 主要方向,并向 AI for Science 等新领域积极探索,覆盖的主流任务超过 60 个。
如何使用ModelScope魔搭训练工业级语音识别模型
如何使用ModelScope魔搭开源代码训练一款语音合成模型
如何用ModelScope训练出一个语音降噪模型?
近期,阿里巴巴达摩院高校AIR合作论文“MFCCA:Multi-frame cross-channel attention for multi-speaker ASR in multi-party meeting scenario”被IEEE SLT 2022接收。该论文考虑到麦克风阵列不同麦克风接收信号的差异,提出了一种多帧跨通道注意力机制,该方法对相邻帧之间的跨通道信息进行建模,以利用帧级和通道级信息的互补性。
“你只需专注会议,其余一切交给听悟。”11月4日,2022杭州云栖大会,阿里巴巴达摩院研发的智能产品“听悟”进阶版亮相大会现场。仅需一台个人电脑,观众和媒体记者们即可体验全面集成达摩院语音语言智能的最新AI助理,感受会议场景的前沿AI实践。
11月3日,2022云栖大会杭州现场,阿里达摩院联手CCF开源发展委员会共同推出AI模型社区“魔搭”ModelScope,旨在降低AI的应用门槛。达摩院率先向魔搭社区贡献300多个经过验证的优质AI模型,超过1/3为中文模型,全面开源开放,并且把模型变为直接可用的服务。
2022云栖大会 | ModelScope模型社区分论坛即将重磅发布(11月3日)
长文本口语语义理解技术系列③:待办抽取实践
9月15日,“中国科大-阿里巴巴智能计算联合实验室”在合肥挂牌成立。中国科学技术大学将与阿里巴巴达摩院合作,围绕国家战略方向,开展人工智能、智能计算等领域的基础性、前瞻性和关键共性技术研究;发挥产研合作优势,共同培养“新工科”人才。
长文本口语语义理解技术系列②:关键词抽取实践
长文本口语语义理解技术系列①:段落分割实践
【2023届秋招启动】阿里巴巴达摩院语音实验室欢迎各位应届同学们投递简历至speech-jobs@list.alibaba-inc.com,期盼你的加入!
INTERSPEECH是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。 本文主要对比研究三种SA-ASR的方法,通过对说话人日志、语音分离和语音识别模块的耦合,在M2MeT竞赛上发布的真实会议场景语料库AliMeeting上进行了相关实验,有效地降低了说话人相关字错误率(SD-CER)。论文已被INTERSPEECH 2022接收。
INTERSPEECH 是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍一种全双工通话中的个性化回声消除方法。该论文已被 INTERSPEECH 2022 接收。
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍我们在 INTERSPEECH 2021 发表的两篇论文工作:一种在预训练 (pre-training) 和微调 (fine-tuning) 中融合音素和文本信息的技术,提升下游 SLP 任务对于 ASR 错误的鲁棒性,以及一种区分式自训练技术 (discriminative self-training) ,减缓对于有
近日,国际权威研究机构 IDC 发布《2021H2 中国 AI 云服务市场研究报告》,阿里云智能语音市场份额 42.5%,排名第一。这是继2019年H2后,阿里语音AI市场份额连续三年保持首位。
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍一种具有高识别率与计算效率的单轮非自回归模型 Paraformer。该论文已被 INTERSPEECH 2022 接收。
语音识别技术,也被称为自动语音识别 (Automatic Speech Recognition,ASR),其目标是将语音转成文字。
7月7日消息,国际权威研究机构 Gartner 近日公布《云 AI 开发者服务关键能力报告》,阿里在语音语义领域位居全球第二,超越亚马逊 AWS、微软等企业。
语音合成技术作为人机交互的重要环节,终极目标即达到媲美真人的合成效果。高表现力语音合成逐渐成为未来的趋势。高表现力语音有三个显著的特点:韵律自然、情感风格丰富和音质清澈。 需要认识到的是当下的技术水平在韵律自然表示、情感风格丰富度上和真人之间还存在着较大的、人耳容易分辨的差距。 因此,我们针对这三个特点,进行算法上的探索,形成达摩院第五代语音合成技术——基于韵律建模的 SAM-BERT、情感语音合成 Emotion TTS 和高清语音合成 HiFi-TTS 的 Expressive-TTS。
过去十年,语音AI从实验室走向应用,语音搜索、交互早已融入日常。本文一览达摩院语音AI技术创新全景,一起体会能听、会说、懂你的语音AI。
多模态流式 AI 编排平台,大规模减少新应用开发成本
Speaker Diarization 中的无监督聚类算法
ICASSP 2022 论文分享:基于 HRR 的非对齐序列多模态情感分析
Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率
本文通过拆解原始问题、发散思路优化等方式,记录了扫一扫从单码到多码识别的技术框架改造及多码识别率优化方案。其中涉及解码SDK的能力、码处理技术链路、码转换算法、降低漏检率策略等设计与实现。
本文将介绍淘宝 APP 统一网络库演进的过程,讲述如何围绕体验持续构建南北向从监测到加速一体化的终端网络架构,通过构建 NPM 弱网诊断感知能力,落地原生多通道技术/多协议择优调度手段,贴合厂商附能网络请求加速,实现去 SPDY 及规模化 IPv6/H3 协议簇的平滑过渡,为用户提供弱网更好、好网更优的 APP 加载浏览体验,支撑业务创造更多的可能性。
今天,我们想分享来自大淘宝技术工程师们的《人间清醒语录》,这些金句里凝结了他们多年实践经验的智慧,希望可以给你“打怪升级”的过程带来一些帮助。
我们结合逛逛推荐场景中的具体问题,从多场景全域表征的视角进行了一系列的探索与内容推荐场景的应用,从全域表征的范围、信息迁移方式以及模型框架的应用等维度展开我们的优化工作,取得了阶段性的优化经验和业务效果。
近日,CVPR NTIRE 2023 Quality Assessment of Video Enhancement Challenge比赛结果公布,来自大淘宝音视频技术团队的同学组成「TB-VQA」队伍,从37支队伍中脱颖而出,拿下该比赛(唯一赛道)冠军。此次夺冠是团队继MSU 2020和2021世界编码器比赛、CVPR NTIRE 2022压缩视频超分与增强比赛夺魁后,再次在音视频核心技术的权威比赛中折桂。
每日好店作为一个独特的店铺导购场景,希望能够“帮助用户发现更多好店”。目前每日好店的主要入口包括首页宫格和信息流,用户在店铺精选流中发生点击行为后,会进入主题二级承接页,店首页以及全部宝贝等页面。 本系列共两篇内容,上篇:每日好店——淘宝店铺推荐系统实践
今天是4月23日了,是联合国教科文组织规定的“世界读书日”。 大淘宝技术的工程师们精心挑选出7本技术类书籍, 有机器学习方面的、推荐系统方面的,分布式领域的,等等。每一位工程师都根据自己真实的阅读心得写了推荐语,希望能帮大家更快挑选到对自己有用的书籍。
画面模糊问题的源头也是来自用户的微距体验不佳,我们对问题深入分析,适当拆解。通过 Apple Development Doc 的查阅及实践,一步步抽丝剥茧,最终完美解决用户的体验痛点,也为我们自身沉淀了展示微距的能力。
本文作者永霸负责了淘宝PC改版,他坚信历史的发展是螺旋式上升的,那些只要认为是对的事情,未来一定会发生/被证实的。 文章指路:淘宝PC改版!我们跟一位背后付出6年的男人聊了聊……
BBC 发现其网站加载时间每增加一秒,用户便会流失 10%。为提高页面的秒开率,我们不断探索着优化策略,仅仅在浏览器领域下的优化已经满足不了我们的极致要求,开始往服务端方向不断探索。本文将讨论业务接入SSR的几个问题: 1.SSR究竟适合哪些业务? 2.接入SSR后,性能带来了哪些提升? 3.业务接入SSR有哪些成本?
基于 Git 的开发工作流——主干开发特性总结
通过改变3D场景制作流程复杂、成本高、门槛高、流动性差的现状,让商家像玩转2D一样去玩转3D,让普通消费者也能参与到3D内容创作和消费中,真正实现内容生产模式从PGC/UGC过渡到AIGC,是我们3D场景智能创作引擎一直追求的目标。
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07
发表了文章
2025-03-07