暂无个人介绍
【毕设参考】ESP32 + HaaS Python 打造数据上云声控灯
【HaaS Python 硬件积木】粉尘传感器
使用ESP32 + HaaS Python打造运动心率检测系统 云上实时守护运动健康
【HaaS Python硬件积木】甲醛传感器
【HaaS Python硬件积木】乙醇传感器
HaaS Python + 达摩院AI能力 实现云端一体物体识别
HaaS Python 2.0 全新升级 更多案例+传感器+驱动库 快来体验吧
硬件工程师还有通过Python破圈的机会吗?
HaaS UI 使用 树莓派 打造自己的第一个案例
ESP32 + HaaS Python UI Lite 组件 打造倒计时面板
车牌识别系统已经融入到大众的生活中,现在的停车场大都支持车牌识别进出停车场。 车牌识别是OCR识别领域中的一种,通过深度学习训练出能够识别各种车牌的模型,有的系统使用边缘设备进行识别,有的使用云端进行识别。本章中使用HaaS云端积木中车牌识别功能进行识别,在识别到车牌后显示车牌号码。
近日,中国信通院发布5G云网系列标准,阿里达摩院XG实验室基于多年积累的5G云网协同技术能力,率先通过了 “可信云·面向5G的云网解决方案能力要求 第2部分:5G云专网”标准的首批测评。阿里达摩院成为业界第一家通过此标准第一阶段评测的公司,积极促进5G云网与垂直行业融合。
随着5G通信技术的不断发展,越来越多的应用场景需要高速、低延迟的网络支持,而云计算作为一种灵活的部署与高效的计算存储方式,能够为其提供强大的支持和保障。在今年巴塞罗那世界移动通信大会(MWC 2023)上,云计算5G的技术融合成为一种新的趋势。
多人对话的会议场景,由于其复杂多样的空间和声学条件,以及说话人不同的讲话风格,容易出现重叠讲话、不同数量的发言者、大会议室的远场信号以及环境噪声和混响等声音处理任务,这在语音AI技术迅速发展的当下仍是一项颇具挑战的技术难题。 为探寻更优技术解决方案,今年达摩院再次融聚产学研界专家智识,在上一届多通道多方会议转录挑战赛(M2MET)的基础上,达摩院语音实验室联合希尔贝壳和多位国内外颇具影响力的行业专家在ASRU2023上举办M2MET2.0挑战赛。
近日,达摩院正式向公众开源工业级说话人识别通用模型CAM++,兼顾准确率和计算效率,训练labels类别达20万,每类含20~200条梅尔频谱特征。当前该模型已上线Modelscope魔搭社区,后续将陆续开源针对各场景优化的工业级模型。
零门槛玩转AI声音定制,3分钟即可复刻你的发音模型
ICASSP2023 通用会议理解及生成挑战(MUG)成功举办及获奖团队结果分析
近日,语音技术领域国际会议ICASSP公布了本届论文审稿结果,阿里巴巴达摩院语音实验室有14篇论文被大会收录。本次被接收的论文研究方向涵盖语音识别、语音唤醒、语音增强、说话人日志、语义理解、多模态预训练等。 ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学,语音和信号处理会议,是IEEE信号处理协会组织的年度旗舰会议。历届的ICASSP会议都备受全球信号处理领域研究学者的广泛关注,ICASSP2023将于6月4号至6月10号于希腊举办。
人类能在复杂的多人说话环境中轻易地分离干扰声音,选择性聆听感兴趣的主讲人说话。但这对机器却不容易,如何构建一个能够媲美人类听觉系统的自动化系统颇具挑战性。 本文将详细解读ICASSP2023本届会议收录的单通道语音分离模型Mossformer论文,以及如何基于开发者自有数据进行该模型的调优训练。
自ModelScope发布以来,语音AI技术开源模型受到众开发者朋友们的关注和使用。感谢开发者们在社区的技术交流群内热烈地讨论和提出宝贵建议。 本文整理了2月份开发者们提问较多或普遍存疑的问题,并进行解答,以供后续开发者们参考,亦欢迎开发者们进入社区与我们常交流。
就像人和人交流时先会喊对方的名字一样,关键词就好比智能设备的"名字",而关键词检测模块则相当于交互流程的触发开关。 本文介绍魔搭社区中远场语音增强与唤醒一体化的语音唤醒模型的构成、体验方式,以及如何基于开发者自有数据进行模型的定制。
达摩院语音实验室祝你新年快乐!
自ModelScope魔搭社区发布以来,众开发者在ModelScope上传与下载模型,并集成到自己的语音识别服务中。为了方便用户更好地利用ModelScope进行语音识别服务,我们推出了语音识别基础框架FunASR,希望在语音识别的学术研究和工业应用之间架起一座桥梁。FunASR已经集成到ModelScope中,提供的工业级的语音识别模型的推理与微调定制,使得研究人员和开发者可以更加便捷的进行语音识别模型的研究和生产,促进语音识别生态的发展。
近期,阿里巴巴达摩院发布新一代语音识别模型Paraformer,这是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。 目前,该模型于魔搭社区面向全社会开源,适用语音输入法、智能客服、车载导航、会议纪要等众多场景。
三分钟视频|看懂达摩院语音降噪模型训练全过程
三分钟视频|看懂达摩院新一代语音识别模型训练全过程
三分钟视频|看懂口语语言处理模型训练全过程
Empirical Methods in Natural Language Processing (EMNLP)是由国际计算语言学协会(Association for Computational Linguistics, ACL)举办的自然语言处理和人工智能方面的重量级国际会议,历届会议都会受到全球各地人工智能领域人士的广泛关注。 近期,阿里巴巴达摩院语音实验室的论文“Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis”被EMNLP 2022 主会长文接收。该论文展现了达摩院语音实验室在多方会议分
三分钟视频|看懂多情感语音合成模型训练过程
入驻ModelScope,一起魔搭吧(内附多项开发者权益)
本文详细介绍PoNet模型的原理以及其在ModelScope上的体验用法,包括PoNet简介原理、PoNet在ModelScope上怎么用、PoNet在各种下游任务上的效果等。
达摩院联合CCF开源发展委员会共同发起了国内首个中文AI模型开源社区--魔搭ModelScope,汇集了当前业界各类模态的领先模型,以及丰富的数据集,并吸引各大科研机构和科技公司来分享共建这一社区,方便科研工作者做横向的比较和研究,并共同推进技术创新和原创性模型研究的发展。 本届全国人机语音通讯学术会议——魔搭专场(线上)技术沙龙,将邀请魔搭ModelScope社区语音语义AI的贡献者和合作伙伴一同进行模型解读演示以及如何快速训练定制各类语音模型。
【OpenCall】ICASSP2023通用会议理解及生成挑战赛邀请函
继杭州云栖大会,阿里达摩院携手 CCF 开源发展委员会共同推出 AI 模型社区“魔搭” ModelScope以来,达摩院率先向魔搭社区贡献 300 多个经过验证的优质 AI 模型,进行了全面开源开放。澜舟科技、深势科技、智谱 AI等合作机构亦在社区开源业界领先模型,包括视觉、语音、自然语言处理、多模态等 AI 主要方向,并向 AI for Science 等新领域积极探索,覆盖的主流任务超过 60 个。
如何使用ModelScope魔搭训练工业级语音识别模型
如何使用ModelScope魔搭开源代码训练一款语音合成模型
如何用ModelScope训练出一个语音降噪模型?
近期,阿里巴巴达摩院高校AIR合作论文“MFCCA:Multi-frame cross-channel attention for multi-speaker ASR in multi-party meeting scenario”被IEEE SLT 2022接收。该论文考虑到麦克风阵列不同麦克风接收信号的差异,提出了一种多帧跨通道注意力机制,该方法对相邻帧之间的跨通道信息进行建模,以利用帧级和通道级信息的互补性。
“你只需专注会议,其余一切交给听悟。”11月4日,2022杭州云栖大会,阿里巴巴达摩院研发的智能产品“听悟”进阶版亮相大会现场。仅需一台个人电脑,观众和媒体记者们即可体验全面集成达摩院语音语言智能的最新AI助理,感受会议场景的前沿AI实践。
11月3日,2022云栖大会杭州现场,阿里达摩院联手CCF开源发展委员会共同推出AI模型社区“魔搭”ModelScope,旨在降低AI的应用门槛。达摩院率先向魔搭社区贡献300多个经过验证的优质AI模型,超过1/3为中文模型,全面开源开放,并且把模型变为直接可用的服务。
2022云栖大会 | ModelScope模型社区分论坛即将重磅发布(11月3日)
长文本口语语义理解技术系列③:待办抽取实践
9月15日,“中国科大-阿里巴巴智能计算联合实验室”在合肥挂牌成立。中国科学技术大学将与阿里巴巴达摩院合作,围绕国家战略方向,开展人工智能、智能计算等领域的基础性、前瞻性和关键共性技术研究;发挥产研合作优势,共同培养“新工科”人才。
长文本口语语义理解技术系列②:关键词抽取实践
长文本口语语义理解技术系列①:段落分割实践
【2023届秋招启动】阿里巴巴达摩院语音实验室欢迎各位应届同学们投递简历至speech-jobs@list.alibaba-inc.com,期盼你的加入!
INTERSPEECH是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。 本文主要对比研究三种SA-ASR的方法,通过对说话人日志、语音分离和语音识别模块的耦合,在M2MeT竞赛上发布的真实会议场景语料库AliMeeting上进行了相关实验,有效地降低了说话人相关字错误率(SD-CER)。论文已被INTERSPEECH 2022接收。
INTERSPEECH 是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍一种全双工通话中的个性化回声消除方法。该论文已被 INTERSPEECH 2022 接收。
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍我们在 INTERSPEECH 2021 发表的两篇论文工作:一种在预训练 (pre-training) 和微调 (fine-tuning) 中融合音素和文本信息的技术,提升下游 SLP 任务对于 ASR 错误的鲁棒性,以及一种区分式自训练技术 (discriminative self-training) ,减缓对于有
近日,国际权威研究机构 IDC 发布《2021H2 中国 AI 云服务市场研究报告》,阿里云智能语音市场份额 42.5%,排名第一。这是继2019年H2后,阿里语音AI市场份额连续三年保持首位。