7 Papers & Radios | 中国天眼FAST登Nature封面;MIT提出可出题、做题、评分模型(2)
7 Papers & Radios | 中国天眼FAST登Nature封面;MIT提出可出题、做题、评分模型
7 Papers & Radios | 中国天眼FAST登Nature封面;MIT提出可出题、做题、评分模型(1)
7 Papers & Radios | 中国天眼FAST登Nature封面;MIT提出可出题、做题、评分模型
用Transformer定义所有ML模型,特斯拉AI总监Karpathy发推感叹AI融合趋势
用Transformer定义所有ML模型,特斯拉AI总监Karpathy发推感叹AI融合趋势
加载模型出现-RuntimeError: Error(s) in loading state_dict for Net:unexpected key(s) in state_dict: XXX
加载模型出现-RuntimeError: Error(s) in loading state_dict for Net:unexpected key(s) in state_dict: XXX
视觉大模型系列 | MSA:一种简单强大的医学 SAM 适配器,轻松强化 SAM 到指定领域
视觉大模型系列 | MSA:一种简单强大的医学 SAM 适配器,轻松强化 SAM 到指定领域
中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 & 针对中文语料进行高效编码
中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 & 针对中文语料进行高效编码
视觉大模型系列 | STU-Net: 超越 nnU-Net,探讨大模型在医学图像分割领域的可能性
视觉大模型系列 | STU-Net: 超越 nnU-Net,探讨大模型在医学图像分割领域的可能性
视觉大模型系列 | SEEM : 一种比 SAM 交互能力更强,且具有语义感知的分割大模型
视觉大模型系列 | SEEM : 一种比 SAM 交互能力更强,且具有语义感知的分割大模型
iOS MachineLearning 系列(16)—— 几个常用的图片分类CoreML模型
对于图片识别分类的模型来说,其输入和输出都一样,输入都为图像参数,输入为两部分,一部分为最佳预测结果,一部分为可能得预测结果及其可信度。
即插即用系列 | Skip-Attention:一种能显著降低Transformer计算量的模型轻量化方法
即插即用系列 | Skip-Attention:一种能显著降低Transformer计算量的模型轻量化方法
达摩院开源工业级说话人识别模型CAM++
近日,达摩院正式向公众开源工业级说话人识别通用模型CAM++,兼顾准确率和计算效率,训练labels类别达20万,每类含20~200条梅尔频谱特征。当前该模型已上线Modelscope魔搭社区,后续将陆续开源针对各场景优化的工业级模型。
ICASSP 2023论文模型开源|语音分离Mossformer
人类能在复杂的多人说话环境中轻易地分离干扰声音,选择性聆听感兴趣的主讲人说话。但这对机器却不容易,如何构建一个能够媲美人类听觉系统的自动化系统颇具挑战性。 本文将详细解读ICASSP2023本届会议收录的单通道语音分离模型Mossformer论文,以及如何基于开发者自有数据进行该模型的调优训练。
【答开发者问】魔搭ModelScope语音技术社区2月QA集锦
自ModelScope发布以来,语音AI技术开源模型受到众开发者朋友们的关注和使用。感谢开发者们在社区的技术交流群内热烈地讨论和提出宝贵建议。 本文整理了2月份开发者们提问较多或普遍存疑的问题,并进行解答,以供后续开发者们参考,亦欢迎开发者们进入社区与我们常交流。
开源|如何使用ModelScope训练自有的远场语音唤醒模型?
就像人和人交流时先会喊对方的名字一样,关键词就好比智能设备的"名字",而关键词检测模块则相当于交互流程的触发开关。 本文介绍魔搭社区中远场语音增强与唤醒一体化的语音唤醒模型的构成、体验方式,以及如何基于开发者自有数据进行模型的定制。
魔搭语音更新|七大模型最新开源,推理速度升级,几行代码可实现微调
自ModelScope魔搭社区发布以来,众开发者在ModelScope上传与下载模型,并集成到自己的语音识别服务中。为了方便用户更好地利用ModelScope进行语音识别服务,我们推出了语音识别基础框架FunASR,希望在语音识别的学术研究和工业应用之间架起一座桥梁。FunASR已经集成到ModelScope中,提供的工业级的语音识别模型的推理与微调定制,使得研究人员和开发者可以更加便捷的进行语音识别模型的研究和生产,促进语音识别生态的发展。
开源|业界首个应用落地的非自回归端到端语音识别模型,推理效率可提升10倍
近期,阿里巴巴达摩院发布新一代语音识别模型Paraformer,这是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。 目前,该模型于魔搭社区面向全社会开源,适用语音输入法、智能客服、车载导航、会议纪要等众多场景。
EMNLP 2022论文解读 | SOND:基于显式语音重叠建模的说话人日志模型
Empirical Methods in Natural Language Processing (EMNLP)是由国际计算语言学协会(Association for Computational Linguistics, ACL)举办的自然语言处理和人工智能方面的重量级国际会议,历届会议都会受到全球各地人工智能领域人士的广泛关注。 近期,阿里巴巴达摩院语音实验室的论文“Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis”被EMNLP 2022 主会长文接收。该论文展现了达摩院语音实验室在多方会议分
如何使用魔搭ModelScope快速定制一款对长文本进行理解的模型?
本文详细介绍PoNet模型的原理以及其在ModelScope上的体验用法,包括PoNet简介原理、PoNet在ModelScope上怎么用、PoNet在各种下游任务上的效果等。
【报名】2022年第17届全国人机语音通讯学术会议--魔搭专场技术沙龙
达摩院联合CCF开源发展委员会共同发起了国内首个中文AI模型开源社区--魔搭ModelScope,汇集了当前业界各类模态的领先模型,以及丰富的数据集,并吸引各大科研机构和科技公司来分享共建这一社区,方便科研工作者做横向的比较和研究,并共同推进技术创新和原创性模型研究的发展。 本届全国人机语音通讯学术会议——魔搭专场(线上)技术沙龙,将邀请魔搭ModelScope社区语音语义AI的贡献者和合作伙伴一同进行模型解读演示以及如何快速训练定制各类语音模型。
WeNet入驻魔搭Modelscope,助推开源语音社区协同创新
继杭州云栖大会,阿里达摩院携手 CCF 开源发展委员会共同推出 AI 模型社区“魔搭” ModelScope以来,达摩院率先向魔搭社区贡献 300 多个经过验证的优质 AI 模型,进行了全面开源开放。澜舟科技、深势科技、智谱 AI等合作机构亦在社区开源业界领先模型,包括视觉、语音、自然语言处理、多模态等 AI 主要方向,并向 AI for Science 等新领域积极探索,覆盖的主流任务超过 60 个。
阿里达摩院五年磨一剑,重磅推出AI模型社区,直击“AI应用难”
11月3日,2022云栖大会杭州现场,阿里达摩院联手CCF开源发展委员会共同推出AI模型社区“魔搭”ModelScope,旨在降低AI的应用门槛。达摩院率先向魔搭社区贡献300多个经过验证的优质AI模型,超过1/3为中文模型,全面开源开放,并且把模型变为直接可用的服务。

INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍一种具有高识别率与计算效率的单轮非自回归模型 Paraformer。该论文已被 INTERSPEECH 2022 接收。
《花雕学AI》34:用13种Prompt玩转AI聊天机器人—揭秘ChatGPT模型
如何提高聊天机器人的交互性和创造性呢?有没有一些技巧或方法可以帮助聊天机器人更好地生成不同类型的回复呢?答案是有的。这就是ChatGPT的13种Prompt。这些Prompt是一些用来引导聊天机器人生成不同类型的回复的技巧。它们可以帮助聊天机器人更好地理解用户的意图,提供更有趣、更有创意、更有逻辑的回复。 在本文中,我们将介绍ChatGPT的13种Prompt的概念和作用,并举例说明如何使用它们来和聊天机器人进行愉快和有意义的对话。
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓(2)
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓(1)
7 Papers & Radios | OpenAI文本生成图像新模型GLIDE;培养皿中百万人脑细胞打乒乓