科大讯飞开源星火化学大模型、文生音效模型

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。

近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。

开源项目地址

 

Spark Chemistry-X1-13B

魔搭社区:https://modelscope.cn/models/iflytek/Spark-Chemistry-X1-13B

Gitcode:https://ai.gitcode.com/ifly_opensource/Spark-Chemistry-X1-13B

AudioFly

魔搭社区:https://modelscope.cn/models/iflytek/AudioFly

Gitcode:https://ai.gitcode.com/ifly_opensource/AudioFly

讯飞星火化学大模型Spark Chemistry-X1-13B

该模型基于讯飞星火X1-0420大模型,在多种化学任务数据集上进行了微调,展示了在解决复杂化学问题方面的卓越能力,同时保持了强大的通用能力。该模型在与化学相关的基准测试中表现出色,并且在大多数评估指标上明显优于领先的通用模型。

Spark Chemistry-X1-13B具备以下特点:

  • 将长思维链和快思考进行结合,是支持快思考和慢思考的统一模型。
  • 采用新的注意力掩码机制,将不同推理模式的训练阶段进行解耦,有效防止了混合模式数据分布之间的干扰。
  • 对高等知识问答、化学名称转换和分子性质预测等专门任务进行了多阶段优化,在相关评测上也取得了优异表现。

 

image.gif 编辑

* 评估数据集为自建,粗体表示当前评测SOTA

* 所有模型均使用相同的评估方案进行评估,结果为大模型在不同任务上平均的Zero-shot效果

Spark-Chemistry-X1-13B能够助力化学相关科研工作的高效推进与深远探索,使得开发者能够高效便捷搭建化学性质预测、化学知识检索问答等相关应用,同时也激发了更多跨领域创新可能,例如计算机科学与化学、生物学与化学等。

讯飞文生音效模型AudioFly

AudioFly模型可基于文本描述输入,生成44.1kHz 采样率的高质量音频,在文本与音效的匹配度上表现优异。AudioFly采用了潜在扩散模型(LDM)架构,经海量多元声音数据训练,支持单事件、多事件场景。

这里是一些AudioFly所生成的样例:

Prompt:A cat meows, and it's drizzling(一只猫喵喵叫着,外面正下着小雨)

📎getvoice.mp3

Prompt:thunder rumbled in the distance (远处传来阵阵雷声)

📎getvoice (1).mp3

thunder rumbled in the distance,魔搭ModelScope社区,10秒

在未进行针对性微调的情况下,AudioFly在学术数据集AudioCaps测试集上取得了SOTA指标,证明了该模型良好的推广性和鲁棒性。

 

image.gif 编辑

* 以上为在学界大规模音频事件描述数据集AudioCaps上的评测结果

FD:衡量生成音频与真实音频特征分布上的差异

KL:衡量生成结果与真实数据概率分布上的差异

CLAP:计算生成的音频与文本描述的一致性

* 基线模型的指标引用了论文 Stable Audio Open 中的评测分数;AudioFly 评测复用 Stable Audio Open 开源的测试方法保证客观性。

AudioFly的开源能够有效降低音效生成模型的使用门槛,开发者可以将其应用于短视频配音、有声故事生成等领域,释放更多声音创意潜力,创造出更多优质的声音内容。

非常欢迎大家在魔搭社区和Gitcode下载并体验上述开源模型。未来,团队也会分批次陆续在开源社区上开源更多通用与专业模型,为国产大模型开源生态的建设贡献自己的力量。

↓点击链接 直达开源模型链接https://modelscope.cn/models/iflytek/Spark-Chemistry-X1-13B

目录
相关文章
|
1月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
912 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
10天前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
201 120
|
14天前
|
编解码 自然语言处理 文字识别
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
凌晨,Qwen3-VL系列再添新成员——Dense架构的Qwen3-VL-8B、Qwen3-VL-4B 模型,本地部署友好,并完整保留了Qwen3-VL的全部表现,评测指标表现优秀。
817 7
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
|
8天前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
146 2
|
29天前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
507 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
26天前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。
|
1月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
482 109
|
2月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
519 2

热门文章

最新文章