|
6月前
|
人工智能 自然语言处理 语音技术
|

GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈

GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。

282 2
来自: 语音  版块
|
6月前
|
人工智能 编解码 物联网
|

阶跃星辰开源Step-Video-TI2V 图生视频模型介绍

在今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。

216 1
|
6月前
|
机器学习/深度学习 自然语言处理 小程序
|

MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署

Transfermor架构与生俱来的二次计算复杂度,及其所带来的上下文窗口瓶颈,一直为业界所关注。此前,MiniMax开源了MiniMax-01系列模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。

333 0
|
6月前
|
机器学习/深度学习 自动驾驶 搜索推荐
|

今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

这篇调查论文是首个系统回顾多模态思维链(MCoT)推理的综述。论文阐明了相关基础概念和定义,提供了全面的分类法,并从不同角度对当前方法进行了深入分析。MCoT将思维链推理的优势扩展到多模态环境中,设计了各种方法和创新推理范式来解决图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛成功。

155 1
|
6月前
|
机器学习/深度学习 API
|

有效的思考:模型思考效率评测

随着大语言模型的迅速发展,模型的推理能力得到了显著提升。特别是长推理模型(Long Reasoning Models),如OpenAI的o1、DeepSeek-R1、QwQ-32B和Kimi K1.5等,因其展现出类似人类的深度思考能力而备受关注。这些模型通过长时间推理(Inference-Time Scaling),能够在解码阶段不断思考并尝试新的思路来得到正确的答案。

207 0
|
6月前
|
人工智能 并行计算 语音技术
|

Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。

483 10
来自: 多模态  版块
|
6月前
|

有偿创建 CosyVoice2-0.5B 大模型

有偿创建 CosyVoice2-0.5B 大模型,希望有人能帮忙在创空间 创建一个这样的模型,官方的老出502

436 22
|
6月前
|
人工智能 API 开发者
|

无需邀请码!MetaGPT 开源AI助手 OpenManus,实时反馈+模块化设计,开发者福音

OpenManus 是 MetaGPT 团队推出的开源 AI Agent 复刻版,支持多种语言模型和工具链,能够执行代码、处理文件、搜索网络信息等复杂任务,具备实时反馈机制和灵活的配置选项。

504 17
来自: 自然语言处理  版块
|
6月前
|
人工智能 物联网
|

ART:匿名区域布局+多层透明图像生成技术,生成速度比全注意力方法快12倍以上

ART 是一种新型的多层透明图像生成技术,支持根据全局文本提示和匿名区域布局生成多个独立的透明图层,具有高效的生成机制和强大的透明度处理能力。

156 8
来自: 计算机视觉  版块
|
7月前
|
存储 算法 测试技术
|

CodeFuse-AAIS:改进低智能体框架助力高效程序修复

本文提出了一种基于低智能体框架的自适应自动化程序修复(APR)解决方案——AAIS。该方案结合了智能体的自适应性和低智能体的高效控制流,通过引入交互式缺陷定位和多模型辅助生成,显著提升了程序修复的准确性和多样性。实验结果表明,AAIS在SWE-Bench基准测试中表现出色,函数级定位准确率提升了46.94%-113.32%,Issue Solving任务上达到了35.67%的性能,展示了其在未来软件开发中的应用潜力。

173 0
|
7月前
|
人工智能 监控 自动驾驶
|

Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!

Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型,支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。

196 3
来自: 计算机视觉  版块
|
7月前
|
人工智能 小程序 机器人
|

GDC2025 | DeepSeek-Qwen 模型蒸馏极限挑战赛,来了!(预赛报名)

欢迎您关注由魔搭社区 x SwanLab平台联合举办的 DeepSeek-Qwen 模型蒸馏极限挑战赛!本赛事将作为2025全球开发者先锋大会(GDC)的活动之一,欢迎具备大模型训练/微调实战经验的独立开发者前来挑战!详细报名规则见后文。

273 3
|
7月前
|
数据可视化 API 开发者
|

R1类模型推理能力评测手把手实战

随着DeepSeek-R1模型的广泛应用,越来越多的开发者开始尝试复现类似的模型,以提升其推理能力。

485 3
|
7月前
|
人工智能 JSON 数据管理
|

做了一个非结构化数据处理助手,可以自由处理网页、处理文本、音视频等等

Supametas.AI 是一款专注于非结构化数据处理的工具,支持从多种来源(API、网页、文件、图像、音频、视频)提取并标准化输出为JSON和Markdown格式。它与LLM RAG无缝集成,提供用户友好界面和数据隐私保障,帮助企业快速将AI想法落地,提升开发效率。适用于AI医疗、法律、营销、SEO、客服等多个领域,助力企业加速项目成功和迭代。 网址:[https://supametas.ai](https://supametas.ai/)

305 7
来自: 多模态  版块
|
7月前
|
机器学习/深度学习 人工智能 编解码
|

Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像

Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。

426 17
来自: 计算机视觉  版块
|
7月前
|
机器学习/深度学习 物联网
|

可控文生图:EliGen控制实体的位置细节变化

为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一,如ControlNet, IP-Adapter等一直是热门可控生成方法。近期,魔搭社区联合浙江大学对实体级可控文生图进行了探索,并开发了EliGen模型。

144 11
|
7月前
|
Swift
|

DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践

Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。

768 19
|
7月前
|
人工智能 测试技术
|

VARGPT:将视觉理解与生成统一在一个模型中,北大推出支持混合模态输入与输出的多模态统一模型

VARGPT是北京大学推出的多模态大语言模型,专注于视觉理解和生成任务,支持混合模态输入和高质量图像生成。

216 22
来自: 多模态  版块
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!

Baichuan-M1-14B 是百川智能推出的首个开源医疗增强大模型,专为医疗场景优化,支持多语言、快速推理,具备强大的医疗推理能力和通用能力。

511 17
来自: 自然语言处理  版块
|
8月前
|
人工智能 自然语言处理 算法
|

OpenCSG开源最大中文合成数据集Chinese Cosmopedia

近年来,生成式语言模型(GLM)的飞速发展正在重塑人工智能领域,尤其是在自然语言处理、内容创作和智能客服等领域展现出巨大潜力。

163 15
|
8月前
|
数据采集 人工智能 自然语言处理
|

魔搭社区每周速递(1.5-1.18)

🙋魔搭ModelScope本期社区进展:新增3239个模型,711个数据集,192个创新应用, 16篇内容

433 11
|
8月前
|
人工智能 搜索推荐 开发工具
|

24.7K Star!用 KHOJ 打造你的AI第二大脑,自动整合和更新多源知识,轻松构建个人知识库

KHOJ 是一款开源的个人化 AI 助手,支持多源知识整合、语义搜索、个性化图像生成等功能,帮助用户高效管理知识库。

780 23
来自: 多模态  版块
|
8月前
|
人工智能 编解码 自然语言处理
|

Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位

Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。

318 11
来自: 多模态  版块
|
8月前
|
人工智能 自然语言处理 调度
|

Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象

Casevo 是中国传媒大学推出的开源社会传播模拟系统,结合大语言模型和多智能体技术,支持复杂社会网络建模与动态交互,适用于新闻传播、社会计算等领域。

340 22
来自: 自然语言处理  版块
|
8月前
|
人工智能
|

RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位

RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。

313 11
来自: 计算机视觉  版块
|
8月前
|
自然语言处理 人机交互 数据库
|

TransferTOD:利用LLM解决TOD系统在域外场景槽位难以泛化的问题

任务型对话系统旨在高效处理任务导向的对话,如何利用任务型对话系统准确、高效、合理地完成信息采集的工作一直是一项关键且具有挑战性的任务。

292 18
|
8月前
|
并行计算
|

关于qwen2-vl微调最佳实践

269 2
来自:多模态 版块
|
8月前
|
人工智能 自然语言处理 并行计算
|

VITRON:开源像素级视觉大模型,同时满足图像与视频理解、生成、分割和编辑等视觉任务

VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大模型,支持图像与视频的理解、生成、分割和编辑,适用于多种视觉任务。

542 13
来自: 计算机视觉  版块
|
8月前
|
人工智能 JSON API
|

LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力

LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。

406 77
来自: 多模态  版块
|
8月前
|
人工智能 自然语言处理 测试技术
|

AutoRAG:自动优化 RAG 管道工具,自动评估各种 RAG 模块组合,快速找到最优的 RAG 管道

AutoRAG 是一款自动优化 RAG(Retrieval-Augmented Generation)管道的工具,帮助用户找到最适合其数据和应用场景的最佳 RAG 管道。

416 12
来自: 自然语言处理  版块
|
9月前
|
人工智能 自然语言处理
|

DynamicControl:腾讯推出动态地条件控制图像生成框架,结合了多模态大语言模型的推理能力和文生图模型的生成能力

DynamicControl 是腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架,通过自适应选择不同条件,显著增强了图像生成的可控性。

157 11
来自: 计算机视觉  版块
|
9月前
|
人工智能 自然语言处理 API
|

Mathtutor on Groq:AI 数学辅导工具,实时计算并展示解题过程,支持通过语音提出数学问题

Mathtutor on Groq 是一款基于 Groq 架构的 AI 数学辅导工具,支持语音输入数学问题,实时计算并渲染解题过程,适用于代数、微积分等领域的学习和教学辅助。

706 5
来自: 科学计算  版块
|
9月前
|
存储 人工智能 编解码
|

多模态实时交互大模型浦语·灵笔 2.5 OmniLive开源:能看、能听、会记、会说!

2024年12月12日,多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive)开源,该模型可以通过视觉和听觉实时观察和理解外部世界,自动形成对观察到内容的长期记忆,并可通过语音与人类用户进行对话交谈,提供更自然的大模型交互体验。

502 4
|
9月前
|
机器学习/深度学习 存储 自然语言处理
|

RWKV-7:极先进的大模型架构,长文本能力极强

RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。

365 2
|
9月前
|
人工智能 自然语言处理 计算机视觉
|

StyleStudio:支持图像风格迁移的文生图模型,能将融合参考图像的风格和文本提示内容生成风格一致的图像

StyleStudio 是一种文本驱动的风格迁移模型,能够将参考图像的风格与文本提示内容融合。通过跨模态 AdaIN 机制、基于风格的分类器自由引导等技术,解决了风格过拟合、控制限制和文本错位等问题,提升了风格迁移的质量和文本对齐的准确性。

353 8
来自: 计算机视觉  版块
|
9月前
|
人工智能
|

AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性

AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。

363 16
来自: 计算机视觉  版块
|
9月前
|
存储 人工智能 开发者
|

GitHub 推出免费版 GitHub Copilot:提供每月2,000次代码补全和50条聊天消息,支持多种主流大模型

GitHub 推出了 GitHub Copilot Free,提供每月 2,000 代码补全和 50 聊天消息,支持多种模型和功能,助力 1.5 亿开发者。

555 5
来自: 自然语言处理  版块
|
9月前
|
人工智能
|

SynCamMaster:快手联合浙大、清华等大学推出的多视角视频生成模型

SynCamMaster是由快手科技联合浙江大学、清华大学等机构推出的全球首个多视角视频生成模型,能够结合6自由度相机姿势,从任意视点生成开放世界视频。该模型通过增强预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成,并在多个应用场景中展现出巨大潜力。

193 4
来自: 多模态  版块
|
9月前
|
人工智能 安全 测试技术
|

EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题

EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。

278 9
来自: 自然语言处理  版块
|
9月前
|
人工智能 自动驾驶 决策智能
|

DrivingDojo:中科院联合美团推出的自动驾驶数据集,包含视频片段、驾驶操作和驾驶知识

DrivingDojo是由中国科学院自动化研究所与美团无人车团队联合推出的交互式驾驶世界模型数据集,包含18,000个视频片段,涵盖驾驶操作、多智能体交互及开放世界驾驶知识。该数据集为自动驾驶模型的开发提供了坚实基础,并定义了动作指令跟随(AIF)基准,用于评估世界模型在执行动作控制的未来预测能力。

204 6
来自: 计算机视觉  版块
|
9月前
|
人工智能 编解码 虚拟化
|

See3D:智源研究院开源的无标注视频学习 3D 生成模型

See3D 是智源研究院推出的无标注视频学习 3D 生成模型,能够从大规模无标注的互联网视频中学习 3D 先验,实现从视频中生成 3D 内容。See3D 采用视觉条件技术,支持从文本、单视图和稀疏视图到 3D 的生成,并能进行 3D 编辑与高斯渲染。

267 13
来自: 计算机视觉  版块
|
9月前
|
消息中间件 存储 JSON
|

Net使用EasyNetQ简化与RabbitMQ的交互

EasyNetQ是专为.NET环境设计的RabbitMQ客户端API,简化了与RabbitMQ的交互过程。通过NuGet安装EasyNetQ,可轻松实现消息的发布与订阅,支持多种消息模式及高级特性。文中提供了详细的安装步骤、代码示例及基础知识介绍,帮助开发者快速上手。关注公众号“Net分享”获取更多技术文章。

247 1
|
9月前
|
存储 人工智能
|

Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架

Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。

237 7
来自: 多模态  版块
|
9月前
|
人工智能 算法 搜索推荐
|

2024 “AI+硬件创新大赛”获奖名单出炉,浙大、上交与复旦联队等夺冠

2024年11月30日,由开放源子开源基金会主办,魔搭社区、英特尔与阿里云共同承办的“AI+硬件创新大赛”总决赛在杭州圆满落幕。

235 6
|
9月前
|
机器学习/深度学习 人工智能
|

Micro LLAMA:教学版 LLAMA 3模型实现,用于学习大模型的核心原理

Micro LLAMA是一个精简的教学版LLAMA 3模型实现,旨在帮助学习者理解大型语言模型的核心原理。该项目仅约180行代码,便于理解和学习。Micro LLAMA基于LLAMA 3中最小的8B参数模型,适合对深度学习和模型架构感兴趣的研究者和学生。

217 18
来自: 自然语言处理  版块
|
9月前
|
人工智能 编解码 网络架构
|

GenCast:谷歌DeepMind推出的AI气象预测模型

GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。

610 14
来自: 科学计算  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

1
今日
14251
内容
6
活动
3583
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互