|
8月前
|
机器学习/深度学习 编解码 文字识别
|

小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!

今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。

1229 9
|
9月前
|
人工智能 自然语言处理 搜索推荐
|

阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!

阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!

806 10
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

魔搭社区模型速递(4.20-4.26)

魔搭ModelScope本期社区进展:2227个模型,270个数据集,167个创新应用,10篇内容

492 4
|
11月前
|
人工智能 自然语言处理 API
|

Oliva:语音RAG革命!开源多智能体秒解复杂搜索,实时对讲颠覆传统

Oliva是一款基于Langchain和Superlinked的开源语音RAG助手,通过实时语音交互在Qdrant向量数据库中进行语义搜索,支持多智能体协作处理复杂查询任务。

635 4
来自: 语音  版块
|
11月前
|
机器学习/深度学习 人工智能 测试技术
|

魔搭社区模型速递(3.16-3.22)

魔搭ModelScope本期社区进展:📟1177个模型,📁216个数据集,416个创新应用,📄 11篇内容

414 1
|
11月前
|
人工智能 编解码 物联网
|

阶跃星辰开源Step-Video-TI2V 图生视频模型介绍

在今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。

509 1
|
11月前
|
机器学习/深度学习 API
|

有效的思考:模型思考效率评测

随着大语言模型的迅速发展,模型的推理能力得到了显著提升。特别是长推理模型(Long Reasoning Models),如OpenAI的o1、DeepSeek-R1、QwQ-32B和Kimi K1.5等,因其展现出类似人类的深度思考能力而备受关注。这些模型通过长时间推理(Inference-Time Scaling),能够在解码阶段不断思考并尝试新的思路来得到正确的答案。

509 0
|
11月前
|
人工智能 自然语言处理 算法
|

MT-MegatronLM:国产训练框架逆袭!三合一并行+FP8黑科技,大模型训练效率暴涨200%

MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,支持多种模型架构和高效混合并行训练,显著提升 GPU 集群的算力利用率。

846 18
来自: 科学计算  版块
|
11月前
|
人工智能 自然语言处理 测试技术
|

URO-Bench:端到端语音对话模型评测黑马!多语言/多轮/副语言全维度一键开测

URO-Bench 是一款专为端到端语音对话模型设计的全面基准测试工具,涵盖多语言、多轮对话、副语言信息等多维度任务,帮助开发者全面评估模型性能。

945 1
来自: 语音  版块
|
11月前
|
机器学习/深度学习 人工智能 数据可视化
|

无需微调!扩散模型新突破:Attentive Eraser高效稳定移除目标物体

最近,扩散模型在生成模型领域异军突起,凭借其独特的生成机制在图像生成方面大放异彩,尤其在处理高维复杂数据时优势明显。然而,尽管扩散模型在图像生成任务中表现优异,但在图像目标移除任务中仍然面临诸多挑战。现有方法在移除前景目标后,可能会留下残影或伪影,难以实现与背景的自然融合。

404 9
|
12月前
|
人工智能 前端开发 API
|

MoneyPrinterTurbo:23.9K Star!这个AI把写文案+找素材+剪视频全包了,日更10条不是梦

MoneyPrinterTurbo 是一款功能强大的 AI 工具,支持通过主题或关键词自动生成视频文案、素材、字幕与背景音乐,并合成高清短视频,适合批量生成与多语言支持。

1145 4
来自: 多模态  版块
|
12月前
|
人工智能 数据可视化 API
|

自动查文献+写代码+跑数据+出报告!港大开源 Auto Deep Research 搞定科研全流程

Auto-Deep-Research 是一款由香港大学开源的个人 AI 助理,基于模块化多 Agent 架构,专注于深度研究任务,兼容多种大语言模型,并提供一键启动和文件解析等强大功能。

1111 4
来自: 自然语言处理  版块
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接

Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。

797 2
来自: 多模态  版块
|
12月前
|
数据采集 机器学习/深度学习 人工智能
|

SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!

SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。

1674 92
来自: 计算机视觉  版块
|
27天前
|
机器学习/深度学习 存储 人工智能
|

国内首个全国产化千亿参数细粒度 MoE:开源!

TeleChat3-105B-A4.7-Thinking,国内首个全国产化千亿参数细粒度MoE大模型,开源!代码、数学、Agent等多能力比肩头部,支持高效任务拆解与代码生成。

167 2
|
2月前
|
存储 算法 安全
|

C 语言初学者常见 10 大误区与避坑指南

本文总结C语言初学者常见的10类错误,涵盖语法、内存管理、指针、字符串等方面,结合案例分析成因,提供实用解决方案,帮助新手建立正确编程思维,提升学习效率,夯实基础,少走弯路,顺利迈向嵌入式与底层开发。

131 0
|
2月前
|
NoSQL 算法 Java
|

项目《天机学堂》

天机学堂是一个非学历职业技能在线培训平台,核心业务为售卖课程并提供学习辅助与交互功能。技术栈涵盖SpringBoot、Redis、RabbitMQ等。本人负责需求分析、数据库设计及通用工具封装,如基于Redisson实现分布式锁组件,支持注解式加锁、锁类型切换与限流;并参与开发高性能视频进度记录系统,通过缓存+异步持久化方案实现秒级精度回放,有效降低数据库压力。

166 0
|
3月前
|
机器学习/深度学习 编解码 JSON
|

混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA

腾讯混元推出全新开源OCR模型HunyuanOCR,仅1B参数,基于原生多模态架构,实现端到端高效推理。在复杂文档解析、文字检测识别等多场景表现卓越,支持14种小语种翻译,广泛适用于票据抽取、视频字幕识别等应用,多项指标达业界SOTA水平。

649 8
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|

UI-Ins:让 GUI 智能体真正“看懂”用户指令的新范式

通义实验室联合人大发布全新GUI Grounding模型UI-Ins,首创“指令即推理”范式,通过多视角动态推理实现SOTA性能,在五大基准全面领先,支持开源复现与应用。

774 1
|
4月前
|
人工智能 编解码 芯片
|

【AI绘画】你有多久没有打开SD了?

曾几何时,Stable Diffusion的复杂参数令人崩溃,如今即梦、可灵等AI工具已让生成图片变得轻而易举。哩布哩布发布2.0升级公告,看似迈向更易用的未来,却也悄然为那个钻研模型、拼接工作流的“拓荒时代”奏响终章。技术迭代飞快,但那份对创造的热爱与探索精神,永不褪色。

816 9
|
4月前
|
机器学习/深度学习 人工智能 安全
|

60_隐私保护模型:联邦学习变体

在当今数字化时代,数据隐私保护已成为人工智能发展中不可忽视的核心议题。随着大型语言模型(LLM)规模的不断扩大,其对训练数据的需求也呈指数级增长,这使得数据隐私与模型性能之间的矛盾日益凸显。2025年,联邦学习作为一种创新的分布式学习范式,正在重塑LLM的训练和部署方式,允许多方在保护数据隐私的前提下共同构建高性能模型。

221 0
|
4月前
|
canal 人工智能 缓存
|

82_Chain-of-Thought:推理步骤拆解

在大语言模型(LLM)的发展历程中,推理能力一直是衡量模型智能水平的关键指标。尽管模型规模的扩大带来了知识覆盖和语言理解能力的显著提升,但在解决复杂推理问题时,单纯增加参数数量并不总能带来预期的性能提升。2022年,Jason Wei等人提出了一项革命性技术——Chain-of-Thought提示(CoT),这项技术通过引导模型生成中间推理步骤,显著增强了LLM在多步推理任务上的表现。

549 0
|
4月前
|
机器学习/深度学习 开发框架 人工智能
|

81_Few-Shot提示:少样本学习的技巧

在大型语言模型(LLM)时代,提示工程(Prompt Engineering)已成为释放模型潜力的关键技能。其中,Few-Shot Prompting作为一种强大的技术,通过提供少量高质量的示例,显著提升模型在复杂任务上的性能。2025年,随着模型规模和能力的持续增长,Few-Shot Prompting技术也在不断演进,从简单的示例提供发展到更加精细化的优化策略。

575 0
|
5月前
|
人工智能 编解码 自然语言处理
|

重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!

很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。

869 14
|
7月前
|
人工智能 自然语言处理 资源调度
|

魔搭社区模型速递(7.20-7.26)

魔搭ModelScope本期社区进展:1698个模型,216个数据集,103个创新应用, 7 篇内容

456 0
|
7月前
|
人工智能 自然语言处理 安全
|

魔搭社区模型速递(7.12-7.19)

🙋魔搭ModelScope本期社区进展:3072个模型,193个数据集,121个创新应用:Qwen-TTS-Demo 📄 8 篇内容:

438 0
|
8月前
|
存储 人工智能 文字识别
|

Nanonets-OCR-s开源!复杂文档转Markdown SoTA,颠覆复杂文档工作流

Nanonets团队开源了 Nanonets-OCR-s,该模型基于Qwen2.5-VL-3B微调,9G显存就能跑。

950 2
|
8月前
|
数据可视化 JavaScript API
|

简易Modelscope生图API可视化工具

魔搭社区大模型生图API可视化UI

218 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

魔搭社区模型速递(6.8-6.14)

魔搭ModelScope本期社区进展:1173个模型,143个数据集,76个创新应用,10 篇内容

417 0
|
10月前
|
人工智能 搜索推荐 开发者
|

GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题

OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。

746 4
来自: 自然语言处理  版块
|
10月前
|
人工智能 自然语言处理 测试技术
|

能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息

Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型,采用独特的掩码扩散范式,在文本生成、数学推理和代码编写等任务中展现出卓越性能。

521 3
来自: 自然语言处理  版块
|
10月前
|
机器学习/深度学习 存储 文字识别
|

Llama 4上线魔搭社区!社区推理、微调实战教程来啦!

近期,Meta推出了Llama 4系列的首批模型: Llama 4 Scout 和 Llama 4 Maverick。

833 12
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Fin-R1:上海财大开源金融推理大模型!7B参数竟懂华尔街潜规则,评测仅差满血版DeepSeek3分

Fin-R1是上海财经大学联合财跃星辰推出的金融领域推理大模型,基于7B参数的Qwen2.5架构,在金融推理任务中表现出色,支持中英双语,可应用于风控、投资、量化交易等多个金融场景。

940 5
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Cosmos-Reason1:物理常识觉醒!NVIDIA 56B模型让AI懂重力+时空法则

Cosmos-Reason1是NVIDIA推出的多模态大语言模型系列,具备物理常识理解和具身推理能力,支持视频输入和长链思考,可应用于机器人、自动驾驶等场景。

569 8
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能 文字识别
|

Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费

Umi-OCR 是一款免费开源的离线 OCR 文字识别工具,支持截图、批量图片、PDF 扫描件的文字识别,内置多语言识别库,提供命令行和 HTTP 接口调用功能。

1108 0
来自: 计算机视觉  版块
|
11月前
|
人工智能 监控 数据可视化
|

Manus再遭复刻!开源多智能体协作工具,实时查看每个AI员工的"脑回路"

LangManus 是一个基于分层多智能体系统的 AI 自动化框架,支持多种语言模型和工具集成,能够高效完成复杂任务,适用于人力资源、房产决策、旅行规划等多个场景。

1140 0
来自: 自然语言处理  版块
|
11月前
|
人工智能 监控 搜索推荐
|

MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%

MedRAG是南洋理工大学推出的医学诊断模型,结合知识图谱与大语言模型,提升诊断准确率11.32%,支持多模态输入与智能提问,适用于急诊、慢性病管理等多种场景。

748 32
来自: 多模态  版块
|
11月前
|
存储 人工智能 JSON
|

Evolving Agents:开源Agent革命!智能体动态进化框架上线,复杂任务一键协同搞定

Evolving Agents 是一个开源的AI Agent管理与进化框架,支持智能代理之间的通信与协作,能够根据语义理解需求动态进化,适用于文档处理、医疗保健、金融分析等多个领域。

611 26
来自: 自然语言处理  版块
|
11月前
|
人工智能 自然语言处理 自动驾驶
|

AVD2:清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架

AVD2 是由清华大学联合多所高校推出的自动驾驶事故视频理解与生成框架,结合视频生成与事故分析,生成高质量的事故描述、原因分析和预防措施,显著提升自动驾驶系统的安全性和可靠性。

301 6
来自: 计算机视觉  版块
|
11月前
|
人工智能 自然语言处理 算法
|

HippoRAG 2:开源RAG框架革新知识检索,多跳推理+持续学习全搞定

HippoRAG 2 是俄亥俄州立大学推出的检索增强生成框架,通过个性化PageRank算法和知识图谱技术,显著提升了RAG系统在复杂问答任务中的表现。

1578 2
来自: 自然语言处理  版块
|
12月前
|
编解码 API 开发工具
|

ModelScope魔搭25年2月版本发布月报

新春佳节的鞭炮声已经渐渐远去,在刚刚过去的一个月里,小鲸鱼给全球的开发者带来了一个不平凡的春节。DeepSeek-R1一系列开源模型的发布,给大家带来了惊喜和震动。所有人的热情,也给ModelScope社区带来了前所未见的巨大下载需求和流量,在这个月里,我们进行了数次紧急扩容和线上优化,尽量为大家提供更好的支持与服务。非常感谢大家的陪伴和理解,我们会持续进行平台优化和开源工具的建设,服务好整个开源社区。

451 9
|
12月前
|
人工智能 NoSQL Redis
|

Collaborative Gym:斯坦福人机协作框架开源!异步交互+三方感知,让你的AI学会主动补位

介绍Collaborative Gym,一个专注于人机协作的框架,支持异步交互和多种任务环境。

482 14
来自: 自然语言处理  版块
|
27天前
|
人工智能 安全 搜索推荐
|

你的错题本里藏着金矿,但你却只把它当成了回收站——用AI给大脑做一次深度Debug

把学习比作软件开发,错题就是Bug。大多数人只改答案(打补丁),却忽略了底层的逻辑漏洞。本文分享一套"错题分析AI指令",利用Root Cause Analysis(根因分析)思维,帮助你用AI深度Debug大脑,将每一个错误转化为认知的核心资产。

163 2
|
1月前
|
数据采集 自然语言处理 算法
|

重塑虚实边界:智元机器人发布首个大语言模型驱动的开源仿真平台Genie Sim 3.0

智元机器人发布全球首个大语言模型驱动的开源仿真平台Genie Sim 3.0,基于NVIDIA Isaac Sim,实现高保真数字孪生环境,支持自然语言生成万级场景,分钟级构建与泛化。平台开源上万小时真实机器人作业数据集,覆盖200+任务,构建10万+场景评估体系,推动具身智能从研发到落地的全链路创新,助力开发者零硬件部署、高效训练与评测。

215 4
|
1月前
|
人工智能 自然语言处理 运维
|

业内首发泛娱乐底座大模型!元象开源XVERSE-Ent中英双模型,单卡部署超低门槛

元象开源首款聚焦泛娱乐场景的大模型XVERSE-Ent,含中英双版本,专精角色一致性、长剧情理解与多元语境适配,支持轻量化部署,助力开发者低成本打造AI社交、游戏与创意内容应用。

221 3
|
2月前
|
Java 大数据 API
|

Java 学习资源精选:从入门到精通的高效资源清单

本文为Java学习者提供从入门到精通的完整资源指南,涵盖各阶段所需视频、书籍、博客、开源项目等优质资源,结合高效学习方法,帮助初学者摆脱“资源焦虑”,科学规划学习路径,快速提升开发能力。

164 2
|
2月前
|
人工智能 JavaScript Java
|

正则表达式是“天书”?用这条指令让AI做你的“御用翻译官”

正则表达式常被戏称为“只写语言”,难以阅读且易引发性能问题。本文分享一套AI指令,将AI转化为“正则翻译官”,不仅生成精准代码,更提供逐字解析与ReDoS安全检查,帮助开发者轻松应对日志清洗与WAF配置挑战。

187 3

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉答疑群:44837352

0
今日
15090
内容
6
活动
3970
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互