|
4月前
|
人工智能 算法 测试技术
|

轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源

继 7 月 26 日开源『书生』科学多模态大模型 Intern-S1 之后,上海人工智能实验室(上海AI实验室)在8月23日推出了轻量化版本 Intern-S1-mini。

697 50
|
6月前
|
机器学习/深度学习 算法 API
|

MiniMax-M1开源:支持百万级上下文窗口的混合MoE推理模型!

MiniMax最新发布了全球首个开源大规模混合架构的推理模型——MiniMax-M1!

408 0
|
8月前
|
人工智能 自然语言处理 图形学
|

多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容

Neural4D 2o是DreamTech推出的突破性3D大模型,通过文本、图像、3D和运动数据的联合训练,实现高精度3D生成与智能编辑,为创作者提供全新的多模态交互体验。

556 0
来自: 多模态  版块
|
8月前
|
人工智能 搜索推荐 开发者
|

GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题

OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。

609 4
来自: 自然语言处理  版块
|
8月前
|
存储 人工智能 JSON
|

传统OCR集体阵亡!Versatile-OCR-Program:开源多语言OCR工具,精准解析表格和数学公式等复杂结构

本文解析开源OCR工具Versatile-OCR-Program的技术实现,其基于多模态融合架构实现90%以上识别准确率,支持数学公式与图表的结构化输出,为教育资料数字化提供高效解决方案。

1089 5
来自: 多模态  版块
|
8月前
|
数据采集 人工智能 Java
|

1天消化完Spring全家桶文档!DevDocs:一键深度解析开发文档,自动发现子URL并建立图谱

DevDocs是一款基于智能爬虫技术的开源工具,支持1-5层深度网站结构解析,能将技术文档处理时间从数周缩短至几小时,并提供Markdown/JSON格式输出与AI工具无缝集成。

388 1
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技

MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型,通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。

493 12
来自: 计算机视觉  版块
|
8月前
|
人工智能 自然语言处理 前端开发
|

DeepSite:基于DeepSeek的开源AI前端开发神器,一键生成游戏/网页代码

DeepSite是基于DeepSeek-V3模型的在线开发工具,无需配置环境即可通过自然语言描述快速生成游戏、网页和应用代码,并支持实时预览效果,显著降低开发门槛。

1613 93
来自: 自然语言处理  版块
|
8月前
|
人工智能 算法
|

Runway Gen-4:AI视频生成新纪元!高保真特效一键生成影视级内容

Runway Gen-4是新一代AI视频生成模型,通过参考图和文字指令即可生成具有物理真实感、叙事连贯性的高质量视频内容,支持与实拍素材无缝融合。

646 9
来自: 计算机视觉  版块
|
9月前
|
人工智能 自然语言处理 语音技术
|

GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈

GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。

545 2
来自: 语音  版块
|
9月前
|
人工智能 编解码
|

ReCamMaster:视频运镜AI革命!单镜头秒变多机位,AI重渲染颠覆创作

ReCamMaster 是由浙江大学与快手科技联合推出的视频重渲染框架,能够根据用户指定的相机轨迹重新生成视频内容,广泛应用于视频创作、后期制作、教育等领域,提升创作自由度和质量。

703 0
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 人工智能 安全
|

论文推荐:CoSTAast、Transformers without Normalization

由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。

263 0
|
9月前
|
人工智能 自然语言处理 算法
|

MT-MegatronLM:国产训练框架逆袭!三合一并行+FP8黑科技,大模型训练效率暴涨200%

MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,支持多种模型架构和高效混合并行训练,显著提升 GPU 集群的算力利用率。

702 18
来自: 科学计算  版块
|
9月前
|
人工智能 自然语言处理 安全
|

Anus:公开整活!完全用 Manus 复刻 Manus 功能的开源 AI 智能体项目

Anus 是一个开源 AI 智能体项目,复刻了 Manus 的部分功能,支持自然语言指令执行、多代理协作、多模态输入处理等功能,旨在为开发者提供强大且灵活的工具。

1124 1
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 测试技术 API
|

QwQ-32B开源!更小尺寸,仅1/20参数性能比肩满血R1

今天,通义千问开源了推理模型QwQ-32B

860 17
|
10月前
|
人工智能 自然语言处理 并行计算
|

MeteoRA:多任务AI框架革新!动态切换+MoE架构,推理效率提升200%

MeteoRA 是南京大学推出的多任务嵌入框架,基于 LoRA 和 MoE 架构,支持动态任务切换与高效推理。

497 3
来自: 多模态  版块
|
10月前
|
人工智能 安全 数据挖掘
|

MedRAX:专注于胸部X光检查的AI医学推理智能体,帮助医生快速解读胸部X光片

MedRAX 是一款专门用于胸部X光检查的医学推理AI智能体,整合了多种最先进的分析工具,支持多模态推理和动态任务分解。

693 10
来自: 多模态  版块
|
10月前
|
人工智能 物联网 开发者
|

Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台

Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。

1056 43
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!

Baichuan-M1-14B 是百川智能推出的首个开源医疗增强大模型,专为医疗场景优化,支持多语言、快速推理,具备强大的医疗推理能力和通用能力。

794 17
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 自然语言处理
|

Deepseek开源R1系列模型,纯RL助力推理能力大跃升!

近期Deepseek正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。

2928 25
|
11月前
|
人工智能 运维 测试技术
|

SEMIKONG:专为半导体领域设计的大型语言模型,支持制造优化、辅助 IC 设计等半导体制造任务

SEMIKONG 是专为半导体行业定制的大型语言模型,能够优化制造过程、辅助 IC 设计,并整合专家知识,推动领域特定 AI 模型的研究与应用。

789 7
来自: 自然语言处理  版块
|
12月前
|
人工智能 自然语言处理 API
|

Mathtutor on Groq:AI 数学辅导工具,实时计算并展示解题过程,支持通过语音提出数学问题

Mathtutor on Groq 是一款基于 Groq 架构的 AI 数学辅导工具,支持语音输入数学问题,实时计算并渲染解题过程,适用于代数、微积分等领域的学习和教学辅助。

869 5
来自: 科学计算  版块
|
12月前
|
人工智能 文字识别 安全
|

Qwen开源视觉推理模型QVQ,更睿智地看世界!

在人类的思维中,语言和视觉紧密交织,塑造着我们感知和理解世界的方式。我们的推理能力深深植根于语言思维和视觉记忆之中。那么,当我们将这些能力赋予人工智能时,会发生什么呢?如今的大语言模型已经展现出卓越的推理能力,但我们不禁思考:它们能否通过掌握视觉理解的力量,攀登认知能力的新高峰?

1292 5
|
1月前
|
异构计算 并行计算 Python
|

本地部署Qwen3-4B 模型,无法调用GPU

156 0
来自:自然语言处理 版块
|
2月前
|
人工智能 程序员 开发者
|

「超级开发个体」在诞生:一份白皮书带你理解AI时代开发者

10月24日程序员节,魔搭社区联合知乎发布《THE NEXT WAVE:AI时代开发者生态白皮书》,揭示AI时代开发者新画像:以“超级个体”为核心,兼具技术与商业闭环能力,工具平权让个人开发者崛起。报告涵盖年龄、学历、组织分布及认知行为特征,展现开发者如何用AI提效、实现从“写代码”到“搭系统”的跃迁。点击下载完整报告。

278 0
|
2月前
|
机器学习/深度学习 人工智能 并行计算
|

124_数据并行扩展:Megatron框架 - 分析模型分片的独特通信开销

2025年,大型语言模型的规模已达到数千亿甚至数万亿参数,单GPU训练已成为不可能的任务。高效的分布式训练技术成为训练超大模型的关键。Megatron框架作为业界领先的分布式训练解决方案,通过创新性的并行策略,实现了对超大语言模型的高效训练。

400 3
|
2月前
|
数据采集 机器学习/深度学习 自然语言处理
|

98_数据增强:提升LLM微调效果的关键技术

在大语言模型(LLM)的微调过程中,数据质量与数量往往是决定最终性能的关键因素。然而,获取高质量、多样化且标注准确的训练数据却常常面临诸多挑战:数据标注成本高昂、领域特定数据稀缺、数据分布不均等问题都会直接影响微调效果。在这种背景下,数据增强技术作为一种能够有效扩充训练数据并提升其多样性的方法,正发挥着越来越重要的作用。

376 1
|
3月前
|
人工智能 物联网 API
|

ModelScope魔搭25年9月发布月报

ModelScope魔搭25年9月发布月报

450 10
|
3月前
|
缓存 人工智能 测试技术
|

腾讯混元 3D 世界模型家族又添新成员Voyager:支持超长距离漫游

9 月 2 日,腾讯混元宣布,其3D世界模型系列最新成员——HunyuanWorld-Voyager(简称混元Voyager)发布并开源,这将推动AI在空间智能领域的应用扩展,为虚拟现实、物理仿真、游戏开发等领域提供高保真3D场景漫游能力,加速行业应用落地。

282 0
|
3月前
|
人工智能 自然语言处理 前端开发
|

魔搭社区模型速递(8.30-9.06)

🙋魔搭ModelScope本期社区进展:3361个模型,313个数据集,73个创新应用, 8篇内容

449 1
|
4月前
|
数据采集 机器学习/深度学习 编解码
|

小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5

小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5

584 0
|
4月前
|
传感器 人工智能 自然语言处理
|

魔搭社区模型速递(7.26-8.2)

🙋魔搭ModelScope本期社区进展:1498个模型,130个数据集,85个创新应用, 7 篇内容

553 0
|
7月前
|
人工智能 数据可视化 物联网
|

Reasoning模型蒸馏实践:用大模型提升小模型能力

DeepSeek-R1的爆火让更多开发者注意到模型蒸馏技术——这种让小模型也能"开小灶"习得大模型知识精华的秘诀。今天我们就用Qwen2.5-1.5B小模型(相当于AI界的初中生)来进行实践!

621 5
|
8月前
|
机器学习/深度学习 人工智能 物联网
|

开源8B参数全能扩散模型Flex.2-preview:把线稿变商稿,还能边画边改!

Flex.2-preview是Ostris开源的80亿参数文本到图像扩散模型,支持512token长文本输入和多类型控制引导,内置修复功能并兼容主流AI绘画工具链。

477 3
来自: 多模态  版块
|
8月前
|
人工智能 数据可视化 数据挖掘
|

AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文

The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。

552 34
来自: 自然语言处理  版块
|
8月前
|
人工智能 中间件 API
|

别让创意卡在工具链!MiniMax MCP Server:MiniMax 开源 MCP 服务打通多模态生成能力,视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件,支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力,兼容主流客户端实现跨平台调用,采用检索增强生成技术保障内容准确性。

703 3
来自: 多模态  版块
|
8月前
|
传感器 人工智能 机器人
|

杭州六小龙最新开源「空间理解模型」,保姆级教程来了!

前几天,“杭州六小龙”之一「群核科技」在GTC 2025大会开源了空间理解模型:SpatialLM。

414 3
|
9月前
|
人工智能 编解码 测试技术
|

TripoSG:3D生成新纪元!修正流模型秒出高保真网格,碾压传统建模

TripoSG 是 VAST AI 推出的基于大规模修正流模型的高保真 3D 形状合成技术,能够从单张图像生成细节丰富的 3D 网格模型,在工业设计、游戏开发等领域具有广泛应用前景。

408 15
来自: 计算机视觉  版块
|
9月前
|
存储 人工智能 API
|

AppAgentX:告别重复点击!自我进化式GUI代理自动生成高级操作,效率翻倍

AppAgentX 是西湖大学推出的新型自我进化式 GUI 代理框架,通过记忆和进化机制提升智能手机交互的效率和智能性,支持复杂任务和跨应用操作,显著优于现有方法。

590 0
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 人工智能 物联网
|

微软Phi-4系列开源:多模态与文本处理的创新突破

微软近期推出 Phi-4-multimodal 和 Phi-4-mini,这些模型是 Microsoft Phi 系列小型语言模型 (SLM) 中的最新模型。Phi-4-multimodal 能够同时处理语音、视觉和文本,为创建创新且具有上下文感知能力的应用程序开辟了新的可能性。另一方面,Phi-4-mini 在基于文本的任务方面表现出色,以紧凑的形式提供高精度和可扩展性。

590 4
|
10月前
|
自然语言处理 API 开发者
|

强强联合,开源中文DeepSeek-R1蒸馏数据集联合魔搭社区,一起来训练中文版推理模型!

近期,刘聪NLP开源了开源中文DeepSeek-R1(满血)蒸馏数据集包括SFT版本和普通版本,话不多说,先放数据下载链接。

546 1
|
10月前
|
机器学习/深度学习 存储 文字识别
|

阿里国际Ovis2系列模型开源:多模态大语言模型的新突破

Ovis是阿里巴巴国际化团队提出的新型多模态大模型架构,通过巧妙地将视觉和文本嵌入进行结构化对齐,为解决模态间嵌入策略差异这一局限性提供了方案。

699 2
|
10月前
|
机器学习/深度学习 人工智能 搜索推荐
|

BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半

BioEmu 是微软推出的生成式深度学习系统,可在单个 GPU 上每小时生成数千种蛋白质结构样本,支持模拟动态变化、预测热力学性质,并显著降低计算成本。

573 2
来自: 科学计算  版块
|
10月前
|
机器学习/深度学习 物联网
|

可控文生图:EliGen控制实体的位置细节变化

为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一,如ControlNet, IP-Adapter等一直是热门可控生成方法。近期,魔搭社区联合浙江大学对实体级可控文生图进行了探索,并开发了EliGen模型。

328 11
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调

DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。

1134 21
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 安全
|

GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用

GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。

665 24
来自: 自然语言处理  版块
|
11月前
|
人工智能 自动驾驶 安全
|

Cosmos:英伟达生成式世界基础模型平台,加速自动驾驶与机器人开发

Cosmos 是英伟达推出的生成式世界基础模型平台,旨在加速物理人工智能系统的发展,特别是在自动驾驶和机器人领域。

1017 15
来自: 多模态  版块
|
11月前
|
自然语言处理 人机交互 数据库
|

TransferTOD:利用LLM解决TOD系统在域外场景槽位难以泛化的问题

任务型对话系统旨在高效处理任务导向的对话,如何利用任务型对话系统准确、高效、合理地完成信息采集的工作一直是一项关键且具有挑战性的任务。

451 18
|
12月前
|
存储 人工智能 编解码
|

多模态实时交互大模型浦语·灵笔 2.5 OmniLive开源:能看、能听、会记、会说!

2024年12月12日,多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive)开源,该模型可以通过视觉和听觉实时观察和理解外部世界,自动形成对观察到内容的长期记忆,并可通过语音与人类用户进行对话交谈,提供更自然的大模型交互体验。

782 4
|
2月前
|
机器学习/深度学习 缓存 并行计算
|

90_推理优化:性能调优技术

随着大型语言模型(LLM)规模的不断扩大和应用场景的日益复杂,推理性能已成为制约模型实际部署和应用的关键因素。尽管大模型在各项任务上展现出了令人惊艳的能力,但其庞大的参数量和计算需求也带来了严峻的性能挑战。在资源受限的环境中,如何在保持模型效果的同时,最大化推理性能,成为了研究人员和工程师们亟待解决的核心问题。

218 0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14531
内容
6
活动
3801
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互