|
10月前
|
人工智能 数据可视化 API
|

自动查文献+写代码+跑数据+出报告!港大开源 Auto Deep Research 搞定科研全流程

Auto-Deep-Research 是一款由香港大学开源的个人 AI 助理,基于模块化多 Agent 架构,专注于深度研究任务,兼容多种大语言模型,并提供一键启动和文件解析等强大功能。

936 4
来自: 自然语言处理  版块
|
11月前
|
人工智能 自然语言处理 计算机视觉
|

Janus-Pro:DeepSeek 开源的多模态模型,支持图像理解和生成

Janus-Pro是DeepSeek推出的一款开源多模态AI模型,支持图像理解和生成,提供1B和7B两种规模,适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型,显著提升了文本到图像的生成能力和指令跟随性能。

2364 20
来自: 多模态  版块
|
11月前
|
人工智能 数据处理 语音技术
|

Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手

Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。

822 23
来自: 多模态  版块
|
12月前
|
机器学习/深度学习 存储 自然语言处理
|

如何提升大模型的“深度思维能力”

本文探讨了如何通过模拟人类的思维过程来提升大模型的推理和规划能力。文章从人类的思维模式入手,分析了人类在面对复杂问题时的“增-减”信息循环,提出了通过增加相关信息和减少噪声来降低信息熵的方法。文章还讨论了如何生成逻辑自洽的推理路径,并通过实例说明了多结论问题的处理方法。最后,文章指出,通过现有的大模型进行针对性微调,可以逐步强化数据,提升模型的推理和规划能力。

969 11
|
2月前
|
机器学习/深度学习 人工智能 监控
|

93_安全提示:过滤有害内容

随着大型语言模型(LLM)在各个领域的广泛应用,确保其安全性和可靠性已成为技术社区关注的焦点。2024-2025年,随着LLM能力的不断增强,其潜在风险也日益凸显。有害内容的生成和传播不仅可能造成社会危害,还会对企业和用户带来严重的法律和声誉风险。因此,构建强健的内容过滤机制已成为LLM应用部署的必要条件。

247 0
|
4月前
|
编解码 算法 测试技术
|

MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!

今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。

693 0
|
8月前
|
机器学习/深度学习 人工智能 JSON
|

这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现

Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。

1031 19
来自: 自然语言处理  版块
|
8月前
|
人工智能 自然语言处理 API
|

AutoAgent:无需编程!接入DeepSeek用自然语言创建和部署AI智能体!港大开源框架让AI智能体开发变成填空题

香港大学推出的AutoAgent框架通过自然语言交互实现零代码创建AI智能体,支持多模型接入与自动化工作流编排,在GAIA基准测试中表现优异。

1221 16
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 编解码 人工智能
|

Qwen2.5-VL Technical Report

Qwen2.5-VL是阿里云团队推出的Qwen系列最新旗舰模型,具备显著提升的基础能力和创新功能。它在视觉识别、对象定位、文档解析和长视频理解等方面实现突破,支持精准的边界框/点定位及复杂输入处理。通过技术创新如窗口注意力、动态帧率采样和绝对时间编码,该模型在多模态任务中表现出色,在多个基准测试中超越顶级闭源模型,适用于从边缘AI到高性能计算的广泛场景。

1217 7
|
9月前
|
机器学习/深度学习 人工智能 并行计算
|

NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!

NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。

1114 15
来自: 多模态  版块
|
9月前
|
人工智能 编解码 算法
|

VideoFusion:开源视频处理神器!一键去黑边水印,AI提升画质+批量剪辑全搞定

VideoFusion 是一款开源的AI视频剪辑工具,支持自动去除视频黑边、水印和字幕,提供批量处理、画质提升等功能,适合视频创作者和自媒体运营者使用。

1238 3
|
10月前
|
存储 人工智能 缓存
|

DeepSeek 开源周第三弹!DeepGEMM:FP8矩阵计算神器!JIT编译+Hopper架构优化,MoE性能飙升

DeepGEMM 是 DeepSeek 开源的专为 FP8 矩阵乘法设计的高效库,支持普通和混合专家(MoE)分组的 GEMM 操作,基于即时编译技术,动态优化矩阵运算,显著提升计算性能。

1003 3
来自: 科学计算  版块
|
10月前
|
机器学习/深度学习 编解码 自然语言处理
|

王炸组合,阶跃星辰SOTA模型Step-Video和Step-Audio模型开源

2025 年 2 月 18 号,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。

807 0
|
11月前
|
人工智能 自然语言处理 安全
|

微软phi-4来啦!小模型之光,14B科学、代码等能力超70B模型效果!

微软研究院的最新成果——Phi-4来啦!近日,微软公布了Phi家族的最新一代模型Phi-4的技术报告,模型同步开源,Phi-4建立在合成数据集、过滤后的公共领域网站数据以及获得的学术书籍和问答数据集的基础上,训练数据量为9.8 T tokens, 目标是确保小模型使用专注于高质量和高级推理的数据进行训练。

777 1
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架

Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。

990 23
来自: 多模态  版块
|
28天前
|
人工智能 文字识别 物联网
|

ModelScope魔搭社区发布月报 -- 25年11月

魔搭ModelScope三周年庆!见证开源大模型从追赶到领跑,11月硬核更新不断:Qwen3-VL、MiniMax-M2等新模态齐发,AIGC生态爆发,OCR、语音、Agent全面进化。11月22日杭州AI开源生态大会,不见不散!

355 4
|
1月前
|
JavaScript 搜索推荐 开发者
|

ChatPPT+魔搭社区:MCP 2.0全面升级!

ChatPPT MCP2.0正式发布,联合魔搭ModelScope推出云端智能体服务,支持生成、编辑、演讲、动画等全链路功能,开放Streamable HTTP协议与本地Stdio双模式,已接入20+平台,服务300+开发者。

537 11
|
2月前
|
人工智能 物联网
|

Face-to-Photo 模型开源!联名麦橘MERJIC,遇见另一个你!

魔搭 DiffSynth-Studio 团队携手知名创作者麦橘MERJIC,正式开源全新 AI 图像生成模型——Face-to-Photo!该模型基于 Qwen-Image-Edit,采用 LoRA 的模型结构,专为人脸图像生成而优化,将一张普通的人脸照片转化…

449 13
|
2月前
|
缓存 负载均衡 监控
|

135_负载均衡:Redis缓存 - 提高缓存命中率的配置与最佳实践

在现代大型语言模型(LLM)部署架构中,缓存系统扮演着至关重要的角色。随着LLM应用规模的不断扩大和用户需求的持续增长,如何构建高效、可靠的缓存架构成为系统性能优化的核心挑战。Redis作为业界领先的内存数据库,因其高性能、丰富的数据结构和灵活的配置选项,已成为LLM部署中首选的缓存解决方案。

395 25
|
3月前
|
缓存 自然语言处理 并行计算
|

腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!

腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!

356 2
|
3月前
|
机器学习/深度学习 人工智能 测试技术
|

开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!

大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。

672 21
|
8月前
|
机器学习/深度学习 人工智能 编解码
|

重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步

阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成,创新性采用TMRoPE技术确保音视频同步,支持流式多模态输入处理。

2779 2
来自: 多模态  版块
|
9月前
|
人工智能 自然语言处理 测试技术
|

URO-Bench:端到端语音对话模型评测黑马!多语言/多轮/副语言全维度一键开测

URO-Bench 是一款专为端到端语音对话模型设计的全面基准测试工具,涵盖多语言、多轮对话、副语言信息等多维度任务,帮助开发者全面评估模型性能。

726 1
来自: 语音  版块
|
10月前
|
人工智能 编解码 自然语言处理
|

Zonos:油管博主集体转粉!开源TTS神器Zonos爆火:克隆你的声音说5国语言,还能调喜怒哀乐

Zonos 是 ZyphraAI 推出的开源多语言 TTS 模型,支持语音克隆、情感控制和多种语言,适用于有声读物、虚拟助手等场景。

756 18
来自: 语音  版块
|
10月前
|
人工智能 Rust 安全
|

DeepClaude:结合 DeepSeek R1 和 Claude AI 各自优势开发的 AI 应用平台,支持 API 调用和零延迟的即时响应

DeepClaude 是一个开源的 AI 应用开发平台,结合了 DeepSeek R1 和 Claude 模型的优势,提供即时响应、端到端加密和高度可配置的功能。

875 4
来自: 自然语言处理  版块
|
11月前
|
测试技术
|

通义千问团队开源全新的过程奖励模型PRM!

近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能在过程中犯错误,如计算错误或逻辑错误,导致得出不正确的结论;即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,这削弱了 LLMs 推理过程的可靠性和可信度。

1046 14
|
11月前
|
Web App开发 机器学习/深度学习 人工智能
|

Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音

Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。

1084 17
来自: 语音  版块
|
11月前
|
人工智能 Python
|

JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当

JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。

1647 21
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 编解码 人工智能
|

SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节

SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型,能够高效修复低质量视频,支持任意长度和分辨率,生成真实感细节。

675 16
来自: 计算机视觉  版块
|
11月前
|
编解码 自然语言处理 JavaScript
|

智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景

11月29日,智谱正式提出 GLM-OS 概念,并发布 AutoGLM 和 GLM-PC 两款 Agent 产品。近期GLM-PC 的基座模型—— CogAgent-9B 开源,供社区进一步开发。

696 8
|
11月前
|
人工智能 算法 测试技术
|

StockMixer:上海交大推出预测股票价格的 MLP 架构,通过捕捉指标、时间和股票间的复杂相关性,预测下一个交易日的收盘价

StockMixer 是上海交通大学推出的基于多层感知器的股票价格预测架构,通过指标、时间和股票混合实现高效预测。

745 11
来自: 多模态  版块
|
12月前
|
人工智能 JSON 算法
|

魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!

现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!

788 22
|
14天前
|
传感器 数据采集 算法
|

LET数据集来魔搭了!开源首批超60,000分钟全尺寸人形机器人真机数据

国内最大全尺寸人形机器人真机数据集“LET数据集”正式发布,首批开源超6万分钟高质量数据,覆盖6大真实场景,支持多模态融合与标准化应用,助力具身智能研发,已在魔搭社区开放共享。

126 1
|
1月前
|
搜索推荐 API Python
|

DeepSeek-V3.1 发布,迈向 Agent 时代的第一步

今日发布DeepSeek-V3.1,支持混合推理架构,提升思考效率与Agent能力。编程与搜索智能体表现显著增强,API已升级并支持Anthropic格式,模型开源,上下文扩展至128K。

566 5
|
1月前
|
编解码 人工智能 文字识别
|

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理

DeepSeek-OCR开源即获7k+星,首创“上下文光学压缩”技术,仅用100视觉token超越传统OCR模型256token性能,压缩比达10-20倍,精度仍超97%。30亿参数实现单卡日处理20万页,显著降低大模型长文本输入成本,重新定义高效文档理解新范式。

297 2
来自: 计算机视觉  版块
|
1月前
|
人工智能 搜索推荐 API
|

蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」:你的全能城市向导来啦~

蚂蚁百宝箱联合深铁集团、深圳通推出全国首个“公共出行+城市服务”AI智能体「深铁宝」,上线于深圳地铁、深圳通及支付宝APP,实现一句话直达、秒级响应的智慧出行体验,涵盖出行规划、乘车码快捷调取、周边生活服务推荐等一站式功能,助力城市交通与服务数字化升级。

321 30
来自: 自然语言处理  版块
|
8月前
|
API 开发者 异构计算
|

实战 | Intel OpenVINO™ Day0 实现 Qwen3 快速部署

实战 | Intel OpenVINO™ Day0 实现 Qwen3 快速部署

701 10
|
10月前
|
人工智能 文字识别 安全
|

Stirling-PDF:51.4K Star!用Docker部署私有PDF工作站,支持50多种PDF操作,从此告别在线工具

Stirling-PDF 是一款基于 Docker 的本地化 PDF 编辑工具,支持 50 多种 PDF 操作,包括合并、拆分、转换、压缩等,同时提供多语言支持和企业级功能,满足个人和企业用户的多样化需求。

886 6
来自: 自然语言处理  版块
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频

JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架,支持多语言、高质量视觉效果和精确的唇部与音频同步。

682 14
来自: 计算机视觉  版块
|
11月前
|
缓存 异构计算
|

DashInfer-VLM,多模态SOTA推理性能,超vLLM!

DashInfer-VLM是一个针对于视觉多模态大模型VLM的推理架构,特别优化了Qwen VL模型的推理加速,DashInfer-VLM和其他的VLM的推理加速框架最大的区别是, 它把VIT部分和LLM部分进行了分离,并且VIT和LLM的运行是并行运行,不互相干扰。

1452 16
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆

AigcPanel 是一款开源的 AI 虚拟数字人系统,支持视频合成、声音克隆等功能,适用于影视制作、虚拟主播、教育培训等多种场景。

1375 12
来自: 多模态  版块
|
11月前
|
数据采集 传感器 人工智能
|

AgiBot World:智元机器人开源百万真机数据集,数据集涵盖了日常生活所需的绝大多数动作

AgiBot World 是智元机器人开源的百万真机数据集,旨在推动具身智能的发展,覆盖家居、餐饮、工业等五大核心场景。

984 9
来自: 多模态  版块
|
12月前
|
机器学习/深度学习 编解码 物联网
|

极致的显存管理!6G显存运行混元Video模型

混元 Video 模型自发布以来,已成为目前效果最好的开源文生视频模型,然而,这个模型极为高昂的硬件需求让大多数玩家望而却步。魔搭社区的开源项目 DiffSynth-Studio 近期为混元 Video 模型提供了更高效的显存管理的支持,目前已支持使用24G显存进行无任何质量损失的视频生成,并在极致情况下,用低至 6G 的显存运行混元 Video 模型!

1065 13
来自: 计算机视觉  版块
|
14天前
|
人工智能 算法 架构师
|

你的团队是"精锐特种兵",还是"草台班子"?就差这一份"源代码"

针对技术团队管理混乱、过度依赖个人的痛点,提出用AI指令将经验转化为标准SOP的解决方案。通过工程化思维重构管理流程,实现团队经验的"开源"与"复用",释放核心人才价值。

145 10
|
2月前
|
监控 Cloud Native 网络性能优化
|

122_集群管理:Slurm配置 - 优化大规模训练调度

在2025年,大规模语言模型(LLM)的训练已经进入到超大规模时代,模型参数量达到数千亿甚至万亿级别,训练过程需要动用数百甚至数千个GPU/TPU。在这种情况下,高效的集群管理系统成为训练成功的关键基础设施。Slurm(Simple Linux Utility for Resource Management)作为目前最流行的开源作业调度系统,广泛应用于科研机构和大型科技公司的超级计算集群中。

649 3
|
2月前
|
存储 边缘计算 人工智能
|

79_边缘设备环境:Raspberry Pi搭建

在当今人工智能快速发展的时代,大语言模型(LLM)已经成为自然语言处理领域的核心技术。然而,传统的LLM部署通常需要强大的服务器资源,这限制了其在资源受限环境中的应用。随着边缘计算的兴起,在轻量级设备上部署和运行LLM成为了新的技术趋势。树莓派(Raspberry Pi)作为一款广泛使用的单板计算机,凭借其小巧的体积、低功耗特性和不断提升的计算能力,成为了边缘部署LLM的理想选择。

463 0
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
|

阶跃星辰开源! Step 3 :最新一代基础大模型 ,多模推理,极致效率

阶跃星辰开源新一代大模型 Step 3,采用 MoE 架构,参数量达 321B,激活参数 32B,平衡推理效率与资源利用,具备强大多模态能力,支持复杂推理与视觉分析,已在多个评测集取得领先成绩。

466 10
|
8月前
|
数据采集 人工智能 自然语言处理
|

模型时代的智能BI—Quick BI:阿里云的数据洞察与决策引擎

阿里云Quick BI是一款企业级智能BI工具,融合大模型技术实现自然语言交互、自动化洞察与预测分析。支持多源数据接入,提供50+图表类型及行业模板,助力敏捷业务分析与AI增强决策。相比Tableau、Power BI等竞品,Quick BI以云原生低成本和通义大模型优势脱颖而出,适用于零售、金融等领域,推动数据民主化与智能化转型。推荐已使用阿里云生态的企业采用,分阶段推广功能以最大化价值。

1256 2
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定

PaddleSpeech是百度飞桨团队推出的开源语音处理工具包,集成语音识别、合成、翻译等核心技术,基于PaddlePaddle框架提供高性能解决方案。

867 18
来自: 语音  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

1
今日
14487
内容
6
活动
3793
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互