|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Qwen2.5-VL-32B:阿里开源多模态核弹!32B模型吊打自家72B,数学推理封神

阿里巴巴最新开源的Qwen2.5-VL-32B多模态模型,在数学推理、视觉问答等任务中超越前代72B版本,支持图像细粒度理解和复杂逻辑分析,已在HuggingFace开源。

1095 0
来自: 多模态  版块
|
8月前
|
测试技术 API
|

QwQ-32B,支持Function Call的推理模型,深度思考Agent的时代来了!

近期,Qwen 发布了 QwQ-32B - 一个在许多基准测试中性能可与 DeepSeek-R1 相媲美的推理模型。

1327 9
|
8月前
|
人工智能 数据可视化 前端开发
|

Probly:开源 AI Excel表格工具,交互式生成数据分析结果与可视化图表

Probly 是一款结合电子表格功能与 Python 数据分析能力的 AI 工具,支持在浏览器中运行 Python 代码,提供交互式电子表格、数据可视化和智能分析建议,适合需要强大数据分析功能又希望操作简便的用户。

916 2
来自: 多模态  版块
|
30天前
|
存储 边缘计算 人工智能
|

79_边缘设备环境:Raspberry Pi搭建

在当今人工智能快速发展的时代,大语言模型(LLM)已经成为自然语言处理领域的核心技术。然而,传统的LLM部署通常需要强大的服务器资源,这限制了其在资源受限环境中的应用。随着边缘计算的兴起,在轻量级设备上部署和运行LLM成为了新的技术趋势。树莓派(Raspberry Pi)作为一款广泛使用的单板计算机,凭借其小巧的体积、低功耗特性和不断提升的计算能力,成为了边缘部署LLM的理想选择。

261 0
|
5月前
|
人工智能 缓存 搜索推荐
|

手把手基于ModelScope MCP协议实现AI短视频创作:零代码自动化工作流

本文介绍了基于ModelScope MCP协议的AI视频生成解决方案,涵盖核心机制解析、零代码工作流搭建、性能优化策略及全链路异常处理。通过统一上下文描述符抽象异构AI服务,实现图像生成、语音合成与视频剪辑的自动化编排。结合缓存优化与错误重试机制,大幅提升生成效率(如5分镜视频从91.7s降至22.4s)。最后展示《夏日海滩》生成案例,并探讨个性化风格迁移与商业场景集成等进阶方向,揭示零代码本质为服务、流程与资源的三层抽象。

676 18
|
7月前
|
人工智能 自然语言处理 监控
|

LongPort MCP:证券业首个券商MCP,AI赋能智能投资新时代,散户也能玩转机构级交易

LongPort MCP是长桥集团推出的证券行业首个券商模型上下文协议,通过标准化接口实现AI与金融服务的无缝对接,支持自然语言交互的智能投资服务。

851 8
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能 PyTorch
|

模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作

UniRig是清华大学与VAST联合研发的自动骨骼绑定框架,基于自回归模型与交叉注意力机制,支持多样化3D模型的骨骼生成与蒙皮权重预测,其创新的骨骼树标记化技术显著提升动画制作效率。

947 27
来自: 多模态  版块
|
7月前
|
人工智能 数据可视化 API
|

开箱即用的可视化AI应用编排工具 Langflow,可调用魔搭免费API作为tool

ModelScope 社区基于优秀的开源可视化AI应用编排工具 Langflow 搭建了创空间,以方便社区开发者基于社区开源模型及免费魔搭 API-Inference,快速创建Agent应用、RAG应用并将其部署为API服务。

848 14
|
8月前
|
人工智能 自然语言处理 关系型数据库
|

不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单

还在为大模型开发的复杂技术栈、框架不兼容和工具调用问题头疼吗?MCP(Model Context Protocol servers)来拯救你了!它用统一的技术栈、兼容主流框架和简化工具调用的方式,让大模型开发变得简单高效。

1583 1
|
8月前
|
机器学习/深度学习 人工智能 JSON
|

Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化

Resume Matcher 是一款开源AI简历优化工具,通过解析简历和职位描述,提取关键词并计算文本相似性,帮助求职者优化简历内容,提升通过自动化筛选系统(ATS)的概率,增加面试机会。

772 18
来自: 自然语言处理  版块
|
8月前
|
人工智能 安全 生物认证
|

AI-Infra-Guard:腾讯开源AI基础设施安全评估神器,一键扫描漏洞

AI-Infra-Guard 是腾讯开源的高效、轻量级 AI 基础设施安全评估工具,支持 28 种 AI 框架指纹识别和 200 多个安全漏洞数据库,帮助用户快速检测和修复 AI 系统中的安全风险。

839 7
|
9月前
|
数据采集 机器学习/深度学习 人工智能
|

SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!

SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。

1132 92
来自: 计算机视觉  版块
|
9月前
|
存储 人工智能 JSON
|

Open-Deep-Research:开源复现版 Deep Research,支持切换多种大模型,不再依赖 OpenAI o3

Open Deep Research 是一个开源的 AI 智能体,支持多种语言模型,具备实时数据提取、多源数据整合和AI推理功能。

1848 16
来自: 自然语言处理  版块
|
10月前
|
人工智能 开发者 Python
|

Chainlit:一个开源的异步Python框架,快速构建生产级对话式 AI 应用

Chainlit 是一个开源的异步 Python 框架,帮助开发者在几分钟内构建可扩展的对话式 AI 或代理应用,支持多种工具和服务集成。

885 9
来自: 自然语言处理  版块
|
10月前
|
缓存 异构计算
|

DashInfer-VLM,多模态SOTA推理性能,超vLLM!

DashInfer-VLM是一个针对于视觉多模态大模型VLM的推理架构,特别优化了Qwen VL模型的推理加速,DashInfer-VLM和其他的VLM的推理加速框架最大的区别是, 它把VIT部分和LLM部分进行了分离,并且VIT和LLM的运行是并行运行,不互相干扰。

1105 16
|
30天前
|
机器学习/深度学习 开发框架 人工智能
|

81_Few-Shot提示:少样本学习的技巧

在大型语言模型(LLM)时代,提示工程(Prompt Engineering)已成为释放模型潜力的关键技能。其中,Few-Shot Prompting作为一种强大的技术,通过提供少量高质量的示例,显著提升模型在复杂任务上的性能。2025年,随着模型规模和能力的持续增长,Few-Shot Prompting技术也在不断演进,从简单的示例提供发展到更加精细化的优化策略。

131 0
|
30天前
|
存储 机器学习/深度学习 监控
|

67_Transformers库进阶:模型加载与配置优化

随着大型语言模型(LLM)技术的迅速发展,Hugging Face的Transformers库已经成为LLM开发和应用的标准工具包。作为一个开源的深度学习库,Transformers提供了丰富的预训练模型、统一的接口设计以及强大的生态系统,使得研究人员和开发者能够便捷地构建、训练和部署各类语言模型。2025年,Transformers库已经发展到5.x系列,不仅支持最新的GPU架构和量化技术,还提供了更完善的分布式训练能力和内存优化方案。

131 1
|
30天前
|
机器学习/深度学习 人工智能 芯片
|

42_大语言模型的计算需求:从GPU到TPU

随着2025年大语言模型技术的持续突破和规模化应用,计算资源已成为推动AI发展的关键驱动力。从最初的CPU计算,到GPU加速,再到专用AI加速器的崛起,大语言模型的计算需求正在重塑全球数据中心的基础设施架构。当前,全球AI半导体市场规模预计在2027年将达到2380亿美元(基本情境)甚至4050亿美元(乐观情境),这一增长背后,是大语言模型对计算能力、内存带宽和能效比的极致追求。

210 0
|
2月前
|
人工智能 编解码 自然语言处理
|

重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!

很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。

433 14
|
7月前
|
机器学习/深度学习 人工智能 算法
|

RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策

RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。

636 5
来自: 多模态  版块
|
7月前
|
人工智能 算法 API
|

多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!

上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。

1006 6
来自: 多模态  版块
|
7月前
|
人工智能 前端开发 语音技术
|

开源学习神器把2小时网课压成5分钟脑图!BiliNote:一键转录哔哩哔哩视频,生成结构化学习文档

本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote,其整合多模态AI技术实现视频内容结构化解析,支持跨平台视频源处理与本地化部署方案,提供从语音转写到智能摘要的全流程自动化能力。

1587 36
来自: 多模态  版块
|
8月前
|
编解码 JSON 物联网
|

腾讯开源HunyuanVideo-I2V图生视频模型+LoRA训练脚本,社区部署、推理实战教程来啦!

继阿里的通义万相wan2.1模型之后,腾讯混元又出大招,重磅发布HunyuanVideo-I2V图生视频模型。

934 9
|
8月前
|
存储 人工智能 固态存储
|

DeepSeek开源周第五弹之一!3FS:支撑V3/R1模型数据访问的高性能分布式文件系统

3FS是DeepSeek开源的高性能分布式文件系统,专为AI训练和推理任务设计,提供高达6.6 TiB/s的读取吞吐量,支持强一致性保障和通用文件接口,优化AI工作负载。

1140 2
来自: 科学计算  版块
|
9月前
|
JSON 文字识别 测试技术
|

Qwen2.5-VL Cookbook来啦!手把手教你怎么用好视觉理解模型!

今天,Qwen团队发布了一系列展示 Qwen2.5-VL 用例的Notebook,包含本地模型和 API 的使用。

2705 22
|
30天前
|
存储 缓存 自然语言处理
|

64_模型部署:推理优化策略

随着人工智能技术的飞速发展,大型语言模型(LLM)在自然语言处理、多模态理解等领域展现出惊人的能力。然而,将这些模型从实验室环境部署到实际生产系统中,面临着诸多挑战。根据2025年最新研究数据,大模型部署的主要挑战包括:

124 0
|
2月前
|
人工智能
|

黑森林开源Flux.1 Krea Dev!魔搭AIGC专区Day1支持,提供生图与训练定制

FLUX模型又又又更新了! 黑森林联合Krea发布了文生图模型Flux.1 Krea Dev,这是目前最好的开源文生图模型。 魔搭社区第一时间上线Flux.1 Krea Dev,快来AIGC专区抢先体验图片

275 11
|
4月前
|
人工智能 开发者
|

2025魔搭MCP&Agent挑战赛正式启动!50万总奖池!

2025魔搭MCP&Agent挑战赛正式拉开帷幕!这是一场聚焦MCP协议生态与Agent应用落地的顶级开发者盛会,旨在推动工具标准化与智能体场景创新,探索AI开发者在终端硬件的创新实践。

448 3
|
7月前
|
人工智能 缓存 自然语言处理
|

全球首款开源通用型AI智能体上线!Suna:自动处理Excel/爬数据/写报告等复杂任务一句话搞定

Suna是由Kortix推出的开源通用型AI智能体项目,通过自然语言交互实现浏览器自动化、文件管理、数据分析等复杂任务处理,支持自托管部署,为研究分析和日常工作提供智能辅助。

1526 55
来自: 自然语言处理  版块
|
7月前
|
人工智能 自然语言处理 Rust
|

【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言

Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准,包含1632个真实GitHub问题样本,通过严格筛选与人工验证确保数据质量。

478 0
来自: 自然语言处理  版块
|
10月前
|
编解码 文字识别 语音技术
|

MiniCPM-o 2.6:流式全模态,端到端,多模态端侧大模型来了!

MiniCPM-o 2.6 是 MiniCPM-o 系列的最新、性能最佳模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-7B 构建,共 8B 参数,通过端到端方式训练和推理。相比 MiniCPM-V 2.6,该模型在性能上有了显著提升,并支持了实时语音对话和多模态流式交互的新功能。

1343 70
|
10月前
|
程序员 API 开发者
|

实战阿里qwen2.5-coder 32B,如何配置Cline的Ollama API接口。

阿里Qwen2.5大模型开源免费,适合编程应用。在Ollama平台下载时,推荐选择带有“cline”字样的Qwen2.5-Coder版本,仅需额外下载适配文件,无需重复下载模型文件。Ollama环境永久免费,配置简单,效果出色,适合开发者使用。

5149 77
|
11月前
|
机器学习/深度学习 人工智能 Linux
|

Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言

Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。

1002 3
来自: 语音  版块
|
30天前
|
机器学习/深度学习 人工智能 自然语言处理
|

53_多模态LLM:图像理解的新范式

在人工智能技术快速发展的今天,单一模态的语言模型已经无法满足日益复杂的应用需求。2025年,多模态大型语言模型(MLLM)的崛起标志着AI技术进入了一个新的发展阶段,特别是在图像理解与文本生成的结合方面取得了突破性进展。本文将深入剖析多模态LLM的技术原理、架构设计、性能评估及实际应用案例,探讨视觉-语言融合技术如何重塑AI应用的边界,以及在未来发展中面临的挑战与机遇。

220 0
|
5月前
|
机器学习/深度学习 数据采集 自然语言处理
|

魔搭社区模型速递(6.2-6.7)

魔搭ModelScope本期社区进展:1910个模型,183个数据集,47个创新应用,5 篇内容

908 11
|
7月前
|
人工智能 自然语言处理 算法
|

科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留

BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。

2053 67
来自: 自然语言处理  版块
|
8月前
|
人工智能 API 语音技术
|

EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控

EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。

811 43
来自: 语音  版块
|
8月前
|
人工智能 并行计算 语音技术
|

Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。

655 10
来自: 多模态  版块
|
9月前
|
人工智能 开发框架 数据可视化
|

Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用

Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。

1317 27
来自: 自然语言处理  版块
|
12月前
|
人工智能 自然语言处理 前端开发
|

VideoChat:高效学习新神器!一键解读音视频内容,结合 AI 生成总结内容、思维导图和智能问答

VideoChat 是一款智能音视频内容解读助手,支持批量上传音视频文件并自动转录为文字。通过 AI 技术,它能快速生成内容总结、详细解读和思维导图,并提供智能对话功能,帮助用户更高效地理解和分析音视频内容。

718 6
来自: 自然语言处理  版块
|
12月前
|
人工智能 Shell iOS开发
|

AI Shell:在命令行里“对话” AI ,微软推出将 AI 助手引入命令行的 CLI 工具,打造对话式交互命令行

AI Shell 是一款强大的 CLI 工具,将人工智能直接集成到命令行中,帮助用户提高生产力。AI Shell 支持多种 AI 模型和助手,通过多代理框架提供丰富的功能和灵活的使用模式。

1365 7
来自: 自然语言处理  版块
|
30天前
|
数据采集 人工智能 自然语言处理
|

121_训练评估:困惑度分析 - 分析指标与下游任务关系

在大规模语言模型(LLM)的训练过程中,评估模型性能是一个至关重要但常被简化处理的环节。2025年的研究表明,仅依赖单一指标(如困惑度)来判断模型质量已经无法满足复杂应用场景的需求。困惑度作为语言模型训练中最核心的评估指标,其与下游任务表现之间的关系远比直觉更复杂。本文将深入剖析困惑度的数学原理、计算方法、优化策略,以及其与各类下游任务表现的相关性分析,为大规模语言模型的训练优化提供全面的技术指导。

299 1
|
4月前
|
机器学习/深度学习 人工智能 编解码
|

智谱AI发布新版VLM开源模型GLM-4.1V-9B-Thinking,引入思考范式,性能提升8倍

视觉语言大模型(VLM)已经成为智能系统的关键基石。

874 0
|
7月前
|
存储 人工智能 JSON
|

传统OCR集体阵亡!Versatile-OCR-Program:开源多语言OCR工具,精准解析表格和数学公式等复杂结构

本文解析开源OCR工具Versatile-OCR-Program的技术实现,其基于多模态融合架构实现90%以上识别准确率,支持数学公式与图表的结构化输出,为教育资料数字化提供高效解决方案。

871 5
来自: 多模态  版块
|
8月前
|
人工智能 自然语言处理 计算机视觉
|

StarVector:图像秒变矢量代码!开源多模态模型让SVG生成告别手绘

StarVector是由ServiceNow Research等机构联合开发的开源多模态视觉语言模型,能够将图像和文本转换为可编辑的SVG矢量图形,支持1B和8B两种规模,在SVG生成任务中表现出色。

536 0
来自: 多模态  版块
|
8月前
|
机器学习/深度学习 人工智能 物联网
|

MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定

MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型,最小版本仅需25.8M参数,适合在普通个人GPU上快速训练。

1418 10
来自: 自然语言处理  版块
|
9月前
|
人工智能 自然语言处理 语音技术
|

Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演

Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。

1117 91
来自: 语音  版块
|
11月前
|
机器学习/深度学习 自然语言处理 数据安全/隐私保护
|

探索Qwen2.5大模型在车险理赔领域的应用

本文探讨了Qwen2.5大模型在车险理赔领域的应用,特别是通过微调模型来优化理赔流程、提高反欺诈能力。文章介绍了车险理赔的数据特点和业务流程,展示了如何准备数据、微调模型,并进行了模型评估和部署的示例。通过这些方法,Qwen2.5能够显著提升理赔效率和准确性,减少人工干预。

819 1
|
11月前
|
人工智能 自然语言处理 JavaScript
|

Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。

779 5
来自: 多模态  版块
|
12月前
|
Java 开发者
|

Java“NoSuchElementException”问题解决

“NoSuchElementException”是Java编程中常见的异常之一,通常发生在尝试从集合或迭代器中获取不存在的元素时。本文将介绍该异常的原因、常见场景及解决方法,帮助开发者有效应对这一问题。

893 5

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14399
内容
6
活动
3684
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互