|
8月前
|
人工智能 自然语言处理 关系型数据库
|

不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单

还在为大模型开发的复杂技术栈、框架不兼容和工具调用问题头疼吗?MCP(Model Context Protocol servers)来拯救你了!它用统一的技术栈、兼容主流框架和简化工具调用的方式,让大模型开发变得简单高效。

1600 1
|
8月前
|
人工智能 BI API
|

Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成

Dify-Plus 是基于 Dify 二次开发的企业级增强版项目,新增用户额度、密钥管理、Web 登录鉴权等功能,优化权限管理,适合企业场景使用。

1111 3
来自: 多模态  版块
|
8月前
|
存储 人工智能 监控
|

Mahilo:多智能体实时协作框架开源!人类与AI无缝交互,复杂任务一键协同

Mahilo 是一个灵活的多智能体框架,支持创建与人类互动的多智能体系统,适用于从客户服务到紧急响应等多种场景。

512 2
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 人工智能 算法
|

ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究

ToddlerBot 是斯坦福大学推出的低成本开源人形机器人平台,支持强化学习、模仿学习和零样本模拟到现实转移,适用于运动操作研究和多场景应用。

865 3
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 人工智能 机器人
|

TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声

TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。

713 6
来自: 语音  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格

YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和多语言。

1391 23
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 编解码 人工智能
|

InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像

InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。

1906 9
来自: 计算机视觉  版块
|
1月前
|
机器学习/深度学习 存储 缓存
|

115_LLM基础模型架构设计:从Transformer到稀疏注意力

大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。

351 0
|
1月前
|
存储 机器学习/深度学习 数据采集
|

101_参数高效微调_QLoRA技术深度解析与实践

在大型语言模型(LLM)时代,高效微调成为降低大模型应用门槛的关键技术。随着模型规模的不断扩大,传统的全参数微调方法面临着巨大的计算资源消耗和内存需求挑战。QLoRA(Quantized Low-Rank Adaptation)作为一种创新的参数高效微调技术,以其独特的量化+低秩适应双重策略,成功地在大幅降低资源消耗的同时保持了接近全精度微调的性能。本文将深入剖析QLoRA的技术原理、实现细节、性能特点,并提供丰富的实践案例,帮助读者全面掌握这一2025年仍然广泛应用的高效微调方法。

200 1
|
4月前
|
机器学习/深度学习 前端开发 数据可视化
|

Kimi K2 开源发布:擅长代码与 Agentic 任务!

今天,月之暗面正式发布 Kimi K2 模型,并同步开源。Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。

841 0
|
4月前
|
人工智能 自然语言处理 物联网
|

Jina Embeddings V4: 为搜索而生,多模态多语言向量模型

近日,Jina AI 正式发布 jina-embeddings-v4,一款全新的多模态向量模型,参数规模达到 38 亿,并首次实现了对文本与图像的同步处理。

567 2
|
7月前
|
人工智能 并行计算 测试技术
|

从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型,采用扩散模型技术和混合专家架构,在图像质量、提示词遵循能力等方面表现优异,支持多种风格生成。

616 2
来自: 多模态  版块
|
7月前
|
人工智能 自然语言处理 算法
|

科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留

BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。

2067 67
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Qwen2.5-VL-32B:阿里开源多模态核弹!32B模型吊打自家72B,数学推理封神

阿里巴巴最新开源的Qwen2.5-VL-32B多模态模型,在数学推理、视觉问答等任务中超越前代72B版本,支持图像细粒度理解和复杂逻辑分析,已在HuggingFace开源。

1107 0
来自: 多模态  版块
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
|

Second Me:硅基生命或成现实?如何用AI克隆自己,打造你的AI数字身份!

Second Me 是一个开源AI身份系统,允许用户创建完全私有的个性化AI代理,代表用户的真实自我,支持本地训练和部署,保护用户隐私和数据安全。

1065 8
来自: 多模态  版块
|
9月前
|
人工智能 开发框架 数据可视化
|

Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用

Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。

1331 27
来自: 自然语言处理  版块
|
10月前
|
人工智能 供应链 PyTorch
|

TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型

TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。

924 23
来自: 科学计算  版块
|
17天前
|
人工智能
|

新手小白一枚,想训练一个专属的题库AI模型,求大佬带

想训练一个专属的题库AI模型

257 7
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|

53_多模态LLM:图像理解的新范式

在人工智能技术快速发展的今天,单一模态的语言模型已经无法满足日益复杂的应用需求。2025年,多模态大型语言模型(MLLM)的崛起标志着AI技术进入了一个新的发展阶段,特别是在图像理解与文本生成的结合方面取得了突破性进展。本文将深入剖析多模态LLM的技术原理、架构设计、性能评估及实际应用案例,探讨视觉-语言融合技术如何重塑AI应用的边界,以及在未来发展中面临的挑战与机遇。

240 0
|
8月前
|
人工智能 自然语言处理 搜索推荐
|

WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。

598 5
|
8月前
|
人工智能 自然语言处理 计算机视觉
|

StarVector:图像秒变矢量代码!开源多模态模型让SVG生成告别手绘

StarVector是由ServiceNow Research等机构联合开发的开源多模态视觉语言模型,能够将图像和文本转换为可编辑的SVG矢量图形,支持1B和8B两种规模,在SVG生成任务中表现出色。

549 0
来自: 多模态  版块
|
8月前
|
编解码 JSON 物联网
|

腾讯开源HunyuanVideo-I2V图生视频模型+LoRA训练脚本,社区部署、推理实战教程来啦!

继阿里的通义万相wan2.1模型之后,腾讯混元又出大招,重磅发布HunyuanVideo-I2V图生视频模型。

945 9
|
8月前
|
人工智能 编解码 算法
|

VideoFusion:开源视频处理神器!一键去黑边水印,AI提升画质+批量剪辑全搞定

VideoFusion 是一款开源的AI视频剪辑工具,支持自动去除视频黑边、水印和字幕,提供批量处理、画质提升等功能,适合视频创作者和自媒体运营者使用。

1020 3
|
9月前
|
人工智能 自然语言处理 语音技术
|

Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演

Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。

1130 91
来自: 语音  版块
|
10月前
|
缓存 算法 物联网
|

【论文专辑】2024年大模型推理优化论文精选第六期

本文整理了 OSDI 2024 和 SOSP 2024 中与大语言模型(LLM)推理优化相关的10篇论文,涵盖 Parrot、ServerlessLLM、dLoRA 等系统,提出的技术如 Chunked Prefill、Prefix-Caching、P/D分离等已被 vLLM 和 TensorRT-LLM 等主流推理引擎采用。这些研究解决了 LLM 推理中的冷启动延迟、资源分配、KV 缓存管理等问题,提升了推理性能和资源利用率。CodeFuse推理优化项目地址https://github.com/codefuse-ai/EasyDeploy

1133 2
|
1月前
|
存储 监控 安全
|

132_API部署:FastAPI与现代安全架构深度解析与LLM服务化最佳实践

在大语言模型(LLM)部署的最后一公里,API接口的设计与安全性直接决定了模型服务的可用性、稳定性与用户信任度。随着2025年LLM应用的爆炸式增长,如何构建高性能、高安全性的REST API成为开发者面临的核心挑战。FastAPI作为Python生态中最受青睐的Web框架之一,凭借其卓越的性能、强大的类型安全支持和完善的文档生成能力,已成为LLM服务化部署的首选方案。

401 3
|
8月前
|
存储 人工智能 前端开发
|

Botgroup.chat:超有趣的开源 AI 聊天室!多个 AI 在线互怼,一键搭建你的专属 AI 社群

Botgroup.chat 是一款基于 React 和 Cloudflare Pages 的开源 AI 聊天应用,支持多个 AI 角色同时参与对话,提供类似群聊的交互体验。

1873 28
来自: 自然语言处理  版块
|
10月前
|
人工智能 开发者 Python
|

Chainlit:一个开源的异步Python框架,快速构建生产级对话式 AI 应用

Chainlit 是一个开源的异步 Python 框架,帮助开发者在几分钟内构建可扩展的对话式 AI 或代理应用,支持多种工具和服务集成。

896 9
来自: 自然语言处理  版块
|
10月前
|
人工智能 JSON 自然语言处理
|

Jina Reader:一键将网页内容转为适合 LLM 处理的文本格式,自动抓取和清洗网页内容,支持多种输出格式

Jina Reader 是一款由 Jina AI 推出的开源工具,能够将网页内容快速转换为适合大型语言模型(LLMs)处理的纯文本格式,支持多种输出格式和动态内容处理。

1366 20
来自: 自然语言处理  版块
|
10月前
|
人工智能 文字识别 自然语言处理
|

Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式

Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。

1311 19
来自: 多模态  版块
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
|

LTX Video:Lightricks推出的开源AI视频生成模型

LTX Video是由Lightricks推出的开源AI视频生成模型,能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,支持长视频制作,适用于多种场景,如游戏图形升级和电子商务广告变体制作。

738 1
来自: 计算机视觉  版块
|
1月前
|
Kubernetes Cloud Native 异构计算
|

133_云端扩展:Kubernetes scaling - 设置自动缩放的阈值与LLM部署最佳实践

在大语言模型(LLM)部署的时代,如何高效地管理计算资源、应对动态负载并优化成本,成为了每个AI工程师必须面对的挑战。随着LLM应用的普及,用户请求模式变得日益复杂且难以预测,传统的静态资源配置方式已无法满足需求。Kubernetes作为云原生时代的容器编排平台,其强大的自动扩展能力为LLM部署提供了理想的解决方案。

134 2
|
1月前
|
缓存 边缘计算 监控
|

89_批量推理:异步API调用

在当今数据密集型应用和大模型部署的时代,批量推理已成为提升系统性能和资源利用率的关键技术。随着深度学习模型规模的不断扩大和应用场景的日益复杂,如何高效地处理大量推理请求成为技术团队面临的重要挑战。传统的同步API调用方式在面对高并发、大规模数据处理时,往往会遇到响应延迟高、资源利用不充分等问题。异步API调用作为一种更高效的处理模式,通过非阻塞操作和并发处理能力,为批量推理场景提供了理想的解决方案。

115 0
|
5月前
|
人工智能 缓存 搜索推荐
|

手把手基于ModelScope MCP协议实现AI短视频创作:零代码自动化工作流

本文介绍了基于ModelScope MCP协议的AI视频生成解决方案,涵盖核心机制解析、零代码工作流搭建、性能优化策略及全链路异常处理。通过统一上下文描述符抽象异构AI服务,实现图像生成、语音合成与视频剪辑的自动化编排。结合缓存优化与错误重试机制,大幅提升生成效率(如5分镜视频从91.7s降至22.4s)。最后展示《夏日海滩》生成案例,并探讨个性化风格迁移与商业场景集成等进阶方向,揭示零代码本质为服务、流程与资源的三层抽象。

688 18
|
7月前
|
人工智能 前端开发 语音技术
|

开源学习神器把2小时网课压成5分钟脑图!BiliNote:一键转录哔哩哔哩视频,生成结构化学习文档

本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote,其整合多模态AI技术实现视频内容结构化解析,支持跨平台视频源处理与本地化部署方案,提供从语音转写到智能摘要的全流程自动化能力。

1597 36
来自: 多模态  版块
|
8月前
|
人工智能 监控 数据可视化
|

Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作

Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。

3584 13
来自: 自然语言处理  版块
|
8月前
|
人工智能 PyTorch API
|

Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成

Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。

858 5
来自: 多模态  版块
|
8月前
|
物联网 异构计算
|

高效部署通义万相Wan2.1:使用Gradio搭建WebUI体验实战

随着通义万相Wan2.1 在社区的热度持续上涨,魔搭创空间的体验Demo(https://modelscope.cn/studios/Wan-AI/Wan-2.1)已经排起长队。

1667 12
|
8月前
|
人工智能 5G Windows
|

十分钟私有化部署DeepSeek R1

DeepSeek本地化部署支持下载1.5b、7b、8b、14b、32b等不同参数规模的大模型,适合逻辑推理和计算类问题。普通电脑建议选择1.5b模型以避免AI幻觉。部署需使用Ollama工具下载模型,并通过Chatbox AI等客户端进行配置,确保Ollama运行状态。显卡内存为主要资源占用,各模型占用情况不同,请确保硬盘空间充足。

1046 11
|
9月前
|
人工智能 算法 数据格式
|

DeepSeek 开源周第二弹!DeepEP:专为 MoE 训练和推理设计的并行通信库

DeepEP 是 DeepSeek 开源的首个专为混合专家模型(MoE)训练和推理设计的通信库,支持高吞吐量、低延迟通信,优化 NVLink 和 RDMA 网络性能。

672 3
来自: 科学计算  版块
|
9月前
|
存储 人工智能 JSON
|

Open-Deep-Research:开源复现版 Deep Research,支持切换多种大模型,不再依赖 OpenAI o3

Open Deep Research 是一个开源的 AI 智能体,支持多种语言模型,具备实时数据提取、多源数据整合和AI推理功能。

1862 16
来自: 自然语言处理  版块
|
12月前
|
人工智能 测试技术 Apache
|

SmolVLM:Hugging Face推出的轻量级视觉语言模型

SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求,并完全开源,所有模型检查点、VLM数据集、训练配方和工具均在Apache 2.0许可证下发布。

743 7
来自: 多模态  版块
|
1月前
|
存储 Prometheus 监控
|

136_生产监控:Prometheus集成 - 设置警报与指标选择与LLM部署监控最佳实践

在大语言模型(LLM)部署的生产环境中,有效的监控系统是确保服务稳定性、可靠性和性能的关键。随着LLM模型规模的不断扩大和应用场景的日益复杂,传统的监控手段已难以满足需求。Prometheus作为当前最流行的开源监控系统之一,凭借其强大的时序数据收集、查询和告警能力,已成为LLM部署监控的首选工具。

300 6
|
1月前
|
人工智能 自然语言处理 数据中心
|

65_GPU选择:A100 vs RTX系列

在2025年的今天,大语言模型(LLM)已经成为人工智能领域的核心技术之一。从GPT-4到Llama 3.1,从专业领域应用到消费级产品,LLM正在以前所未有的速度改变着我们的工作和生活方式。然而,这些强大模型的训练和部署背后,都离不开高性能计算硬件的支持,尤其是GPU(图形处理单元)的选择,往往直接决定了项目的可行性、效率和成本。

402 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|

88_多模态提示:图像与文本融合

在人工智能领域的快速发展中,多模态融合已成为突破单一模态限制、实现更全面智能理解的关键技术方向。人类理解世界的方式天然是多模态的——我们同时通过视觉、听觉、语言等多种感官获取信息并进行综合分析。例如,在餐厅点餐时,我们会同时处理菜单上的图片、服务员的介绍和菜品的文字描述,最终做出决策。这种自然的多模态信息整合能力,正是人工智能系统长期以来努力追求的目标。

337 0
|
1月前
|
存储 缓存 数据处理
|

71_数据版本控制:Git与DVC在LLM开发中的最佳实践

在2025年的大模型(LLM)开发实践中,数据和模型的版本控制已成为确保项目可重复性和团队协作效率的关键环节。与传统软件开发不同,LLM项目面临着独特的数据版本控制挑战:

204 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
|

阶跃星辰开源! Step 3 :最新一代基础大模型 ,多模推理,极致效率

阶跃星辰开源新一代大模型 Step 3,采用 MoE 架构,参数量达 321B,激活参数 32B,平衡推理效率与资源利用,具备强大多模态能力,支持复杂推理与视觉分析,已在多个评测集取得领先成绩。

270 10
|
4月前
|
人工智能 开发者
|

2025魔搭MCP&Agent挑战赛正式启动!50万总奖池!

2025魔搭MCP&Agent挑战赛正式拉开帷幕!这是一场聚焦MCP协议生态与Agent应用落地的顶级开发者盛会,旨在推动工具标准化与智能体场景创新,探索AI开发者在终端硬件的创新实践。

462 3
|
6月前
|
自然语言处理 监控 安全
|

阿里云发布可观测MCP!支持自然语言查询和分析多模态日志

阿里云可观测官方发布了Observable MCP Server,提供了一系列访问阿里云可观测各产品的工具能力,包含阿里云日志服务SLS、阿里云应用实时监控服务ARMS等,支持用户通过自然语言形式查询

656 0
|
8月前
|
编解码 并行计算 物联网
|

4G显存部署Flux,2分钟Wan2.1-14B视频生成,DiffSynth-Engine引擎开源!

魔搭社区的开源项目 DiffSynth-Studio 自推出以来,凭借其前沿的技术探索和卓越的创新能力,持续受到开源社区的高度关注与广泛好评。截至目前,该项目已在 GitHub 上斩获超过 8,000 颗星,成为备受瞩目的开源项目之一。作为以技术探索为核心理念的实践平台,DiffSynth-Studio 基于扩散模型(Diffusion Model),在图像生成和视频生成领域孵化出了一系列富有创意且实用的技术成果,其中包括 ExVideo、ArtAug、EliGen 等代表性模块。

1375 3

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14406
内容
6
活动
3695
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互