|
2月前
|
人工智能 JavaScript API
|

零基础构建MCP服务器:TypeScript/Python双语言实战指南

作为一名深耕技术领域多年的博主摘星,我深刻感受到了MCP(Model Context Protocol)协议在AI生态系统中的革命性意义。MCP作为Anthropic推出的开放标准,正在重新定义AI应用与外部系统的交互方式,它不仅解决了传统API集成的复杂性问题,更为开发者提供了一个统一、安全、高效的连接框架。在过去几个月的实践中,我发现许多开发者对MCP的概念理解透彻,但在实际动手构建MCP服务器时却遇到了各种技术壁垒。从环境配置的细节问题到SDK API的深度理解,从第一个Hello World程序的调试到生产环境的部署优化,每一个环节都可能成为初学者的绊脚石。因此,我决定撰写这篇全面的实

417 67
|
2月前
|
人工智能 自然语言处理 物联网
|

Jina Embeddings V4: 为搜索而生,多模态多语言向量模型

近日,Jina AI 正式发布 jina-embeddings-v4,一款全新的多模态向量模型,参数规模达到 38 亿,并首次实现了对文本与图像的同步处理。

328 2
|
5月前
|
数据采集 人工智能 安全
|

32.7K Star!Awesome MCP Servers:开源MCP资源聚合平台,覆盖20+垂直领域

Awesome MCP Servers 是一个开源项目,汇集了3000多个基于Model Context Protocol的服务器实现,支持本地和云端部署,为AI大模型提供丰富的外部数据访问和工具调用能力。

1134 2
来自: 自然语言处理  版块
|
8月前
|
人工智能 文字识别 API
|

moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。

808 6
来自: 多模态  版块
|
28天前
|
机器学习/深度学习 自然语言处理 API
|

query改写:大模型应用测试离不开的实践

queryrewrite 是一个用于大模型应用测试的 Python 库,专注于查询(query)的改写与验证。它支持多种改写方法,包括大型语言模型(LLM)、词汇表替换和同义词替换,同时提供多种验证方法如 ROUGE-L、BLEU、帕累托最优和LLM语义相似度,以确保改写后的查询在语义上保持一致。该项目特别优化了对中文文本的处理,涵盖分词和相似度计算。用户可通过 pip 安装,并支持扩展不同的 LLM 模型,如 OpenAI、Ollama 等。

287 87
|
2月前
|
机器学习/深度学习 前端开发 数据可视化
|

Kimi K2 开源发布:擅长代码与 Agentic 任务!

今天,月之暗面正式发布 Kimi K2 模型,并同步开源。Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。

552 0
|
5月前
|
人工智能 Linux iOS开发
|

音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换

OpenUtau是一款开源的歌声合成工具,兼容UTAU音源库和重采样器,支持多语言界面及预渲染功能,让音乐创作更加高效便捷。

1026 15
来自: 多模态  版块
|
6月前
|
人工智能 搜索推荐 物联网
|

线上共学 | Mac本地玩转大模型

本文介绍如何在Mac本地部署和使用大模型,包括基础运行、多模态扩展、交互优化、知识增强、定制进化等技术链路,并提供Ollama、Stable Diffusion、LM-Studio等工具的详细操作指南。

1078 8
|
9月前
|
SQL 存储 人工智能
|

Vanna:开源 AI 检索生成框架,自动生成精确的 SQL 查询

Vanna 是一个开源的 Python RAG(Retrieval-Augmented Generation)框架,能够基于大型语言模型(LLMs)为数据库生成精确的 SQL 查询。Vanna 支持多种 LLMs、向量数据库和 SQL 数据库,提供高准确性查询,同时确保数据库内容安全私密,不外泄。

1362 7
来自: 自然语言处理  版块
|
2月前
|
缓存 物联网 异构计算
|

智谱发布新一代旗舰模型 GLM-4.5,面向推理、代码与智能体的开源SOTA模型!

7月28日晚,智谱带来新一代旗舰模型——GLM-4.5!GLM-4.5 系列模型是专为智能体设计的基础模型。GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air 采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。GLM-4.5模型统一了推理、编码和智能体能力,以满足智能体应用的复杂需求。

341 0
|
3月前
|
机器学习/深度学习 编解码 文字识别
|

小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!

今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。

555 9
|
5月前
|
机器学习/深度学习 人工智能 编解码
|

AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画

万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。

1005 9
来自: 多模态  版块
|
5月前
|
人工智能 API 开发工具
|

GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化

GitHub MCP Server是基于Model Context Protocol的服务器工具,提供与GitHub API的无缝集成,支持自动化处理问题、Pull Request和仓库管理等功能。

1051 2
|
6月前
|
机器学习/深度学习 编解码 人工智能
|

Qwen2.5-VL Technical Report

Qwen2.5-VL是阿里云团队推出的Qwen系列最新旗舰模型,具备显著提升的基础能力和创新功能。它在视觉识别、对象定位、文档解析和长视频理解等方面实现突破,支持精准的边界框/点定位及复杂输入处理。通过技术创新如窗口注意力、动态帧率采样和绝对时间编码,该模型在多模态任务中表现出色,在多个基准测试中超越顶级闭源模型,适用于从边缘AI到高性能计算的广泛场景。

750 7
|
7月前
|
机器学习/深度学习 人工智能 JavaScript
|

video-subtitle-master:开源字幕生成神器!批量生成+AI翻译全自动,5分钟解放双手

video-subtitle-master 是一款开源AI字幕生成工具,支持批量为视频或音频生成字幕,并可将字幕翻译成多种语言。它集成了多种翻译服务和语音识别技术,适合视频创作者、教育领域和个人娱乐使用。

679 0
来自: 多模态  版块
|
7月前
|
存储 人工智能 并行计算
|

KTransformers:告别天价显卡!国产框架让单卡24G显存跑DeepSeek-R1 671B大模型:推理速度飙升28倍

KTransformers 是由清华大学和趋境科技联合推出的开源项目,能够优化大语言模型的推理性能,降低硬件门槛。支持在仅24GB显存的单张显卡上运行671B参数的满血版大模型。

1964 8
来自: 自然语言处理  版块
|
9月前
|
开发框架 自然语言处理 JavaScript
|

千问开源P-MMEval数据集,面向大模型的多语言平行评测集

近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。

651 8
|
22天前
|
物联网 开发者
|

LoRA 模型的全新玩法——AutoLoRA 带你体验 LoRA 检索与融合的魔法

LoRA 模型的全新玩法——AutoLoRA 带你体验 LoRA 检索与融合的魔法

173 0
|
28天前
|
编解码 算法 测试技术
|

MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!

今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。

209 0
|
5月前
|
人工智能 自然语言处理 数据可视化
|

让AI单次生成4万字!WriteHERE:开源AI长文写作框架,单次生成超长文本,小说报告一键搞定!

WriteHERE是基于异质递归规划技术的开源AI写作框架,能动态分解写作任务并管理任务依赖关系,支持单次生成超过4万字的专业报告。

536 55
来自: 自然语言处理  版块
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
|

PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定

PaddleSpeech是百度飞桨团队推出的开源语音处理工具包,集成语音识别、合成、翻译等核心技术,基于PaddlePaddle框架提供高性能解决方案。

461 18
来自: 语音  版块
|
6月前
|
机器学习/深度学习 人工智能 物联网
|

MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定

MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型,最小版本仅需25.8M参数,适合在普通个人GPU上快速训练。

1101 10
来自: 自然语言处理  版块
|
12月前
|
存储 安全 Linux
|

s3fs挂载S3对象桶

s3fs(Simple Storage Service File System)是一个基于FUSE(Filesystem in Userspace)的文件系统,它允许将S3(Simple Storage Service)或其他兼容S3 API的对象存储服务挂载到本地文件系统中,从而能够像访问本地磁盘一样访问远程对象存储。以下是通过s3fs挂载OBS(Object Storage Service,对象存储服务,这里以华为云OBS为例)对象桶的基本步骤: ### 一、环境准备 1. **安装s3fs**: - 对于CentOS系统,可以使用yum安装s3fs-fuse: ```

1513 7
|
15天前
|
人工智能 算法 开发者
|

开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告

开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告

120 10
|
18天前
|
人工智能 物联网 API
|

ModelScope魔搭25年8月发布月报

🔥 这个夏天,开源热潮比气温更燃!Qwen3、GLM4.5、混元、Wan2.2、Qwen-Image等重磅模型密集发布,MoE、多模态、Agent、生图视频全爆发,ModelScope 全程 Day0 支持,生态持续进化中!

160 0
|
5月前
|
机器学习/深度学习 人工智能 编解码
|

重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步

阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成,创新性采用TMRoPE技术确保音视频同步,支持流式多模态输入处理。

2255 2
来自: 多模态  版块
|
9月前
|
存储 人工智能 人机交互
|

PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化

PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。

972 1
来自: 多模态  版块
|
18天前
|
机器人 图形学 开发者
|

腾讯混元最新开源:一张图,秒变游戏大片

有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?

168 1
来自: 计算机视觉  版块
|
1月前
|
传感器 人工智能 自然语言处理
|

魔搭社区模型速递(7.26-8.2)

🙋魔搭ModelScope本期社区进展:1498个模型,130个数据集,85个创新应用, 7 篇内容

293 0
|
5月前
|
自然语言处理 测试技术 Serverless
|

Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!

Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!

1216 22
|
5月前
|
人工智能 自然语言处理 JavaScript
|

测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!

Magnitude是一个基于视觉AI代理的开源端到端测试框架,通过自然语言构建测试用例,结合推理代理和视觉代理实现智能化的Web应用测试,支持本地运行和CI/CD集成。

662 15
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 并行计算 API
|

Qwen2.5-1M: 支持100万Tokens上下文的开源Qwen模型

两个月前,Qwen团队升级了 Qwen2.5-Turbo,使其支持最多一百万个Tokens的上下文长度。今天,Qwen正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。

1249 28
|
8月前
|
人工智能 自然语言处理 API
|

百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。

2523 5
来自: 语音  版块
|
9月前
|
机器学习/深度学习 人工智能 达摩院
|

ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。

1642 3
来自: 语音  版块
|
2月前
|
数据采集 编解码 人工智能
|

Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!

6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。

306 1
|
3月前
|
存储 人工智能 文字识别
|

Nanonets-OCR-s开源!复杂文档转Markdown SoTA,颠覆复杂文档工作流

Nanonets团队开源了 Nanonets-OCR-s,该模型基于Qwen2.5-VL-3B微调,9G显存就能跑。

419 2
|
6月前
|
测试技术 API
|

QwQ-32B,支持Function Call的推理模型,深度思考Agent的时代来了!

近期,Qwen 发布了 QwQ-32B - 一个在许多基准测试中性能可与 DeepSeek-R1 相媲美的推理模型。

1174 9
|
7月前
|
存储 人工智能 API
|

SPO:如何优化提示词?大模型最懂如何优化自己!开源自监督提示词优化工具,让AI自主优化提示词

本文介绍由DeepWisdom与香港科技大学联合研发的SPO框架,通过自我监督机制实现大语言模型提示优化,仅需3个样本即可达到SOTA效果,优化成本降低至传统方法的1.1%-5.6%。

1019 0
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能 并行计算
|

Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟

Unsloth 是一款开源的大语言模型微调工具,支持 Llama-3、Mistral、Phi-4 等主流 LLM,通过优化计算步骤和手写 GPU 内核,显著提升训练速度并减少内存使用。

933 3
来自: 自然语言处理  版块
|
7月前
|
人工智能 安全 机器人
|

LangBot:无缝集成到QQ、微信等消息平台的AI聊天机器人平台

LangBot 是一个开源的多模态即时聊天机器人平台,支持多种即时通信平台和大语言模型,具备多模态交互、插件扩展和Web管理面板等功能。

1353 14
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 编解码 人工智能
|

STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频

STAR 是由南京大学、字节跳动和西南大学联合推出的视频超分辨率框架,能够将低分辨率视频提升为高分辨率,同时保持细节清晰度和时间一致性。

1379 13
来自: 计算机视觉  版块
|
9月前
|
存储 人工智能 缓存
|

Mooncake:月之暗面Kimi联合清华等机构推出的大模型推理架构

Mooncake是由月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。该架构以KVCache为中心,通过分布式设计和资源优化,显著提升了大模型推理的吞吐量和效率,同时降低了算力开销。Mooncake在长上下文场景中表现出色,支持多种应用场景,如自然语言处理、内容推荐系统和搜索引擎等。

612 6
来自: 自然语言处理  版块
|
30天前
|
机器人 容器 Docker
|

100%由Qwen3-Coder独立编程!工业级RAGFlow聊天机器人实战,故障诊断提速300%

RAGFlow Chatbot 是一个集成了 RAGFlow 技术的智能问答系统,专注于 LCD 彩膜制造领域的专业知识。该系统能够回答关于工艺诊断、缺陷分析、材料验证和设备优化等方面的问题,为工程师和技术人员提供快速准确的知识支持。 功能特性 🤖 基于 RAGFlow 的智能问答系统 💬 实时流式响应,支持思考过程展示 📚 对话历史记录与管理 🔍 搜索历史对话 📤 导出对话记录 🧠 深度思考模式 🌐 响应式设计,支持移动端 🌙 深色主题支持

226 0
|
2月前
|
人工智能 数据可视化 前端开发
|

蚂蚁的可视化图表 MCP 首发上线!支持超过 25 种的可视化图表生成,也支持生成路书!

蚂蚁 AntV 团队推出可视化图表 MCP 插件,支持 25+ 种图表类型,涵盖统计图、关系图及地图标注、路径地图等,用户只需输入文本即可生成炫酷图表,大幅简化数据可视化流程,提升数据展示效率。

331 23
|
3月前
|
人工智能 缓存 搜索推荐
|

手把手基于ModelScope MCP协议实现AI短视频创作:零代码自动化工作流

本文介绍了基于ModelScope MCP协议的AI视频生成解决方案,涵盖核心机制解析、零代码工作流搭建、性能优化策略及全链路异常处理。通过统一上下文描述符抽象异构AI服务,实现图像生成、语音合成与视频剪辑的自动化编排。结合缓存优化与错误重试机制,大幅提升生成效率(如5分镜视频从91.7s降至22.4s)。最后展示《夏日海滩》生成案例,并探讨个性化风格迁移与商业场景集成等进阶方向,揭示零代码本质为服务、流程与资源的三层抽象。

449 18
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AI Agent

本文介绍了AI Agent的概念及其在云计算3.0时代的焦点地位,强调了其与大语言模型(LLM)的紧密联系。AI Agent由控制端(Brain)、感知端(Perception)和行动端(Action)组成,能够通过LLMs实现复杂的任务分解、记忆管理及工具使用。文章探讨了单代理、多代理及人机交互的应用场景,并分析了钢铁侠中贾维斯的现实版——微软开源JARVIS项目。此外,还提及了国内外多个开源平台及Python在AI领域的核心地位,同时提出了关于智能代理发展的开放问题,如安全性、群体智能演化及代理服务化等。最后提供了丰富的参考资料以供深入研究。

807 16
|
6月前
|
存储 人工智能 API
|

OWL:告别繁琐任务!开源多智能体系统实现自动化协作,效率提升10倍

OWL 是基于 CAMEL-AI 框架开发的多智能体协作系统,通过智能体之间的动态交互实现高效的任务自动化,支持角色分配、任务分解和记忆功能,适用于代码生成、文档撰写、数据分析等多种场景。

1378 13
来自: 自然语言处理  版块
|
6月前
|
人工智能 自然语言处理 语音技术
|

Baichuan-Audio:端到端音频大模型,实时双语对话+语音生成

Baichuan-Audio 是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现高质量、可控的实时中英双语对话。

763 3
来自: 语音  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14243
内容
6
活动
3577
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互