|
6天前
|
机器学习/深度学习 人工智能 监控
|

实战 | Qwen3大模型微调入门实战(完整代码)

Qwen3是阿里通义实验室最近开源的大语言模型,发布时便登顶了开源LLM榜单第一名。同时,Qwen系列模型也超越LLaMA,成为了开源模型社区中最受欢迎的开源LLM。

360 23
|
10月前
|
人工智能 API 决策智能
|

智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐

【7月更文挑战第8天】智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐

6425 75
来自: 自然语言处理  版块
|
12天前
|
人工智能 API 开发者
|

用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频

魔搭自动发布小红书MCP,是魔搭开发者小伙伴实现的小红书笔记自动发布器,可以通过这个MCP自动完成小红书标题、内容和图片的发布。

426 39
|
28天前
|
人工智能 API 开发者
|

FastAPI开发者福音!FastAPI-MCP:将FastAPI秒变MCP服务器的开源神器,无需配置自动转换!

FastAPI-MCP是一款能将FastAPI应用端点自动转换为符合模型上下文协议(MCP)的开源工具,支持零配置自动发现接口并保留完整文档和模式定义。

674 71
来自: 自然语言处理  版块
|
2月前
|
开发者 异构计算
|

高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!

通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇

3631 24
|
1月前
|
人工智能 自然语言处理 算法
|

科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留

BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。

882 67
来自: 自然语言处理  版块
|
6天前
|
机器学习/深度学习 数据采集 安全
|

MiMo-7B:从预训练到强化学习,解锁语言模型的推理潜能

目前,大多数成功的 强化学习 工作,包括开源研究,都依赖于相对较大的基础模型,例如 32B 模型,特别是在增强代码推理能力方面。业内普遍认为在一个小模型中同时提升数学和代码能力是具有挑战性的。然而,小米MiMo研究团队相信 RL 训练的推理模型的有效性取决于基础模型固有的推理潜力。为了完全解锁语言模型的推理潜力,不仅需要关注后训练,还需要针对推理定制预训练策略。

157 37
|
5月前
|
人工智能 自然语言处理 Java
|

FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel

FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。

811 65
来自: 自然语言处理  版块
|
2月前
|
人工智能 网络协议 Java
|

RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块

RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。

1119 77
来自: 自然语言处理  版块
|
3月前
|
机器学习/深度学习 存储 人工智能
|

MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。

2705 20
来自: 多模态  版块
|
23天前
|
Web App开发 人工智能 自然语言处理
|

Open Avatar Chat:阿里开源实时数字人对话系统,让AI对话实现2.2秒低延迟交互

Open Avatar Chat是阿里开源的模块化数字人对话系统,支持文本/音频/视频多模态交互,采用可替换组件设计,平均响应延迟仅2.2秒,为开发者提供灵活高效的解决方案。

466 3
来自: 多模态  版块
|
1月前
|
JavaScript 数据可视化 Docker
|

简易制作MCP服务器并测试

本文介绍了如何简易制作并测试MCP服务器,包括环境搭建、代码实现及Docker部署。首先通过uv包创建项目,在main.py中定义MCP服务器及其工具和资源函数。接着详细说明了在Windows上安装uv、配置Docker镜像加速、生成requirements.txt文件以及编写Dockerfile的过程。最后,通过构建和运行Docker容器部署MCP服务器,并使用Node.js工具测试其功能,确保服务器正常工作。此教程适合初学者快速上手MCP服务器的开发与部署。

507 63
|
3月前
|
数据采集 编解码 缓存
|

通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成

2025年1月,阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!

2833 8
|
6天前
|
人工智能 自然语言处理 测试技术
|

UGMathBench:评估语言模型数学推理能力的动态基准测试数据集

近年来,人工智能蓬勃发展,自然语言模型(LLM)进展显著。语言模型被广泛应用于自动翻译、智能客服、甚至医疗、金融、天气等领域。而研究者们仍在不断努力,致力于提高语言模型的规模和性能。随着语言模型的蓬勃发展,评估一个语言模型的性能变得越来越重要。其中一个重要的评估指标,就是衡量语言模型的推理能力和解决数学问题的能力。

129 39
|
1月前
|
机器学习/深度学习 人工智能 编解码
|

重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步

阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成,创新性采用TMRoPE技术确保音视频同步,支持流式多模态输入处理。

1318 2
来自: 多模态  版块
|
5月前
|
人工智能 自然语言处理 人机交互
|

CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性

CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。

4478 22
来自: 语音  版块
|
6天前
|
人工智能 自然语言处理 搜索推荐
|

魔搭社区模型速递(4.27-5.10)

🙋魔搭ModelScope本期社区进展:📟2341个模型,206个数据集,🎨224个创新应用,📄 15篇内容

123 20
|
4月前
|
XML 人工智能 文字识别
|

Mobile-Agent:通过视觉感知实现自动化手机操作,支持多应用跨平台

Mobile-Agent 是一款基于多模态大语言模型的智能代理,能够通过视觉感知自主完成复杂的移动设备操作任务,支持跨应用操作和纯视觉解决方案。

1159 10
来自: 多模态  版块
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|

GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口

智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型,提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术,简化了图像分析流程,提高了开发效率,适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。

993 14
来自: 多模态  版块
|
4月前
|
人工智能 资源调度 JavaScript
|

PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT

PPTAgent 是中科院推出的自动生成演示文稿框架,基于两阶段编辑方法,支持智能分析、大纲生成、幻灯片生成与评估,适用于教育、企业培训等多种场景。

1406 18
来自: 多模态  版块
|
4月前
|
人工智能 自然语言处理 语音技术
|

FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具

FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具,通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。

1438 11
来自: 多模态  版块
|
4月前
|
人工智能 编解码 JSON
|

Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频

Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型,具有3B、7B和72B三种不同规模,能够识别常见物体、分析图像中的文本、图表等元素,并具备作为视觉Agent的能力。

1587 18
来自: 计算机视觉  版块
|
10天前
|
Web App开发 人工智能 JSON
|

Windows版来啦!Qwen3+MCPs,用AI自动发布小红书图文/视频笔记!

上一篇用 Qwen3+MCPs实现AI自动发小红书的最佳实践 有超多小伙伴关注,同时也排队在蹲Windows版本的教程。

167 1
|
9天前
|
人工智能 自然语言处理 搜索推荐
|

阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!

阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!

112 10
|
3月前
|
存储 人工智能 JSON
|

Open-Deep-Research:开源复现版 Deep Research,支持切换多种大模型,不再依赖 OpenAI o3

Open Deep Research 是一个开源的 AI 智能体,支持多种语言模型,具备实时数据提取、多源数据整合和AI推理功能。

646 16
来自: 自然语言处理  版块
|
4月前
|
数据采集 人工智能 自然语言处理
|

FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据

FireCrawl 是一款开源的 AI 网络爬虫工具,专为处理动态网页内容、自动爬取网站及子页面而设计,支持多种数据提取和输出格式。

1101 19
来自: 自然语言处理  版块
|
6月前
|
JavaScript 计算机视觉
|

FLUX.1 Tools 全家桶开源!文末附一键ComfyUI启动链接

Black Forest Labs 发布了 FLUX.1 Tools,一套增强 FLUX.1 文本转图像模型的工具集,包括 FLUX.1 Fill、FLUX.1 Depth、FLUX.1 Canny 和 FLUX.1 Redux,分别用于图像修复、深度引导、边缘检测和图像重组。提供详细的安装指南和模型下载链接,支持用户快速上手并优化图像处理流程。

2717 4
|
2月前
|
存储 人工智能 Docker
|

Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑

Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。

1930 8
来自: 多模态  版块
|
5月前
|
存储 人工智能 自然语言处理
|

ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器

ChatMCP 是一款基于模型上下文协议(MCP)的 AI 聊天客户端,支持多语言和自动化安装。它能够与多种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互,具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。

1794 16
来自: 自然语言处理  版块
|
3月前
|
人工智能 开发框架 机器人
|

AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程

AstrBot 是一个开源的多平台聊天机器人及开发框架,支持多种大语言模型和消息平台,具备多轮对话、语音转文字等功能。

3367 15
来自: 多模态  版块
|
18天前
|
人工智能 语音技术 iOS开发
|

Kimi-Audio:月之暗面开源音频大模型,1300万小时训练重塑语音交互

Kimi-Audio是月之暗面推出的开源音频基础模型,基于1300万小时多样化音频数据训练,采用混合输入架构和流式解码技术,支持语音识别、情感分析等十余种音频处理任务。

213 14
来自: 语音  版块
|
2月前
|
人工智能 API 语音技术
|

WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍

WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具,能够实时将语音转换为文本,并自动清理和优化文本内容,适用于会议记录、写作辅助等多种场景。

1082 2
来自: 语音  版块
|
3月前
|
人工智能 物联网 测试技术
|

FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。

971 17
来自: 语音  版块
|
18天前
|
机器学习/深度学习 人工智能 算法
|

小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头

小米开源的MiMo推理大模型通过联动预训练与强化学习算法,在7B参数规模下实现数学推理与代码生成能力的突破性提升,技术报告显示其性能超越部分32B级模型。

358 74
来自: 自然语言处理  版块
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代

Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。

468 50
来自: 语音  版块
|
19天前
|
自然语言处理 测试技术 Serverless
|

Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!

Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!

369 22
|
1月前
|
数据采集 人工智能 安全
|

32.7K Star!Awesome MCP Servers:开源MCP资源聚合平台,覆盖20+垂直领域

Awesome MCP Servers 是一个开源项目,汇集了3000多个基于Model Context Protocol的服务器实现,支持本地和云端部署,为AI大模型提供丰富的外部数据访问和工具调用能力。

416 2
来自: 自然语言处理  版块
|
3月前
|
人工智能 资源调度 API
|

AnythingLLM:34K Star!一键上传文件轻松打造个人知识库,构建只属于你的AI助手,附详细部署教程

AnythingLLM 是一个全栈应用程序,能够将文档、资源转换为上下文,支持多种大语言模型和向量数据库,提供智能聊天功能。

3952 17
来自: 多模态  版块
|
4月前
|
人工智能 自然语言处理 API
|

百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。

1766 5
来自: 语音  版块
|
18天前
|
机器学习/深度学习 人工智能 API
|

阿里通义开源新一代混合推理模型 Qwen3:创新双模式推理,支持"思考模式"和"非思考模式"

Qwen3是阿里巴巴推出的新一代大型语言模型,支持119种语言和两种推理模式,采用四阶段训练流程和Apache 2.0协议开源,提供从0.6B到235B的多种模型配置。

234 19
来自: 自然语言处理  版块
|
11月前
|
自然语言处理 Java 测试技术
|

使用PostMan请求阿里云通义千问大模型

本文介绍如果通过postman调用阿里云通义千问API,然后介绍如果使用多语言集成,最后介绍了快速使用postman压测创建的API请求。

2376 2
|
24天前
|
机器学习/深度学习 人工智能 算法
|

HumanRig:高德地图提出在大规模数据集中学习人形角色的自动绑定技术,数据集开源!

HumanRig:高德地图提出在大规模数据集中学习人形角色的自动绑定技术,数据集开源!

273 88
|
3月前
|
JSON 文字识别 测试技术
|

Qwen2.5-VL Cookbook来啦!手把手教你怎么用好视觉理解模型!

今天,Qwen团队发布了一系列展示 Qwen2.5-VL 用例的Notebook,包含本地模型和 API 的使用。

1548 22
|
5月前
|
机器学习/深度学习 人工智能 算法
|

X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景

X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。

800 2
来自: 计算机视觉  版块
|
6月前
|
人工智能 自然语言处理 并行计算
|

EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画

EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目,能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列,通过音频-姿势动态协调策略生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMimicV2不仅支持中文和英文驱动,还简化了动画生成过程中的复杂条件,适用于虚拟主播、在线教育、娱乐和游戏等多个应用场景。

2199 5
来自: 计算机视觉  版块
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Deep Research Web UI:开源版Deep Research!接入DeepSeek一键生成深度研究报告,可视化检索过程

Deep Research Web UI 是一款开源的 AI 研究助手工具,通过 AI 驱动的迭代搜索和多语言支持,帮助用户高效进行深度研究,并以树状结构可视化研究过程,支持导出为 Markdown 或 PDF 格式。

391 9
来自: 自然语言处理  版块
|
3月前
|
机器学习/深度学习 人工智能 编解码
|

阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频

Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。

1182 2
来自: 多模态  版块
|
23天前
|
人工智能 自然语言处理 监控
|

Cooragent:清华 LeapLab 开源 AI Agent 协作框架,一句话召唤AI军团!

Cooragent 是清华大学 LeapLab 团队推出的开源 AI Agent 协作框架,支持基于简单描述快速创建 Agent 并实现多 Agent 协作,具备 Prompt-Free 设计和本地部署能力。

202 6
来自: 自然语言处理  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14121
内容
6
活动
3304
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互