|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
|

Z-Image:冲击体验上限的下一代图像生成模型

通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。

2021 9
|
2月前
|
文字识别 测试技术 开发者
|

Qwen3-VL新成员 2B、32B来啦!更适合开发者体质

Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!

3059 12
|
11月前
|
算法 数据可视化 测试技术
|

共学 | 2025年,更加有效地搭建Agent

2024年末,Anthropic写了一篇叫做“Building effective Agents”的文章,针对如何有效的搭建Agent,常见Agent工作流程的几种范式,以及对现在的Code Agent工作模式做了详细的解读。本文结合cookbook+ModelScope的免费Qwen API做了一些中文示例的实践,来更好的理解这篇文章。

2440 7
|
10月前
|
机器学习/深度学习 存储 人工智能
|

MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。

8182 80
来自: 多模态  版块
|
1月前
|
数据采集 人工智能 自然语言处理
|

Meta SAM3开源:让图像分割,听懂你的话

Meta发布并开源SAM 3,首个支持文本、点、框等提示进行图像与视频分割的统一基础模型,突破传统限制,实现开放词汇概念的精准识别与跟踪,涵盖超400万独特概念,推动视觉分割新发展。

950 6
|
8月前
|
机器学习/深度学习 存储 人工智能
|

Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研

Qlib是微软亚洲研究院推出的开源AI量化投资平台,提供从数据处理、模型训练到组合管理的全流程支持,内置高性能数据基础设施和多种机器学习模型。

3277 87
来自: 自然语言处理  版块
|
1天前
|
物联网 API UED
|

Qwen-Image-Edit-2511来啦!角色一致性再提升,LoRA能力内置

Qwen-Image-Edit-2511发布!提升角色与多人合照一致性,集成Lora打光、新视角生成,增强工业设计与几何推理能力。已开源,支持魔搭、QwenChat免费体验,本地部署可获最佳效果。

150 3
|
4天前
|
人工智能 安全 前端开发
|

写单元测试太痛苦?教你用DeepSeek/通义千问一键生成高质量测试代码

单元测试难写且枯燥?本文分享一套经过验证的AI生成指令,将DeepSeek/通义千问化身为10年经验的测试专家。支持自动Mock、全场景覆盖和参数化测试,让代码质量保障从"体力活"变成高效的"指挥活"。

149 2
|
11月前
|
XML 人工智能 文字识别
|

Mobile-Agent:通过视觉感知实现自动化手机操作,支持多应用跨平台

Mobile-Agent 是一款基于多模态大语言模型的智能代理,能够通过视觉感知自主完成复杂的移动设备操作任务,支持跨应用操作和纯视觉解决方案。

4287 10
来自: 多模态  版块
|
9月前
|
开发者 异构计算
|

高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!

通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇

7371 23
|
11月前
|
人工智能 编解码 JSON
|

Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频

Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型,具有3B、7B和72B三种不同规模,能够识别常见物体、分析图像中的文本、图表等元素,并具备作为视觉Agent的能力。

5391 18
来自: 计算机视觉  版块
|
11天前
|
物联网 开发者
|

Z-Image Turbo LoRA训练魔法:如何保持加速生图能力

ModelScope DiffSynth团队推出Z-Image-Turbo-DistillPatch,解决LoRA训练后丢失Turbo加速问题。支持8步高质量生成,兼容标准SFT流程,即插即用,无需重训。开源地址:modelscope.cn/models/DiffSynth-Studio/Z-Image-Turbo-DistillPatch

296 2
|
7天前
|
机器学习/深度学习 数据采集 自然语言处理
|

BOSS直聘3B超越Qwen3-32B,更多训练数据刷新小模型极限

BOSS直聘Nanbeige实验室开源Nanbeige4-3B模型,仅30亿参数却在数学、推理、代码等多领域超越320亿参数大模型。通过23万亿高质量token训练、千万级指令微调及双重蒸馏强化学习,实现小模型性能跃升,为端侧部署与低成本推理提供新范式。

183 5
|
10天前
|
人工智能 自然语言处理 语音技术
|

通义百聆语音双子星,同步开源!

通义百聆全新升级,推出Fun-CosyVoice3与Fun-ASR系列模型。3秒录音即可实现9种语言、18种方言及多情感音色克隆,支持中英混说、跨语种合成;Fun-ASR识别准确率高达93%,支持31种语言自由混说、歌词说唱识别,并开源轻量级模型,助力高效本地部署与定制开发。

260 5
|
10月前
|
人工智能 Linux iOS开发
|

exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型

exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。

2508 101
来自: 科学计算  版块
|
14天前
|
Java 调度 数据库
|

搭建XXL-JOB

XXL-JOB由调度中心和执行器两部分组成。调度中心负责任务调度与管理,支持动态配置、监控告警;执行器部署在微服务中,接收调度请求并执行任务。通过SpringBoot集成xxl-job-core,配置注册地址后可自动注册到调度中心,实现分布式任务调度。

210 4
|
1月前
|
IDE 编译器 开发工具
|

嵌入式开发必备!Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含(Keil MDK 5.39)

Keil C51 V9.61是一款专用于8051系列单片机的集成开发环境,支持主流厂商芯片,集编辑、编译、仿真于一体,基于μVision5平台,操作便捷。提供C编译器、汇编器、调试器等全套工具,适用于嵌入式开发。附带安装与激活教程,可实现汉化界面,提升使用体验。(237字)

1214 7
|
15天前
|
人工智能 自然语言处理 语音技术
|

智谱开源GLM-ASR:动动嘴,活就干了

智谱发布并开源GLM-ASR系列语音识别模型,推出桌面端AI输入法。包含云端旗舰模型GLM-ASR-2512与端侧轻量版GLM-ASR-Nano-2512(仅1.5B参数),实现高精度、低延迟、强隐私保护的语音转写。输入法集成大模型能力,支持语音指令、翻译、改写、人设切换、Vibe Coding等功能,让用户“动嘴干活”,提升办公效率。现已免费开放体验。

359 0
|
10月前
|
人工智能 资源调度 API
|

AnythingLLM:34K Star!一键上传文件轻松打造个人知识库,构建只属于你的AI助手,附详细部署教程

AnythingLLM 是一个全栈应用程序,能够将文档、资源转换为上下文,支持多种大语言模型和向量数据库,提供智能聊天功能。

7281 76
来自: 多模态  版块
|
11月前
|
数据采集 人工智能 自然语言处理
|

FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据

FireCrawl 是一款开源的 AI 网络爬虫工具,专为处理动态网页内容、自动爬取网站及子页面而设计,支持多种数据提取和输出格式。

4208 71
来自: 自然语言处理  版块
|
9月前
|
人工智能 编解码 自动驾驶
|

RF-DETR:YOLO霸主地位不保?开源 SOTA 实时目标检测模型,比眨眼还快3倍!

RF-DETR是首个在COCO数据集上突破60 mAP的实时检测模型,结合Transformer架构与DINOv2主干网络,支持多分辨率灵活切换,为安防、自动驾驶等场景提供高精度实时检测方案。

1824 6
来自: 计算机视觉  版块
|
8月前
|
人工智能 Linux iOS开发
|

音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换

OpenUtau是一款开源的歌声合成工具,兼容UTAU音源库和重采样器,支持多语言界面及预渲染功能,让音乐创作更加高效便捷。

2250 15
来自: 多模态  版块
|
1月前
|
人工智能 物联网 测试技术
|

Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效

通义千问团队开源Qwen-Image-Edit,基于20B模型,支持语义与外观双重编辑、精准中英文文字修改,具备SOTA图像编辑能力,可用于IP创作、风格迁移、文字修复等。

886 6
|
9月前
|
文字识别 测试技术 语音技术
|

看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!

今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。

2143 6
|
9月前
|
机器学习/深度学习 文字识别 测试技术
|

Qwen2.5-VL-32B: 更聪明、更轻量!

年前,阿里通义千问团队推出了 Qwen2.5-VL 系列模型,获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上,研究团队使用强化学习持续优化模型,并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型,本次推出的 32B 模型的特点如下:

3509 0
|
2月前
|
监控 安全 数据安全/隐私保护
|

55_大模型部署:从云端到边缘的全场景实践

随着大型语言模型(LLM)技术的飞速发展,从实验室走向产业化应用已成为必然趋势。2025年,大模型部署不再局限于传统的云端集中式架构,而是向云端-边缘协同的分布式部署模式演进。这种转变不仅解决了纯云端部署在延迟、隐私和成本方面的痛点,还为大模型在各行业的广泛应用开辟了新的可能性。本文将深入剖析大模型部署的核心技术、架构设计、工程实践及最新进展,为企业和开发者提供从云端到边缘的全场景部署指南。

1013 1
|
10月前
|
人工智能 自然语言处理 API
|

Cline:29.7K Star!一文详解VSCode最强开源AI编程搭子:一键生成代码+自动跑终端+操控浏览器...

Cline 是一款集成于 VSCode 的 AI 编程助手,支持多语言模型,实时检查语法错误,帮助开发者提高编程效率。通过智能化手段,Cline 可以生成代码、执行终端命令、调试 Web 应用,并扩展更多功能。

3770 73
来自: 自然语言处理  版块
|
8天前
|
设计模式 人工智能 架构师
|

面对"祖传代码"不敢动?用这条指令让AI做你的首席重构架构师

面对"屎山"代码不敢动?本文介绍了一套专业的AI重构指令,化身拥有15年经验的首席架构师。它能精准识别代码异味,提供基于设计模式的重构方案,并生成验证清单,帮助开发者安全高效地偿还技术债务。

147 7
|
8月前
|
人工智能 API 开发者
|

FastAPI开发者福音!FastAPI-MCP:将FastAPI秒变MCP服务器的开源神器,无需配置自动转换!

FastAPI-MCP是一款能将FastAPI应用端点自动转换为符合模型上下文协议(MCP)的开源工具,支持零配置自动发现接口并保留完整文档和模式定义。

4660 112
来自: 自然语言处理  版块
|
9月前
|
人工智能 搜索推荐 物联网
|

线上共学 | Mac本地玩转大模型

本文介绍如何在Mac本地部署和使用大模型,包括基础运行、多模态扩展、交互优化、知识增强、定制进化等技术链路,并提供Ollama、Stable Diffusion、LM-Studio等工具的详细操作指南。

2149 8
|
10月前
|
人工智能 开发框架 机器人
|

AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程

AstrBot 是一个开源的多平台聊天机器人及开发框架,支持多种大语言模型和消息平台,具备多轮对话、语音转文字等功能。

5849 38
来自: 多模态  版块
|
3月前
|
机器学习/深度学习 数据采集 人工智能
|

通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互

近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。

1138 2
|
10月前
|
人工智能 API 语音技术
|

VideoCaptioner:北大推出视频字幕处理神器,AI自动生成+断句+翻译,1小时工作量5分钟搞定

VideoCaptioner 是一款基于大语言模型的智能视频字幕处理工具,支持语音识别、字幕断句、优化、翻译全流程处理,并提供多种字幕样式和格式导出。

2036 89
来自: 多模态  版块
|
3月前
|
人工智能 编解码 数据可视化
|

原生支持QwenImage!FlowBench 正式开启公测!本地 + 云端双模生图,AI创作更自由

FlowBench 是由 ModelScope x Muse 团队打造的一站式 AI 工作流创作平台,现已开启全面公测。该平台以工作流为核心,支持本地与云端资源协同运行,面向开发者、设计师及 AI 创作者提供高效、稳定、易用的可视化创作体验。FlowBench 原生支持 QwenImage 图像生成模型,最低仅需 8GB 显存即可实现本地生图,并支持多 LoRA 融合、多图批量生成等强大功能。用户可在 Mac 和 Windows 系统下载使用,同时享受云端与本地自由切换带来的灵活体验。公测期间,FlowBench 团队将持续优化功能,推出更多创新特性,助力用户开启高效 AI 创作之旅。

907 11
|
11月前
|
人工智能 自然语言处理 API
|

用自然语言控制电脑,字节跳动开源 UI-TARS 的桌面版应用!内附详细的安装和配置教程

UI-TARS Desktop 是一款基于视觉语言模型的 GUI 代理应用,支持通过自然语言控制电脑操作,提供跨平台支持、实时反馈和精准的鼠标键盘控制。

3274 17
来自: 多模态  版块
|
1月前
|
数据采集 人工智能 自然语言处理
|

Meta SAM3开源:让图像分割,听懂你的话

Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。

1186 59
|
1月前
|
人工智能 前端开发 JavaScript
|

新的LLM交互模式!大模型终于能自己生成交互式 UI 了

Google Research推出的Generative UI,让大模型不仅能生成内容,还能一键创建含地图、图表、小游戏等交互功能的完整网页。告别“文字墙”,迈向“内容即应用”的新时代,82.8%用户偏爱此创新体验。

429 8
|
8月前
|
人工智能 自然语言处理 知识图谱
|

Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库

Yuxi-Know是一个结合大模型RAG知识库与知识图谱技术的智能问答平台,支持多格式文档处理和复杂知识关系查询,具备多模型适配和智能体拓展能力。

2061 55
来自: 自然语言处理  版块
|
9月前
|
存储 人工智能 文字识别
|

pdf-craft:PDF秒转Markdown/EPUB!接入DeepSeek轻松生成电子书,自动整理目录、注释和引文

pdf-craft是一款专注于处理扫描书籍PDF的开源工具,能精准提取正文内容并转换为Markdown/EPUB格式,通过AI算法解决跨页连贯性问题,是学术研究和电子书制作的利器。

1791 10
来自: 自然语言处理  版块
|
10月前
|
数据采集 编解码 缓存
|

通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成

2025年1月,阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!

5476 8
|
12月前
|
人工智能 自然语言处理 监控
|

video-analyzer:开源视频分析工具,支持提取视频关键帧、音频转录,自动生成视频详细描述

video-analyzer 是一款开源视频分析工具,结合 Llama 的 11B 视觉模型和 OpenAI 的 Whisper 模型,能够提取视频关键帧、转录音频并生成详细描述,支持本地运行和多种应用场景

2806 6
来自: 计算机视觉  版块
|
3月前
|
XML 自然语言处理 数据可视化
|

免费!文本表格不会总结、分析?文本表格可视化!帮你轻松解决困扰,保姆级级教程。【附Coze工作流】

本文介绍了如何利用“扣子”平台创建资源,通过可视化工作流处理并分析文档、表格、PDF等内容,帮助用户快速获取文件核心信息。内容涵盖登录、资源创建、工作流配置及运行操作,适用于多种文件格式,如CSV、Excel、PDF等。

1043 3
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代

Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。

4243 50
来自: 语音  版块
|
8月前
|
机器学习/深度学习 人工智能 编解码
|

Text to Bark:让狗狗听懂人话!全球首个AI"狗语"生成器,137种狗狗口音任君挑选

ElevenLabs推出的Text to Bark是全球首个能将文本转换为逼真狗吠声的AI模型,支持多种犬种选择并适配智能家居设备,其核心技术基于深度神经网络训练。

1653 15
来自: 语音  版块
|
8月前
|
人工智能 并行计算 Linux
|

斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画

斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。

2039 19
来自: 多模态  版块
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AgentEvolver:让智能体系统学会「自我进化」

AgentEvolver 是一个自进化智能体系统,通过自我任务生成、经验导航与反思归因三大机制,推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率,在更少参数下实现更强性能,助力智能体持续自我迭代。开源地址:https://github.com/modelscope/AgentEvolver

800 38
|
5月前
|
监控 安全 NoSQL
|

【SpringBoot】OAuth 2.0 授权码模式 + JWT 令牌自动续签 的终极落地指南,包含 深度技术细节、生产环境配置、安全加固方案 和 全链路监控

【SpringBoot】OAuth 2.0 授权码模式 + JWT 令牌自动续签 的终极落地指南,包含 深度技术细节、生产环境配置、安全加固方案 和 全链路监控

2257 1
|
11月前
|
人工智能 知识图谱 Docker
|

KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答

KAG 是蚂蚁集团推出的专业领域知识服务框架,通过知识增强提升大型语言模型在特定领域的问答性能,支持逻辑推理和多跳事实问答,显著提升推理和问答的准确性和效率。

3443 46
来自: 自然语言处理  版块
|
5月前
|
人工智能 JavaScript API
|

零基础构建MCP服务器:TypeScript/Python双语言实战指南

作为一名深耕技术领域多年的博主摘星,我深刻感受到了MCP(Model Context Protocol)协议在AI生态系统中的革命性意义。MCP作为Anthropic推出的开放标准,正在重新定义AI应用与外部系统的交互方式,它不仅解决了传统API集成的复杂性问题,更为开发者提供了一个统一、安全、高效的连接框架。在过去几个月的实践中,我发现许多开发者对MCP的概念理解透彻,但在实际动手构建MCP服务器时却遇到了各种技术壁垒。从环境配置的细节问题到SDK API的深度理解,从第一个Hello World程序的调试到生产环境的部署优化,每一个环节都可能成为初学者的绊脚石。因此,我决定撰写这篇全面的实

1209 67

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

3
今日
14543
内容
6
活动
3816
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互