我希望通过damo-YOLO训练1500*1500的图片

11145 6
来自:计算机视觉 版块
已解决
算精通
我已经认真阅读了 你的问题: 【 我希望通过damo-YOLO训练1500*1500的图片 】 并思考了 建议如下: 如果您希望通过 damo-YOLO 训练 1500x1500 像素的图片,可...
135
2

微软黑科技让《我的世界》自主探索!MineWorld:微软开源实时交互式世界模型,实时生成游戏画面!

MineWorld是微软研究院基于《我的世界》开发的实时交互式世界模型,采用视觉-动作自回归Transformer架构,通过创新的并行解码算法实现每秒4-7帧的生成速度,在视频质量、可控性和推理速度上均超越现有模型。

2 0
来自: 多模态  版块

FastAPI开发者福音!FastAPI-MCP:将FastAPI秒变MCP服务器的开源神器,无需配置自动转换!

FastAPI-MCP是一款能将FastAPI应用端点自动转换为符合模型上下文协议(MCP)的开源工具,支持零配置自动发现接口并保留完整文档和模式定义。

2 0
来自: 自然语言处理  版块

斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画

斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。

2 0
来自: 多模态  版块

记录转大模型—InitCommit

嗯,写点东西记录一下转大模型的经历。

21 4
来自: 自然语言处理  版块

AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画

万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。

42 6
来自: 多模态  版块

用AI体验瞬息全宇宙!InstantCharacter:腾讯混元开源角色定制图像生成神器,一键打造你的专属角色

InstantCharacter是腾讯混元团队基于扩散Transformer架构开发的开源图像生成工具,通过可扩展适配器和大规模角色数据集实现高保真、角色一致性的图像生成,支持单图输入和文本控制。

35 3
来自: 多模态  版块

基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%

微软开源的MAI-DS-R1是基于DeepSeek R1改进的AI模型,通过后训练优化将敏感话题响应率提升至99.3%,同时将有害内容风险降低50%,保持原版推理能力并增强多语言支持。

33 3
来自: 自然语言处理  版块

让AI学会"看屏幕操作"!豆包1.5·UI-TARS:字节跳动推出 GUI Agent 黑科技,办公效率暴增300%

字节跳动推出的豆包1.5·UI-TARS是首个整合视觉理解、逻辑推理与界面操作的GUI Agent模型,无需预定义规则即可完成复杂图形界面交互任务,已在火山方舟平台提供服务。

64 2
来自: 多模态  版块

数学编程视觉全能王!OpenAI 推出 o4-mini:视觉推理能力碾压前代,屠榜AIME

OpenAI最新推出的o4-mini小型推理模型在数学、编程和视觉任务中表现卓越,支持多模态推理和工具调用,性能超越前代的同时保持高性价比。

27 3
来自: 多模态  版块

这个AI模型证明数学定理比人类快10倍!Kimina-Prover:月之暗面联合Numina推出数学定理证明黑科技

Kimina-Prover是由月之暗面与Numina团队合作开发的大型数学定理证明模型,采用强化学习训练,在Lean 4语言中严谨证明数学定理,在miniF2F基准测试中创下80.7%的新高成绩。

19 1
来自: 自然语言处理  版块

让AI听懂你的建模需求!BlenderMCP:自然语言指令直接操控 Blender,一句话生成复杂3D场景

BlenderMCP通过MCP协议实现Blender与Claude AI的无缝集成,支持通过自然语言指令完成3D建模、材质调整等复杂操作,显著提升创作效率。

28 0
来自: 自然语言处理  版块

自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动

Codex CLI是OpenAI推出的轻量级AI编程智能体,基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版本控制,支持代码生成、重构、测试及数据库迁移等功能。

38 0
来自: 自然语言处理  版块

多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容

Neural4D 2o是DreamTech推出的突破性3D大模型,通过文本、图像、3D和运动数据的联合训练,实现高精度3D生成与智能编辑,为创作者提供全新的多模态交互体验。

20 0
来自: 多模态  版块

多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!

上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。

44 6
来自: 多模态  版块

测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!

Magnitude是一个基于视觉AI代理的开源端到端测试框架,通过自然语言构建测试用例,结合推理代理和视觉代理实现智能化的Web应用测试,支持本地运行和CI/CD集成。

68 15
来自: 自然语言处理  版块

AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆

上海交通大学推出的交交是全球首个纯学术界自研的口语对话情感大模型,具备多语言交流、方言理解、角色扮演和情感互动等能力,通过创新技术实现端到端语音对话和实时音色克隆。

51 14
来自: 多模态  版块

GLM-4-32B:智谱开源新一代基座模型,代码生成与推理能力全面升级

GLM-4-32B是智谱公司推出的320亿参数开源基座模型,基于15T高质量数据训练,在代码生成、逻辑推理和多模态处理方面表现优异,支持多种编程语言实时交互。

49 13
来自: 自然语言处理  版块

医学AI推理新突破!MedReason:这个AI把医学论文变「会诊专家」,8B模型登顶临床问答基准

MedReason是由多国顶尖学术机构联合开发的医学推理框架,通过知识图谱增强大模型在医疗领域的逻辑推理能力,其8B参数模型在复杂临床场景中达到最先进水平。

71 18
来自: 自然语言处理  版块

这个开源AI平台把文生图/音/字全包了!Pollinations.AI:提供完全免费的AI内容生成

Pollinations.AI 是一个开源的AI内容生成平台,提供免费的文本、图像、音频生成及转换API,无需注册即可使用,支持多种模型和自定义参数,适合开发者和创作者快速集成。

61 15
来自: 多模态  版块

32B参数碾压千亿模型?GLM-Z1-32B:智谱开源新一代推理模型,数学代码逻辑全制霸

GLM-Z1-32B是智谱开源的32B参数推理模型,基于GLM-4-32B深度优化,在数学、代码和逻辑任务上表现卓越,推理速度高达200 tokens/s,支持轻量化部署和商用场景。

72 12
来自: 自然语言处理  版块

导演失业预警!Seaweed-7B:字节7B参数模型让剧本自动变电影!20秒长镜头丝滑生成

Seaweed-7B是字节跳动推出的70亿参数视频生成模型,支持从文本、图像或音频生成高质量视频内容,具备长镜头生成、实时渲染等先进特性,通过优化架构显著降低计算成本。

68 10
来自: 多模态  版块

模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作

UniRig是清华大学与VAST联合研发的自动骨骼绑定框架,基于自回归模型与交叉注意力机制,支持多样化3D模型的骨骼生成与蒙皮权重预测,其创新的骨骼树标记化技术显著提升动画制作效率。

98 27
来自: 多模态  版块

GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini

OpenAI最新发布的GPT-4.1系列语言模型通过混合专家架构与上下文优化,实现百万级token处理能力,在编码任务中准确率提升21.4%,推理成本降低83%,支持多模态内容理解与低延迟响应。

76 27
来自: 自然语言处理  版块

AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文

The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。

81 34
来自: 自然语言处理  版块

告别潜在空间的黑箱操作,直接在原始像素空间建模!PixelFlow:港大团队开源像素级文生图模型

香港大学与Adobe联合研发的PixelFlow模型,通过流匹配和多尺度生成技术实现像素级图像生成,在256×256分辨率任务中取得1.98的FID分数,支持端到端训练并突破传统模型对预训练VAE的依赖。

76 36
来自: 多模态  版块

别让创意卡在工具链!MiniMax MCP Server:MiniMax 开源 MCP 服务打通多模态生成能力,视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件,支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力,兼容主流客户端实现跨平台调用,采用检索增强生成技术保障内容准确性。

65 3
来自: 多模态  版块

开源学习神器把2小时网课压成5分钟脑图!BiliNote:一键转录哔哩哔哩视频,生成结构化学习文档

本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote,其整合多模态AI技术实现视频内容结构化解析,支持跨平台视频源处理与本地化部署方案,提供从语音转写到智能摘要的全流程自动化能力。

89 27
来自: 多模态  版块

谷歌开源多智能体开发框架 Agent Development Kit:百行代码构建复杂AI代理,覆盖整个开发周期!

谷歌开源的Agent Development Kit(ADK)是首个代码优先的Python工具包,通过多智能体架构和灵活编排系统,支持开发者在百行代码内构建复杂AI代理,提供预置工具库与动态工作流定义能力。

61 3
来自: 自然语言处理  版块

简易制作MCP服务器并测试

本文介绍了如何简易制作并测试MCP服务器,包括环境搭建、代码实现及Docker部署。首先通过uv包创建项目,在main.py中定义MCP服务器及其工具和资源函数。接着详细说明了在Windows上安装uv、配置Docker镜像加速、生成requirements.txt文件以及编写Dockerfile的过程。最后,通过构建和运行Docker容器部署MCP服务器,并使用Node.js工具测试其功能,确保服务器正常工作。此教程适合初学者快速上手MCP服务器的开发与部署。

59 6

模型时代的智能BI—Quick BI:阿里云的数据洞察与决策引擎

阿里云Quick BI是一款企业级智能BI工具,融合大模型技术实现自然语言交互、自动化洞察与预测分析。支持多源数据接入,提供50+图表类型及行业模板,助力敏捷业务分析与AI增强决策。相比Tableau、Power BI等竞品,Quick BI以云原生低成本和通义大模型优势脱颖而出,适用于零售、金融等领域,推动数据民主化与智能化转型。推荐已使用阿里云生态的企业采用,分阶段推广功能以最大化价值。

46 2

智能数据建设与治理 Dataphin:阿里云的一站式数据治理利器

阿里云Dataphin是一款企业级数据治理与智能建设平台,专注于解决数据孤岛、质量低下和开发效率低等问题。它提供从数据集成、规范建模、智能开发到质量监控及资产管理的全生命周期解决方案,特别适用于中大型企业构建数据中台或推进数字化转型。Dataphin通过自动化生成代码、内置质量规则模板和全局血缘追踪等功能,显著提升数据开发效率与跨团队协作能力。尽管学习曲线较陡峭且资源消耗较高,但其深度集成阿里云生态的优势,使其成为追求规范化数据治理企业的理想选择。推荐已采用阿里云技术栈并具备一定数据团队规模的企业使用。

46 1

超强辅助!Bolt.diy 自然语言建站工具一键云端部署方案

Bolt.diy 是一款从创意到部署的极速开发工具,支持多语言模型(如 OpenAI、DeepSeek 等)灵活适配,满足不同任务需求。其模块化架构提供高度定制化能力,可扩展自定义服务与私有模型。全栈开发流程覆盖代码生成、调试、版本管理到一键部署,内置数据库管理与 API 自动生成功能。智能化辅助工具实时分析代码错误并提供建议,帮助开发者高效理解复杂项目。基于云原生平台 CAP 构建,支持快速部署与实时预览,适用于快速原型设计、教育及企业级开发等场景。

31 1

全新GLM模型登场:9B/32B系列模型全面开源,性能媲美顶尖选手,MIT协议商用无忧!

智谱开源 32B/9B 系列 GLM 模型,涵盖基座、推理、沉思模型,均遵循 MIT 许可协议。该系列模型现已发布魔搭社区。其中,推理模型 GLM-Z1-32B-0414 性能媲美 DeepSeek-R1 等顶尖模型,实测推理速度可达 200 Tokens/秒。

68 3

魔搭上线最大MCP中文社区,支付宝、MiniMax等MCP独家首发

4月15日,中国第一AI开源社区魔搭(ModelScope)推出全新MCP广场,上架千余款热门的MCP服务,包括支付宝、MiniMax等全新MCP服务在魔搭独家首发。魔搭社区为AI开发者提供丰富的MCP服务及调试工具,并支持第三方平台集成和调用,通过开源开放的方式加速Agent及AI应用的创新和落地。

58 3

Bolt.diy 部署与应用体验全流程总结

按照官方指引,我完成了 Bolt.diy 的部署与测试。通过云原生应用开发平台 CAP,默认配置下部署仅需 1 分钟。首次使用需授权访问控制,部署完成后进入示例应用。注意,资源须通过 HTTPS 提供以支持 WebAssembly 和 SharedArrayBuffer。 随后,在阿里云百炼平台创建 API-KEY 并配置到 Bolt.diy 中,开始尝试提示词创作。例如输入中端 SaaS 首页需求后,Bolt.diy 自动生成代码并展示预览效果,生成效率和质量令人满意。

42 4

MCP的蝴蝶效应:生产力还没实质提升的当下,与生产关系改变带来的大模型应用无限未来

从 LangChain 创始人Twitter激辩 MCP,到 Manus 项目火爆出圈,以及OpenAI & Google纷纷下场兼容MCP,这场由Anthropic发起的技术变革正引发全球科技圈的关注。作为国内首批接入MCP生态的企业级平台和开源社区,阿里云百炼与ModelScope社区深度拥抱MCP全套生态工具并提供大量深度应用实践,并收获到大家的热烈反馈。在各类宣传稿中,MCP似乎无所不能,那么它真的是技术上的万能灵药么?我们将从技术祛魅与生态重构的双重视角,和大家深度讨论下MCP的现状与对未来的展望。

166 1

超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍

字节跳动推出的200B参数混合专家模型,在AIME/Codeforces/GPQA等基准测试中实现多项突破,采用强化学习框架与流式推理系统,支持7大领域复杂推理任务。

110 13
来自: 自然语言处理  版块

快速切换多种画风!FlexIP:腾讯开源双适配器图像生成框架,精准平衡身份保持与个性化编辑

本文解析腾讯最新开源的FlexIP图像框架,其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡,在CLIP-I指标上取得0.873的高分验证了技术突破。

54 9
来自: 多模态  版块

胶佬狂喜!一键分解和修改建模!HoloPart:港大开源神器能将3D物体分解为完整、可编辑的语义部件

香港大学与VAST团队联合推出开源3D部件生成模型HoloPart,通过两阶段扩散模型实现被遮挡部件的完整重构,支持几何超分辨率与多场景应用,在ABO等数据集上展现显著技术优势。

96 7
来自: 多模态  版块

32B模型性能直逼671B的DeepSeek-R1!Skywork-OR1:昆仑万维开源推理模型,突破数学与代码双极限

Skywork-OR1系列模型通过强化学习框架与多阶段训练策略,在数学推理与代码生成领域实现突破性进展,其7B参数版本在AIME数学数据集上超越同规模模型,32B版本性能接近671B参数竞品。

96 10
来自: 自然语言处理  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

6
今日
14034
内容
6
活动
3229
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等