图像识别的搜索结果_文章_第7页-阿里云开发者社区

蚝油菜花

|

9月前

|

博文

|

R1-Onevision：开源多模态推理之王！复杂视觉难题一键解析，超越GPT-4V

R1-Onevision 是一款开源的多模态视觉推理模型，基于 Qwen2.5-VL 微调，专注于复杂视觉推理任务。它通过整合视觉和文本数据，能够在数学、科学、深度图像理解和逻辑推理等领域表现出色，并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。

# 云解析DNS # 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # 文字识别 # 测试技术

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Flame：开源AI设计图转代码模型！生成React组件，精准还原UI+动态交互效果

Flame 是一款开源的多模态 AI 模型，能够将 UI 设计图转换为高质量的现代前端代码，支持 React 等主流框架，具备动态交互、组件化开发等功能，显著提升前端开发效率。

# 图像识别 # 人工智能 # 自然语言处理 # 前端开发 # JavaScript # API

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

Wan2.1是阿里云开源的一款AI视频生成大模型，支持文生视频和图生视频任务，具备强大的视觉生成能力，性能超越Sora、Luma等国内外模型。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # API # 异构计算

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

PhotoDoodle：设计师必备！AI一键生成装饰元素，30+样本复刻风格+无缝融合的开源艺术编辑框架

PhotoDoodle 是由字节跳动、新加坡国立大学等联合推出的艺术化图像编辑框架，能够通过少量样本学习艺术家的独特风格，实现照片涂鸦和装饰性元素生成。

# 图像识别 # 人工智能 # 自然语言处理 # 搜索推荐 # 物联网

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

结合DeepSeek-R1强化学习方法的视觉模型！VLM-R1：输入描述就能精确定位图像目标

VLM-R1 是基于强化学习技术的视觉语言模型，通过自然语言指令精确定位图像目标，支持复杂场景推理与高效训练。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 决策智能 # 开发者

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

MME-CoT：多模态模型推理能力终极评测！六大领域细粒度评估，港中大等机构联合推出

MME-CoT 是由港中文等机构推出的用于评估大型多模态模型链式思维推理能力的基准测试框架，涵盖数学、科学、OCR、逻辑、时空和一般场景等六个领域，提供细粒度的推理质量、鲁棒性和效率评估。

# 图像识别 # 存储 # 人工智能 # 文字识别 # 测试技术

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

MeteoRA：多任务AI框架革新！动态切换+MoE架构，推理效率提升200%

MeteoRA 是南京大学推出的多任务嵌入框架，基于 LoRA 和 MoE 架构，支持动态任务切换与高效推理。

# 图像识别 # 人工智能 # 自然语言处理 # 并行计算 # 物联网 # 异构计算

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

LazyLLM：还在为AI应用开发掉头发？商汤开源智能体低代码开发工具，三行代码部署聊天机器人

LazyLLM 是一个低代码开发平台，可帮助开发者快速构建多智能体大语言模型应用，支持一键部署、跨平台操作和多种复杂功能。

# 图像识别 # 人工智能 # 机器人 # 开发工具 # 决策智能 # 开发者

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

MoneyPrinterTurbo：23.9K Star！这个AI把写文案+找素材+剪视频全包了，日更10条不是梦

MoneyPrinterTurbo 是一款功能强大的 AI 工具，支持通过主题或关键词自动生成视频文案、素材、字幕与背景音乐，并合成高清短视频，适合批量生成与多语言支持。

# 图像识别 # 人工智能 # 前端开发 # API # 语音技术 # Windows

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

AgentSociety：告别纸上谈兵！AI社会模拟器预判政策漏洞：输入新规秒看30年后社会形态

AgentSociety 是清华大学推出的基于大语言模型的社会模拟器，通过构建类人心智的智能体模拟复杂社会行为，适用于政策沙盒测试、危机预警等场景。

# 图像识别 # 人工智能 # 分布式计算 # 监控 # 安全 # Python

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别