图像识别的搜索结果_热门_第19页-阿里云开发者社区

livingbody

|

博文

目标检测概述——YOLOv4详解

# 图像识别 # 机器学习/深度学习 # 人工智能 # 算法 # 固态存储 # 自动驾驶 # 安全 # 数据处理 # 计算机视觉 # 异构计算

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Documind：开源 AI 文档处理工具，将 PDF 转换为图像提取结构化数据

Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具，支持灵活的本地或云端部署。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 文字识别 # API

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Gemini 2.0：谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型

谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型，以Agent技术为核心，支持多种数据类型的输入与输出，具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。

# 图像识别 # 自然语言处理 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 算法 # 测试技术

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

结合DeepSeek-R1强化学习方法的视觉模型！VLM-R1：输入描述就能精确定位图像目标

VLM-R1 是基于强化学习技术的视觉语言模型，通过自然语言指令精确定位图像目标，支持复杂场景推理与高效训练。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 决策智能 # 开发者

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

从商业海报到二次元插画多风格通吃！HiDream-I1：智象未来开源文生图模型，17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型，采用扩散模型技术和混合专家架构，在图像质量、提示词遵循能力等方面表现优异，支持多种风格生成。

# 图像识别 # 人工智能 # 并行计算 # 测试技术 # 网络架构 # 内存技术

云攻略小攻

|

博文

阿里云开放阿里巴巴三大核心AI：图像搜索、语音自学习、机器翻译

7月18日，阿里云正式发布了三款人工智能产品：图像搜索、智能语音自学习平台以及机器翻译，三款产品由阿里云与阿里巴巴机器智能技术实验室联合自主研发，旨在为不同行业的用户提供业界领先的人工智能解决方案，进一步推动产业AI的落地。

# 机器翻译 # 图像搜索 # 智能语音交互 # 图像识别 # 智能语音交互 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 语音技术 # 数据库 # 计算机视觉 # 异构计算 # 工业大脑 # 机器人 # 算法

云攻略小攻

|

博文

阿里云新品发布会周刊第41期丨云服务器ECS共享标准型S6全新发布，行业内最具性价比

新产品、新版本、新技术、新功能、价格调整，评论在下方，下期更新！关注更多新品发布会！

# 云服务器 ECS # 图像识别 # 云原生大数据计算服务 MaxCompute # 视觉智能开放平台 # 云解析DNS # 人工智能 # 弹性计算 # 安全 # 网络协议 # 大数据 # Java # 网络安全 # 数据库 # 网络虚拟化 # 开发者

阿里云OpenVI

|

博文

|

来自：视觉智能

【视觉智能AI场景解决方案——AI视频互动娱乐】

如今我们正逐渐进入一个智能化时代，AI视频互动娱乐在娱乐场景中被广泛应用。它利用先进的人工智能技术和互动性强的视频娱乐形式，为用户带来全新的娱乐体验。无论是与虚拟角色互动竞技，还是参与丰富多样的虚拟现实体验，AI视频互动娱乐都能让用户沉浸其中。现如今我们可以在电子游戏、电影、电视节目等传统娱乐形式中见到视觉AI的影子。那么，AI和我们的生活娱乐中能撞出什么火花？来看看当下最火爆的视频互娱新玩法吧~

# 图像识别 # 视觉智能开放平台 # 人工智能 # vr&ar

泡沫o0

|

博文

探索Qt图像处理的奥秘：从入门到精通

# 云解析DNS # GPU云服务器 # 图像识别 # Linux # 编译器 # API # 计算机视觉 # 异构计算

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

POINTS 1.5：腾讯微信开源的多模态大模型，超越了业界其他的开源视觉语言模型，具备强大的视觉和语言处理能力

POINTS 1.5是腾讯微信推出的多模态大模型，基于LLaVA架构，具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色，是全球10B以下开源模型中的佼佼者。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 文字识别 # 自然语言处理 # 计算机视觉

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别