图像识别的搜索结果_热门_第18页-阿里云开发者社区

南修子

|

问答

|

来自： ModelScope模型即服务

!pip install open_clip_torch !pip install pytorch-

# 图像识别

真的很搞笑

|

问答

|

来自：视觉智能

视觉智能平台根据官方接口案例，用Java调用图像识别->元素识别接口时候，提示我？

# 图像识别 # 视觉智能开放平台 # Java

董董灿是个攻城狮

|

博文

|

来自：视觉智能

Resnet图像识别入门—— 图像的色彩空间

了解图像的色彩空间会让你对像素有更多的认识。

# 图像识别 # 视觉智能开放平台 # 机器学习/深度学习 # 存储 # 编解码 # 算法 # 计算机视觉 # 芯片

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

EDTalk：只需上传图片、音频和视频，就能使图片中的人物说话，情感表情与音频情绪高度统一

EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型，能够独立控制嘴型、头部姿态和情感表情，适用于多种应用场景。

# 图像识别 # 人工智能

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具，基于GPT-4o-mini模型，支持PDF、DOCX、图片等多种格式文件，能够零样本识别复杂布局文档，输出Markdown格式结果。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 文字识别 # API # 开发者

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Omnitool：开发者桌面革命！开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台，本地运行不联网

Omnitool 是一款开源的 AI 桌面环境，支持本地运行，提供统一交互界面，快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台，具备高度扩展性。

# 图像识别 # 人工智能 # Linux # API # 开发者 # Windows

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Flame：开源AI设计图转代码模型！生成React组件，精准还原UI+动态交互效果

Flame 是一款开源的多模态 AI 模型，能够将 UI 设计图转换为高质量的现代前端代码，支持 React 等主流框架，具备动态交互、组件化开发等功能，显著提升前端开发效率。

# 图像识别 # 人工智能 # 自然语言处理 # 前端开发 # JavaScript # API

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

SongGen：三秒克隆音色！开源AI一键生成专业级歌曲，创作人必备神器

SongGen是由上海AI Lab、北京航空航天大学和香港中文大学联合推出的单阶段自回归Transformer模型，能够通过文本生成高质量歌曲，支持混合模式和双轨模式，显著提升生成歌曲的自然度和人声清晰度。

# 图像识别 # 数据采集 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 搜索推荐

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Proxy Lite：仅3B参数的开源视觉模型！快速实现网页自动化，支持在消费级GPU上运行

Proxy Lite 是一款开源的轻量级视觉语言模型，支持自动化网页任务，能够像人类一样操作浏览器，完成网页交互、数据抓取、表单填写等重复性工作，显著降低自动化成本。

# GPU云服务器 # 图像识别 # 人工智能 # 自然语言处理 # API # 开发者 # 异构计算

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

月之暗面开源16B轻量级多模态视觉语言模型！Kimi-VL：推理仅需激活2.8B，支持128K上下文与高分辨率输入

月之暗面开源的Kimi-VL采用混合专家架构，总参数量16B推理时仅激活2.8B，支持128K上下文窗口与高分辨率视觉输入，通过长链推理微调和强化学习实现复杂任务处理能力。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # 网络架构 # 异构计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别