图像识别的搜索结果_热门_第13页-阿里云开发者社区

韩俊强

|

问答

人工智能发展到今天起关键作用的是算法还是算力？

# 图像识别 # 自然语言处理 # 人工智能 # 自然语言处理 # 算法 # 机器人

nicenelly

|

问答

|

来自：视觉智能

图像识别计费说明

# 图像识别 # 视觉智能开放平台 # 数据处理 # 黑灰产治理

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Qwen2VL-Flux：开源的多模态图像生成模型，支持多种生成模式

Qwen2VL-Flux 是一个开源的多模态图像生成模型，结合了 Qwen2VL 的视觉语言理解和 FLUX 框架，能够基于文本提示和图像参考生成高质量的图像。该模型支持多种生成模式，包括变体生成、图像到图像转换、智能修复及 ControlNet 引导生成，具备深度估计和线条检测功能，提供灵活的注意力机制和高分辨率输出，是一站式的图像生成解决方案。

# 图像识别 # 机器学习/深度学习 # 人工智能

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Mini-InternVL：轻量级多模态大模型，4B 参数量媲美 InternVL2-76B

Mini-InternVL 是上海AI Lab联合清华等机构推出的轻量级多模态大模型，支持高效推理、跨领域适应和动态分辨率输入，适用于多种场景。

# 图像识别 # 人工智能 # 编解码 # 测试技术 # 计算机视觉

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具，基于GPT-4o-mini模型，支持PDF、DOCX、图片等多种格式文件，能够零样本识别复杂布局文档，输出Markdown格式结果。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 文字识别 # API # 开发者

蚝油菜花

|

6月前

|

博文

|

来自： ModelScope模型即服务

Mureka V6：10语种AI音乐工厂！昆仑万维「声场黑科技」颠覆作曲

昆仑万维推出的Mureka V6 AI音乐创作基座模型，支持10种语言歌词生成和纯音乐创作，通过自研ICL技术实现声场优化，覆盖爵士/电子/流行等多元风格，为音乐爱好者和专业创作者提供高效工具。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 数据库 # 决策智能 # Swift

蚝油菜花

|

5月前

|

博文

|

来自： ModelScope模型即服务

别让创意卡在工具链！MiniMax MCP Server：MiniMax 开源 MCP 服务打通多模态生成能力，视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件，支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力，兼容主流客户端实现跨平台调用，采用检索增强生成技术保障内容准确性。

# 图像识别 # 人工智能 # 中间件 # API # 语音技术 # 开发者

1744812029540769

|

博文

人工智能快速发展趋势下，中国该如何应对？

人工智能技术的迅猛发展为中国带来了巨大的机遇和挑战。中国应该积极应对人工智能的发展趋势，加强技术研发和人才培养，推动人工智能技术的应用和创新，加强人工智能技术的监管和管理，以实现经济社会的可持续发展。

# 机器翻译 # 图像识别 # 自然语言处理 # 智能语音交互 # 云原生大数据计算服务 MaxCompute # GPU云服务器 # 智能语音交互 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 算法 # 机器人 # 语音技术 # 决策智能 # 芯片 # 计算机视觉 # AI芯片

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

VMB：中科院联合多所高校推出多模态音乐生成框架，能够通过文本、图像和视频等多种输入生成音乐

VMB（Visuals Music Bridge）是由中科院联合多所高校机构推出的多模态音乐生成框架，能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 安全 # vr&ar

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

OpenEMMA：德克萨斯开源端到端的自动驾驶多模态模型框架，基于预训练的 MLLMs，处理复杂的视觉数据，推理驾驶场景

OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架，基于预训练的多模态大型语言模型处理视觉数据和复杂驾驶场景的推理。

# 图像识别 # 传感器 # 人工智能 # 自动驾驶 # API # 数据处理

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别