图像识别的搜索结果_文章_第10页-阿里云开发者社区

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

VARGPT：将视觉理解与生成统一在一个模型中，北大推出支持混合模态输入与输出的多模态统一模型

VARGPT是北京大学推出的多模态大语言模型，专注于视觉理解和生成任务，支持混合模态输入和高质量图像生成。

# 图像识别 # 人工智能 # 测试技术

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

YuE：开源AI音乐生成模型，能够将歌词转化为完整的歌曲，支持多种语言和多种音乐风格

YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型，能够将歌词转化为完整的歌曲，支持多种音乐风格和多语言。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 内存技术

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Janus-Pro：DeepSeek 开源的多模态模型，支持图像理解和生成

Janus-Pro是DeepSeek推出的一款开源多模态AI模型，支持图像理解和生成，提供1B和7B两种规模，适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型，显著提升了文本到图像的生成能力和指令跟随性能。

# 图像识别 # 人工智能 # 自然语言处理 # 计算机视觉 # 开发者 # Python

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Baichuan-Omni-1.5：百川智能开源全模态理解与生成模型，支持文本、图像、音频和视频的多模态输入和输出

Baichuan-Omni-1.5 是百川智能开源的全模态理解模型，支持文本、图像、音频和视频的多模态输入和输出，显著提升多模态交互体验。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 数据库 # UED

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

FilmAgent：多智能体共同协作制作电影，哈工大联合清华推出 AI 驱动的自动化电影制作工具

FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具，通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。

# 图像识别 # 人工智能 # 自然语言处理 # 语音技术 # 决策智能 # 图形学

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

VideoLLaMA3：阿里达摩院开源专注于视觉理解的多模态基础模型，具备多语言视频理解能力

VideoLLaMA3 是阿里巴巴开源的多模态基础模型，专注于图像和视频理解，支持多语言生成、视频内容分析和视觉问答任务，适用于多种应用场景。

# 图像识别 # 自然语言处理 # 人工智能 # 自然语言处理 # 达摩院 # 并行计算 # PyTorch

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

用自然语言控制电脑，字节跳动开源 UI-TARS 的桌面版应用！内附详细的安装和配置教程

UI-TARS Desktop 是一款基于视觉语言模型的 GUI 代理应用，支持通过自然语言控制电脑操作，提供跨平台支持、实时反馈和精准的鼠标键盘控制。

# 自然语言处理 # 图像识别 # 人工智能 # 自然语言处理 # API # iOS开发 # MacOS

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

VideoChat-Flash：上海AI Lab开源高效处理超长视频的多模态大模型

VideoChat-Flash 是上海人工智能实验室等机构推出的多模态大模型，通过分层压缩技术高效处理长视频，支持长达数小时的视频输入，推理速度提升5-10倍。

# 图像识别 # 人工智能 # 测试技术 # Python

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Doubao-1.5-pro：字节跳动最新豆包大模型，性能超越GPT-4o和Claude 3.5 Sonnet

豆包大模型1.5是字节跳动推出的最新大模型，采用大规模稀疏MoE架构，支持多模态输入输出，具备低时延语音对话能力，综合性能优于GPT-4o和Claude 3.5 Sonnet。

# 图像识别 # 人工智能 # 编解码 # 算法 # 异构计算

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具，基于GPT-4o-mini模型，支持PDF、DOCX、图片等多种格式文件，能够零样本识别复杂布局文档，输出Markdown格式结果。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 文字识别 # API # 开发者

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别