图像识别的搜索结果_第10页-阿里云开发者社区

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

AnythingLLM：34K Star！一键上传文件轻松打造个人知识库，构建只属于你的AI助手，附详细部署教程

AnythingLLM 是一个全栈应用程序，能够将文档、资源转换为上下文，支持多种大语言模型和向量数据库，提供智能聊天功能。

# 云原生数据仓库 AnalyticDB PostgreSQL版 # 图像识别 # 人工智能 # 资源调度 # API # Docker # 容器

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用，支持多模态交互、多种主流模型选择、离线运行及性能优化。

# 图像识别 # 机器学习/深度学习 # 存储 # 人工智能 # 自然语言处理 # Android开发

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

OCRmyPDF：16.5K Star！快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

OCRmyPDF 是一款开源命令行工具，专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。

# 图像识别 # 人工智能 # 编解码 # 文字识别 # iOS开发 # MacOS

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Oumi：开源的AI模型一站式开发平台，涵盖训练、评估和部署模型的综合性平台

Oumi 是一个完全开源的 AI 平台，支持从 1000 万到 4050 亿参数的模型训练，涵盖文本和多模态模型，提供零样板代码开发体验。

# GPU云服务器 # 图像识别 # 人工智能 # 物联网 # 开发者 # 异构计算

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

VARGPT：将视觉理解与生成统一在一个模型中，北大推出支持混合模态输入与输出的多模态统一模型

VARGPT是北京大学推出的多模态大语言模型，专注于视觉理解和生成任务，支持混合模态输入和高质量图像生成。

# 图像识别 # 人工智能 # 测试技术

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

YuE：开源AI音乐生成模型，能够将歌词转化为完整的歌曲，支持多种语言和多种音乐风格

YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型，能够将歌词转化为完整的歌曲，支持多种音乐风格和多语言。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 内存技术

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Janus-Pro：DeepSeek 开源的多模态模型，支持图像理解和生成

Janus-Pro是DeepSeek推出的一款开源多模态AI模型，支持图像理解和生成，提供1B和7B两种规模，适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型，显著提升了文本到图像的生成能力和指令跟随性能。

# 图像识别 # 人工智能 # 自然语言处理 # 计算机视觉 # 开发者 # Python

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Baichuan-Omni-1.5：百川智能开源全模态理解与生成模型，支持文本、图像、音频和视频的多模态输入和输出

Baichuan-Omni-1.5 是百川智能开源的全模态理解模型，支持文本、图像、音频和视频的多模态输入和输出，显著提升多模态交互体验。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 数据库 # UED

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

FilmAgent：多智能体共同协作制作电影，哈工大联合清华推出 AI 驱动的自动化电影制作工具

FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具，通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。

# 图像识别 # 人工智能 # 自然语言处理 # 语音技术 # 决策智能 # 图形学

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

VideoLLaMA3：阿里达摩院开源专注于视觉理解的多模态基础模型，具备多语言视频理解能力

VideoLLaMA3 是阿里巴巴开源的多模态基础模型，专注于图像和视频理解，支持多语言生成、视频内容分析和视觉问答任务，适用于多种应用场景。

# 图像识别 # 自然语言处理 # 人工智能 # 自然语言处理 # 达摩院 # 并行计算 # PyTorch

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别