图像识别的搜索结果_热门_第7页-阿里云开发者社区

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

用自然语言控制电脑，字节跳动开源 UI-TARS 的桌面版应用！内附详细的安装和配置教程

UI-TARS Desktop 是一款基于视觉语言模型的 GUI 代理应用，支持通过自然语言控制电脑操作，提供跨平台支持、实时反馈和精准的鼠标键盘控制。

# 自然语言处理 # 图像识别 # 人工智能 # 自然语言处理 # API # iOS开发 # MacOS

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Hunyuan3D 2.0：腾讯混元开源3D生成大模型！图生/文生秒建高精度模型，细节纹理自动合成

Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统，专注于从文本和图像生成高分辨率的 3D 模型，支持几何生成和纹理合成。

# 图像识别 # 人工智能 # PyTorch # API # 算法框架/工具 # 图形学

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

AI视频生成也能自动补全！Wan2.1 FLF2V：阿里通义开源14B视频生成模型，用首尾两帧生成过渡动画

万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型，基于DiT架构和高效视频压缩VAE，能够根据首尾帧图像自动生成5秒720p高清视频，支持多种风格变换和细节复刻。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # Apache # 异构计算

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Doubao-1.5-pro：字节跳动最新豆包大模型，性能超越GPT-4o和Claude 3.5 Sonnet

豆包大模型1.5是字节跳动推出的最新大模型，采用大规模稀疏MoE架构，支持多模态输入输出，具备低时延语音对话能力，综合性能优于GPT-4o和Claude 3.5 Sonnet。

# 图像识别 # 人工智能 # 编解码 # 算法 # 异构计算

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Agno：18.7K Star！快速构建多模态智能体的轻量级框架，运行速度比LangGraph快5000倍！

Agno 是一个用于构建多模态智能体的轻量级框架，支持文本、图像、音频和视频等多种数据模态，能够快速创建智能体并实现高效协作。

# 云原生数据仓库 AnalyticDB PostgreSQL版 # 图像识别 # 存储 # 人工智能 # 数据库 # 决策智能 # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Janus-Pro：DeepSeek 开源的多模态模型，支持图像理解和生成

Janus-Pro是DeepSeek推出的一款开源多模态AI模型，支持图像理解和生成，提供1B和7B两种规模，适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型，显著提升了文本到图像的生成能力和指令跟随性能。

# 图像识别 # 人工智能 # 自然语言处理 # 计算机视觉 # 开发者 # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

24.7K Star！用 KHOJ 打造你的AI第二大脑，自动整合和更新多源知识，轻松构建个人知识库

KHOJ 是一款开源的个人化 AI 助手，支持多源知识整合、语义搜索、个性化图像生成等功能，帮助用户高效管理知识库。

# 图像识别 # 人工智能 # 搜索推荐 # 开发工具 # Docker # 容器

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

FlowiseAI：34K Star！集成多种模型和100+组件的 LLM 应用低代码开发平台，拖拽组件轻松构建程序

FlowiseAI 是一款开源的低代码工具，通过拖拽可视化组件，用户可以快速构建自定义的 LLM 应用程序，支持多模型集成和记忆功能。

# 图像识别 # 人工智能 # 数据可视化 # 开发者 # Docker # 容器

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

MuCodec：清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建，适用于在线音乐流媒体服务、音乐下载、语言模型建设等多个应用场景。

# 图像识别 # 机器学习/深度学习 # 人工智能 # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Ola：清华联合腾讯等推出的全模态语言模型！实现对文本、图像、视频和音频的全面理解

Ola 是由清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型，支持文本、图像、视频和音频输入，并具备实时流式解码功能。

# 图像识别 # 人工智能 # 测试技术

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别