文档备案控制台

图像识别

# 图像识别 #

0 关注

1226内容

相关子社区

ModelScope模型即服务

15280内容 6活动 4273关注

最新热门文章问答视频训练营活动

剑生

|

博文

|

来自：视觉智能

大规模图像识别场景中的实体存储与检索

背景图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术。图片识别功能基于图片AI技术，能够检测图片标签和置信度。当前图片识别分析出的数据越来越丰富，随着实体信息（含原始数据及处理后的结构化元数据信息）的不断膨胀也带来了更多挑战。首先，如何弹性存储无限增长的海量数据并保证数据不丢不错。其次，信息存储后如何进行后续数据管控分析，如何从多个维度对外提供服务。这些对

# 图像识别 # 对象存储 # 表格存储 # 云数据库 RDS MySQL 版 # 视觉智能开放平台 # 存储 # SQL # JSON # NoSQL # 关系型数据库 # MySQL # MongoDB # 对象存储 # 数据格式 # 索引

wljslmz

|

博文

卷积神经网络（CNN）在图像识别中的应用与优化

卷积神经网络（CNN）在图像识别中的应用与优化

# 图像识别 # 机器学习/深度学习 # 算法 # 计算机视觉

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Florence-VL：微软和马里兰大学共同开源的多模态大语言模型

Florence-VL是由微软和马里兰大学共同开源的多模态大语言模型，结合生成式视觉基础模型Florence-2和深度-广度融合技术，实现视觉与语言理解的深度融合，适用于多种下游任务。

# 图像识别 # 人工智能 # 文字识别 # 测试技术

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

VMB：中科院联合多所高校推出多模态音乐生成框架，能够通过文本、图像和视频等多种输入生成音乐

VMB（Visuals Music Bridge）是由中科院联合多所高校机构推出的多模态音乐生成框架，能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 安全 # vr&ar

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

VideoLLaMA3：阿里达摩院开源专注于视觉理解的多模态基础模型，具备多语言视频理解能力

VideoLLaMA3 是阿里巴巴开源的多模态基础模型，专注于图像和视频理解，支持多语言生成、视频内容分析和视觉问答任务，适用于多种应用场景。

# 图像识别 # 自然语言处理 # 人工智能 # 自然语言处理 # 达摩院 # 并行计算 # PyTorch

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

FilmAgent：多智能体共同协作制作电影，哈工大联合清华推出 AI 驱动的自动化电影制作工具

FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具，通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。

# 图像识别 # 人工智能 # 自然语言处理 # 语音技术 # 决策智能 # 图形学

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Baichuan-Omni-1.5：百川智能开源全模态理解与生成模型，支持文本、图像、音频和视频的多模态输入和输出

Baichuan-Omni-1.5 是百川智能开源的全模态理解模型，支持文本、图像、音频和视频的多模态输入和输出，显著提升多模态交互体验。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 数据库 # UED

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

ToddlerBot：告别百万经费！6000刀就能造人形机器人，斯坦福开源全套方案普及机器人研究

ToddlerBot 是斯坦福大学推出的低成本开源人形机器人平台，支持强化学习、模仿学习和零样本模拟到现实转移，适用于运动操作研究和多场景应用。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 算法 # 数据可视化 # 机器人

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

重定义数字人交互！OmniTalker：阿里推出实时多模态说话头像生成框架，音视频实现唇语级同步

阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成，创新性采用TMRoPE技术确保音视频同步，支持流式多模态输入处理。

# 虚拟数字人 # 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # 机器人 # 语音技术

阿里云OpenVI

|

博文

|

来自：视觉智能

【视觉智能产品速递——视频人脸融合产品能力升级】

本文介绍视频生产（videoenhan）类目下的通用视频人脸融合MergeVideoFace的功能介绍以及代码示例。

# 图像识别 # 对象存储 # 视觉智能开放平台 # XML # JSON # 算法 # 数据格式

1

...

13

14

15

...

20

免费试用