图像识别的搜索结果_热门_第18页-阿里云开发者社区

路人贾jia

|

博文

经典神经网络论文超详细解读（二）——VGGNet学习笔记（翻译＋精读）

# GPU云服务器 # 图像识别 # 函数计算 # 机器学习/深度学习 # 编解码 # 算法框架/工具 # 计算机视觉 # 异构计算

以山向海

|

博文

图像识别与处理

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # 算法 # 计算机视觉

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Kandinsky-3：开源的文本到图像生成框架，适应多种图像生成任务

Kandinsky-3 是一个开源的文本到图像生成框架，基于潜在扩散模型，能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成，包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构，提高了推理速度，同时保持了图像质量。

# 图像识别 # 人工智能 # 自然语言处理 # 网络性能优化 # 异构计算 # Python

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

LazyGraphRAG：微软推出的图形增强生成增强检索框架

LazyGraphRAG是微软研究院推出的图形增强生成增强检索框架，旨在大幅降低数据索引成本并提高查询效率。该框架结合了最佳优先搜索和广度优先搜索，支持本地和全局查询，适用于一次性查询、探索性分析和流数据处理。LazyGraphRAG将加入开源的GraphRAG库，为开发者和企业提供更高效的技术支持。

# 图像识别 # 人工智能 # 自然语言处理 # 数据处理 # 开发者 # 索引

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

StoryTeller：字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller是由字节跳动、上海交通大学和北京大学共同推出的全自动长视频描述生成系统。该系统通过音频视觉角色识别技术，结合低级视觉概念和高级剧情信息，生成详细且连贯的视频描述。StoryTeller在MovieQA任务中展现出比现有模型更高的准确率，适用于电影制作、视频内容分析、辅助视障人士等多个应用场景。

# 图像识别 # 人工智能 # 算法 # 数据挖掘

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

DiffSensei：AI 漫画生成框架，能生成内容可控的黑白漫画面板，支持多角色和布局控制

DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架，能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型（MLLM），支持多角色控制和精确布局控制，适用于漫画创作、个性化内容生成等多个领域。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 搜索推荐 # 计算机视觉

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

StockMixer：上海交大推出预测股票价格的 MLP 架构，通过捕捉指标、时间和股票间的复杂相关性，预测下一个交易日的收盘价

StockMixer 是上海交通大学推出的基于多层感知器的股票价格预测架构，通过指标、时间和股票混合实现高效预测。

# 图像识别 # 人工智能 # 算法 # 测试技术 # 决策智能 # Python

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

OpenEMMA：德克萨斯开源端到端的自动驾驶多模态模型框架，基于预训练的 MLLMs，处理复杂的视觉数据，推理驾驶场景

OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架，基于预训练的多模态大型语言模型处理视觉数据和复杂驾驶场景的推理。

# 图像识别 # 传感器 # 人工智能 # 自动驾驶 # API # 数据处理

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

VideoChat-Flash：上海AI Lab开源高效处理超长视频的多模态大模型

VideoChat-Flash 是上海人工智能实验室等机构推出的多模态大模型，通过分层压缩技术高效处理长视频，支持长达数小时的视频输入，推理速度提升5-10倍。

# 图像识别 # 人工智能 # 测试技术 # Python

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Baichuan-Omni-1.5：百川智能开源全模态理解与生成模型，支持文本、图像、音频和视频的多模态输入和输出

Baichuan-Omni-1.5 是百川智能开源的全模态理解模型，支持文本、图像、音频和视频的多模态输入和输出，显著提升多模态交互体验。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 数据库 # UED

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别