图像识别的搜索结果_文章_第14页-阿里云开发者社区

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

OpenEMMA：德克萨斯开源端到端的自动驾驶多模态模型框架，基于预训练的 MLLMs，处理复杂的视觉数据，推理驾驶场景

OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架，基于预训练的多模态大型语言模型处理视觉数据和复杂驾驶场景的推理。

# 图像识别 # 传感器 # 人工智能 # 自动驾驶 # API # 数据处理

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

StockMixer：上海交大推出预测股票价格的 MLP 架构，通过捕捉指标、时间和股票间的复杂相关性，预测下一个交易日的收盘价

StockMixer 是上海交通大学推出的基于多层感知器的股票价格预测架构，通过指标、时间和股票混合实现高效预测。

# 图像识别 # 人工智能 # 算法 # 测试技术 # 决策智能 # Python

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

AgiBot World：智元机器人开源百万真机数据集，数据集涵盖了日常生活所需的绝大多数动作

AgiBot World 是智元机器人开源的百万真机数据集，旨在推动具身智能的发展，覆盖家居、餐饮、工业等五大核心场景。

# 图像识别 # 数据采集 # 传感器 # 人工智能 # 机器人

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

GraphAgent：自动构建知识图谱，能够处理结构化和非结构化数据，并通过知识图谱展示复杂关系

GraphAgent 是香港大学和香港科技大学联合推出的智能图形语言助手，能够处理结构化和非结构化数据，并通过知识图谱展示复杂关系。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # API # 知识图谱

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

AGUVIS：指导模型实现 GUI 自动化训练框架，结合视觉-语言模型进行训练，实现跨平台自主 GUI 交互

AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架，能够在多种平台上实现自主 GUI 交互，结合显式规划和推理，提升复杂数字环境中的导航和交互能力。

# 图像识别 # 自然语言处理 # 人工智能 # 编解码 # 自然语言处理 # 测试技术 # PyTorch

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Valley：字节跳动开源小体积的多模态模型，在小于 10B 参数的模型中排名第二

Valley 是字节跳动推出的多模态大模型，能够处理文本、图像和视频数据，在电子商务和短视频领域表现优异，并在 OpenCompass 测试中排名第二。

# 图像识别 # 人工智能 # 测试技术

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

FinRobot：开源的金融专业 AI Agent，提供市场预测、报告分析和交易策略等金融解决方案

FinRobot 是一个开源的 AI Agent 平台，专注于金融领域的应用，通过大型语言模型（LLMs）构建复杂的金融分析和决策工具，提供市场预测、文档分析和交易策略等多种功能。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 算法 # 数据可视化

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Vision Parse：开源的 PDF 转 Markdown 工具，结合视觉语言模型和 OCR，识别文本和表格并保持原格式

Vision Parse 是一款开源的 PDF 转 Markdown 工具，基于视觉语言模型，能够智能识别和提取 PDF 中的文本和表格，并保持原有格式和结构。

# 图像识别 # 自然语言处理 # 人工智能 # 文字识别 # 自然语言处理 # API # Python

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

EDTalk：只需上传图片、音频和视频，就能使图片中的人物说话，情感表情与音频情绪高度统一

EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型，能够独立控制嘴型、头部姿态和情感表情，适用于多种应用场景。

# 图像识别 # 人工智能

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

CogAgent-9B：智谱 AI 开源 GLM-PC 的基座模型，专注于预测和执行 GUI 操作，可应用于自动化交互任务

CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型，支持高分辨率图像处理和双语交互，能够预测并执行GUI操作，广泛应用于自动化任务。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 测试技术 # 计算机视觉

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别