图像识别的搜索结果_第11页-阿里云开发者社区

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Doubao-1.5-pro：字节跳动最新豆包大模型，性能超越GPT-4o和Claude 3.5 Sonnet

豆包大模型1.5是字节跳动推出的最新大模型，采用大规模稀疏MoE架构，支持多模态输入输出，具备低时延语音对话能力，综合性能优于GPT-4o和Claude 3.5 Sonnet。

# 图像识别 # 人工智能 # 编解码 # 算法 # 异构计算

ht896632

|

8月前

|

问答

|

来自： ModelScope模型即服务

MGeo介绍有提到“Query-POI库召回”任务的测评，但是在文章中没有看到该模型的使用代码案例

# 图像识别

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具，基于GPT-4o-mini模型，支持PDF、DOCX、图片等多种格式文件，能够零样本识别复杂布局文档，输出Markdown格式结果。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 文字识别 # API # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

moonshot-v1-vision-preview：月之暗面Kimi推出多模态视觉理解模型，支持图像识别、OCR文字识别、数据提取

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型，具备强大的图像识别、OCR文字识别和数据提取能力，支持API调用，适用于多种应用场景。

# 文字识别 # 图像识别 # 人工智能 # 文字识别 # API # Python

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

AutoMouser：AI Chrome扩展程序，实时跟踪用户的浏览器操作，自动生成自动化操作脚本

AutoMouser是一款Chrome扩展程序，能够实时跟踪用户交互行为，并基于OpenAI的GPT模型自动生成Selenium测试代码，简化自动化测试流程。

# 图像识别 # Web App开发 # 人工智能 # JSON # 测试技术 # Python

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

ParGo：字节与中山大学联合推出的多模态大模型连接器，高效对齐视觉与语言模态

ParGo 是字节与中山大学联合推出的多模态大模型连接器，通过全局与局部视角联合，提升视觉与语言模态的对齐效果，支持高效连接、细节感知与自监督学习。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 测试技术 # C++

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

OmAgent：轻松构建在终端设备上运行的 AI 应用，赋能手机、穿戴设备、摄像头等多种设备

OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架，支持多设备连接、高效模型集成，助力开发者快速构建复杂的多模态代理应用。

# 图像识别 # 人工智能 # 算法 # 前端开发 # NoSQL # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Uni-AdaFocus：清华大学开源高效视频理解框架，根据视频内容动态分配计算资源

Uni-AdaFocus 是清华大学推出的高效视频理解框架，通过自适应聚焦机制动态调整计算资源分配，显著提升视频处理效率。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 监控

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Mini-InternVL：轻量级多模态大模型，4B 参数量媲美 InternVL2-76B

Mini-InternVL 是上海AI Lab联合清华等机构推出的轻量级多模态大模型，支持高效推理、跨领域适应和动态分辨率输入，适用于多种场景。

# 图像识别 # 人工智能 # 编解码 # 测试技术 # 计算机视觉

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Pipecat实战：5步快速构建语音与AI整合项目，创建你的第一个多模态语音 AI 助手

Pipecat 是一个开源的 Python 框架，专注于构建语音和多模态对话代理，支持与多种 AI 服务集成，提供实时处理能力，适用于语音助手、企业服务等场景。

# 图像识别 # 智能语音交互 # 人工智能 # 数据处理 # 语音技术 # 开发者 # Python

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别