图像识别的搜索结果_热门_第11页-阿里云开发者社区

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Vision Parse：开源的 PDF 转 Markdown 工具，结合视觉语言模型和 OCR，识别文本和表格并保持原格式

Vision Parse 是一款开源的 PDF 转 Markdown 工具，基于视觉语言模型，能够智能识别和提取 PDF 中的文本和表格，并保持原有格式和结构。

# 图像识别 # 自然语言处理 # 人工智能 # 文字识别 # 自然语言处理 # API # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Agent Laboratory：AI自动撰写论文，AMD开源自动完成科研全流程的多智能体框架

Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架，基于大型语言模型，能够加速科学发现、降低成本并提高研究质量。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 决策智能 # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Pipecat实战：5步快速构建语音与AI整合项目，创建你的第一个多模态语音 AI 助手

Pipecat 是一个开源的 Python 框架，专注于构建语音和多模态对话代理，支持与多种 AI 服务集成，提供实时处理能力，适用于语音助手、企业服务等场景。

# 图像识别 # 智能语音交互 # 人工智能 # 数据处理 # 语音技术 # 开发者 # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

FilmAgent：多智能体共同协作制作电影，哈工大联合清华推出 AI 驱动的自动化电影制作工具

FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具，通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。

# 图像识别 # 人工智能 # 自然语言处理 # 语音技术 # 决策智能 # 图形学

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

AgentSociety：告别纸上谈兵！AI社会模拟器预判政策漏洞：输入新规秒看30年后社会形态

AgentSociety 是清华大学推出的基于大语言模型的社会模拟器，通过构建类人心智的智能体模拟复杂社会行为，适用于政策沙盒测试、危机预警等场景。

# 图像识别 # 人工智能 # 分布式计算 # 监控 # 安全 # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

SongGen：三秒克隆音色！开源AI一键生成专业级歌曲，创作人必备神器

SongGen是由上海AI Lab、北京航空航天大学和香港中文大学联合推出的单阶段自回归Transformer模型，能够通过文本生成高质量歌曲，支持混合模式和双轨模式，显著提升生成歌曲的自然度和人声清晰度。

# 图像识别 # 数据采集 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 搜索推荐

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Dify-Plus：企业级AI管理核弹！开源方案吊打SaaS，额度+密钥+鉴权系统全面集成

Dify-Plus 是基于 Dify 二次开发的企业级增强版项目，新增用户额度、密钥管理、Web 登录鉴权等功能，优化权限管理，适合企业场景使用。

# 图像识别 # 人工智能 # BI # API # 数据安全/隐私保护 # 容器

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

别让创意卡在工具链！MiniMax MCP Server：MiniMax 开源 MCP 服务打通多模态生成能力，视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件，支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力，兼容主流客户端实现跨平台调用，采用检索增强生成技术保障内容准确性。

# 图像识别 # 人工智能 # 中间件 # API # 语音技术 # 开发者

-开发达人-

|

博文

Orbeus 夏威：「嵌入式」和「云」是计算机视觉未来发展的两大方向

2012 年，Orbeus 的两位来自波士顿大学的联合创始人中止了原定的博士项目并拒绝了来自 Google 的 offer，毅然走向了创业的道路。2014 年，他们推出了一款手机终端图片搜索与管理软件 PhotoTime，早于 Google 发布的同类产品 Google Photos，甫一首发就被苹果商店选为当季最佳新应用。创业三年后，这家硅谷的明星创业公司被亚马逊所收购，开始了一段新的征程。

# 图像识别 # GPU云服务器 # 机器学习/深度学习 # 人工智能 # 算法 # API # 语音技术 # 数据中心 # 计算机视觉 # 开发者 # 异构计算 # 智能硬件

-开发达人-

|

博文

视频访谈百度IDL林元庆：百度大脑如何在人脸识别上战胜人类「最强大脑」

2017 年 1 月 6 日，百度首席科学家吴恩达带着小度机器人来到了《最强大脑》现场，与人类选手展开了对决，并在人脸识别比赛里以 3:2 的比分赢得胜利。Master 事件引发大众热议人工智能的余热未退，小度机器人又在跨年龄人脸识别挑战中战胜了本届最强大脑队长王峰——拥有数个世界冠军头衔的「世界记忆大师」。与以往主要考验空间搜索能力的人机 PK 不同，此次比拼主要集中在识别领域，而识别过程中需要模糊推理的能力，百度深度学习实验室（IDL）主任林元庆坦言，这场应战也并不轻松。

# IoT设备身份认证 # 图像识别 # 机器学习/深度学习 # 人工智能 # 算法 # 机器人 # 大数据 # 计算机视觉 # 异构计算 # 索引

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别