图像识别的搜索结果_热门_第9页-阿里云开发者社区

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Agno：18.7K Star！快速构建多模态智能体的轻量级框架，运行速度比LangGraph快5000倍！

Agno 是一个用于构建多模态智能体的轻量级框架，支持文本、图像、音频和视频等多种数据模态，能够快速创建智能体并实现高效协作。

# 云原生数据仓库 AnalyticDB PostgreSQL版 # 图像识别 # 存储 # 人工智能 # 数据库 # 决策智能 # Python

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

VideoCaptioner：北大推出视频字幕处理神器，AI自动生成+断句+翻译，1小时工作量5分钟搞定

VideoCaptioner 是一款基于大语言模型的智能视频字幕处理工具，支持语音识别、字幕断句、优化、翻译全流程处理，并提供多种字幕样式和格式导出。

# 图像识别 # 智能语音交互 # 人工智能 # API # 语音技术 # iOS开发 # MacOS

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型，提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术，简化了图像分析流程，提高了开发效率，适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # API # 开发者

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

Wan2.1是阿里云开源的一款AI视频生成大模型，支持文生视频和图生视频任务，具备强大的视觉生成能力，性能超越Sora、Luma等国内外模型。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # API # 异构计算

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

音乐人必看！OpenUtau：开源AI歌声合成神器，快速打造专业级虚拟歌手，中文日文无缝切换

OpenUtau是一款开源的歌声合成工具，兼容UTAU音源库和重采样器，支持多语言界面及预渲染功能，让音乐创作更加高效便捷。

# 图像识别 # 人工智能 # Linux # iOS开发 # MacOS # Windows

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

MarkItDown：微软开源的多格式转Markdown工具，支持将PDF、Word、图像和音频等文件转换为Markdown格式

MarkItDown 是微软开源的多功能文档转换工具，支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式，具备 OCR 文字识别、语音转文字和元数据提取等功能。

# 图像识别 # 智能语音交互 # 人工智能 # 文字识别 # 数据挖掘 # API # 开发者

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Flame：开源AI设计图转代码模型！生成React组件，精准还原UI+动态交互效果

Flame 是一款开源的多模态 AI 模型，能够将 UI 设计图转换为高质量的现代前端代码，支持 React 等主流框架，具备动态交互、组件化开发等功能，显著提升前端开发效率。

# 图像识别 # 人工智能 # 自然语言处理 # 前端开发 # JavaScript # API

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Mobile-Agent：通过视觉感知实现自动化手机操作，支持多应用跨平台

Mobile-Agent 是一款基于多模态大语言模型的智能代理，能够通过视觉感知自主完成复杂的移动设备操作任务，支持跨应用操作和纯视觉解决方案。

# 图像识别 # XML # 人工智能 # 文字识别 # 自然语言处理 # 决策智能

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

AI对话像真人！交交：上海交大推出全球首个口语对话情感大模型，支持多语言与实时音色克隆

上海交通大学推出的交交是全球首个纯学术界自研的口语对话情感大模型，具备多语言交流、方言理解、角色扮演和情感互动等能力，通过创新技术实现端到端语音对话和实时音色克隆。

# 图像识别 # 人工智能 # 自然语言处理 # 搜索推荐 # 机器人

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

NotaGen：中央音乐学院联合清华推出AI音乐生成模型，古典乐谱一键生成，音乐性接近人类！

NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型，基于模仿大型语言模型的训练范式，能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式，显著提升了符号音乐生成的艺术性和可控性。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 并行计算 # 算法 # PyTorch

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别