视觉智能开放平台的搜索结果_热门_第17页-阿里云开发者社区

蚝油菜花

|

博文

|

Director：构建视频智能体的 AI 框架，用自然语言执行搜索、编辑、合成和生成等复杂视频任务

Director 是一个构建视频智能体的 AI 框架，用户可以通过自然语言命令执行复杂的视频任务，如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施，集成了多个预构建的视频代理和 AI API，支持高度定制化，适用于开发者和创作者。

# 自然语言处理 # 视觉智能开放平台 # 人工智能 # 自然语言处理 # 前端开发 # API # 计算机视觉

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

CogVideoX-Flash：智谱首个免费AI视频生成模型，支持文生视频、图生视频，分辨率最高可达4K

CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型，支持文生视频、图生视频，最高支持4K分辨率，广泛应用于内容创作、教育、广告等领域。

# 视觉智能开放平台 # 人工智能 # 编解码

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Sitcom-Crafter：动画师失业警告！AI黑科技自动生成3D角色动作，剧情脚本秒变动画

Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统，通过多模块协同工作，支持人类行走、场景交互和多人交互，适用于动画、游戏及虚拟现实等领域。

# 视觉智能开放平台 # 数据采集 # 机器学习/深度学习 # 人工智能 # vr&ar # 异构计算

Holly007

|

1月前

|

博文

|

来自：视觉智能

AI内容创作Agent架构解析：基于移动端原生框架的内容特工队AI (ReelsAgent)与传统短视频工具的技术差异

传统的AI视频工具链往往基于单点功能堆栈或PC/Web端的SaaS架构，难以承载短视频营销所需的高频、高并发、全流程自动化需求。本文将从AI Agent系统架构角度，对比内容特工队AI (ReelsAgent)的移动端原生设计与现有主流工具的实现路径，以评估其在工程实践中的优劣。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # API # 微服务

真的很搞笑

|

问答

|

来自：视觉智能

目前OCR中如果部署在本地的话，识别速度怎么样？一张图片平均多久可以识别到

# 文字识别 # 视觉智能开放平台 # 文字识别 # 开发工具 # C# # 异构计算

多麻辣哦

|

问答

|

来自： ModelScope模型即服务

ModelScope中，请问用户可以免费使用的存储空间有限制吗？请问模型hub存储的空间限制是多大呢

# 视觉智能开放平台 # 存储

游客pj7nlkcvhvppi

|

28天前

|

博文

|

来自： ModelScope模型即服务

DeepSeek-OCR开源即获7k+星，首创“上下文光学压缩”技术，仅用100视觉token超越传统OCR模型256token性能，压缩比达10-20倍，精度仍超97%。30亿参数实现单卡日处理20万页，显著降低大模型长文本输入成本，重新定义高效文档理解新范式。

# 视觉智能开放平台 # 编解码 # 人工智能 # 文字识别 # 测试技术 # 开发者

青城山下庄文杰

|

问答

|

来自： ModelScope模型即服务

ModelScope模型是咋收费的, 是按机器每小时收费嘛？

# 视觉智能开放平台 # 云服务器 ECS # 弹性计算

三分钟热度的鱼

|

问答

|

来自：视觉智能

文字识别OCR能否识别checkbox的勾选状态？

# 文字识别 # 视觉智能开放平台 # 文字识别

三分钟热度的鱼

|

问答

|

来自：视觉智能

请问文字识别OCR的TaskId这个参数是什么意思？不是只要唯一就可以吗？

# 文字识别 # 视觉智能开放平台 # 文字识别

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

视觉智能开放平台