视觉智能开放平台的搜索结果_热门_第13页-阿里云开发者社区

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

VideoWorld：字节开源自回归视频生成模型，支持输入视频指导AI生成视频！弥补文本生成视频的短板

VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型，能够从未标注的视频数据中学习复杂知识，支持长期推理和规划任务。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 监控 # 机器人

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

ACE++：输入想法就能完成图像创作和编辑！阿里通义推出新版自然语言驱动的图像生成与编辑工具

ACE++ 是阿里巴巴通义实验室推出的升级版图像生成与编辑工具，支持多种任务，如高质量人物肖像生成、主题一致性保持和局部图像编辑。

# 自然语言处理 # 视觉智能开放平台 # 存储 # 人工智能 # 自然语言处理 # 物联网 # 计算机视觉

yukiji0701

|

5月前

|

博文

|

来自：视觉智能

AI视觉新突破：多角度理解3D世界的算法原理全解析

多视角条件扩散算法通过多张图片输入生成高质量3D模型，克服了单图建模背面细节缺失的问题。该技术模拟人类多角度观察方式，结合跨视图注意力机制与一致性损失优化，大幅提升几何精度与纹理保真度，成为AI 3D生成的重要突破。

# 云解析DNS # 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 编解码 # 算法 # PyTorch

游客pj7nlkcvhvppi

|

29天前

|

博文

|

来自： ModelScope模型即服务

DeepSeek-OCR开源即获7k+星，首创“上下文光学压缩”技术，仅用100视觉token超越传统OCR模型256token性能，压缩比达10-20倍，精度仍超97%。30亿参数实现单卡日处理20万页，显著降低大模型长文本输入成本，重新定义高效文档理解新范式。

# 视觉智能开放平台 # 编解码 # 人工智能 # 文字识别 # 测试技术 # 开发者

marquezx

|

博文

|

来自：视觉智能

OpenVI-感知理解系列之GAP骨骼点动作识别 ICCV23顶会论文深入解读

本文介绍了ICCV23中稿论文 GAP: Generative Action Description Prompts for Skeleton-based Action Recognition

# 视觉智能开放平台 # 自然语言处理 # 测试技术 # 计算机视觉 # 知识图谱

aqi00

|

博文

|

来自：视觉智能

FFmpeg开发笔记（三十）解析H.264码流中的SPS帧和PPS帧

《FFmpeg开发实战》书中介绍了音视频编码历史，重点讲述H.264的成功在于其分为视频编码层和网络抽象层。H.264帧类型包括SPS(序列参数集，含视频规格参数)，PPS(图像参数集，含编码参数)和IDR帧(立即解码刷新，关键帧)。SPS用于计算视频宽高和帧率，PPS存储编码设置，IDR帧则标志新的解码序列。书中还配以图片展示各帧结构详情，完整内容可参考相关书籍。

# 云解析DNS # 视觉智能开放平台 # 存储 # 编解码

aliyun5188233982-15207

|

博文

|

来自：视觉智能

如何使用深度学习实现图像分类

深度学习在图像分类中扮演着核心角色，通过卷积神经网络（CNN）自动提取图像特征并分类。本文介绍深度学习原理及其实现流程，包括数据准备、构建CNN模型、训练与评估模型，并讨论如何在阿里云上部署模型及其实用场景。

# 视觉智能开放平台 # 机器学习/深度学习 # API # 计算机视觉 # Docker # 容器

aqi00

|

博文

|

来自：视觉智能

FFmpeg开发笔记（四十八）从0开始搭建直播系统的开源软件架构

音视频技术广泛应用于直播系统，涵盖电视、电脑、手机直播等多种形式，并延伸至在线教育、医疗咨询和安全监控等领域。直播系统涉及实时编解码与传输，技术实现较复杂。从用户角度看，直播系统分为来源方和观看方，但在开发者视角下还需加入云平台作为中转。本文提出一套基于全开源软件的直播系统架构，分为三层：开源直播录制软件（如OBS Studio、RTMP Streamer），开源流媒体服务器（如SRS、ZLMediaKit），以及开源音视频播放器（如VLC media player、ExoPlayer）。这些组件共同构成一个高效、灵活且成本低廉的直播解决方案。

# 视觉智能开放平台 # Web App开发 # 编解码 # Linux # Android开发 # 开发者

aqi00

|

博文

|

来自：视觉智能

FFmpeg开发笔记（五十六）使用Media3的Exoplayer播放网络视频

ExoPlayer最初是为了解决Android早期MediaPlayer控件对网络视频兼容性差的问题而推出的。现在，Android官方已将其升级并纳入Jetpack的Media3库，使其成为音视频操作的统一引擎。新版ExoPlayer支持多种协议，解决了设备和系统碎片化问题，可在整个Android生态中一致运行。通过修改`build.gradle`文件、布局文件及Activity代码，并添加必要的权限，即可集成并使用ExoPlayer进行网络视频播放。具体步骤包括引入依赖库、配置播放界面、编写播放逻辑以及添加互联网访问权限。

# 视觉智能开放平台 # XML # 开发工具 # Android开发 # 数据格式

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

StereoCrafter：腾讯开源将任意2D视频转换为立体3D视频的框架，适用于Apple Vision Pro等多种显示设备

StereoCrafter 是腾讯开源的框架，能够将单目2D视频转换为高保真度的立体3D视频，适用于多种显示设备。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 编解码 # 并行计算 # 数据处理

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

视觉智能开放平台