视觉智能开放平台的搜索结果_热门_第13页-阿里云开发者社区

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

LatentSync：根据音频生成高分辨率、动态逼真的唇形同步视频

LatentSync 是由字节跳动与北京交通大学联合推出的端到端唇形同步框架，基于音频条件的潜在扩散模型，能够生成高分辨率、动态逼真的唇同步视频，适用于影视、教育、广告等多个领域。

# 视觉智能开放平台 # 人工智能 # 数据处理

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

JoyGen：用音频生成3D说话人脸视频，快速生成逼真的唇部同步视频

JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架，支持多语言、高质量视觉效果和精确的唇部与音频同步。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 计算机视觉

yukiji0701

|

5月前

|

博文

|

来自：视觉智能

AI视觉新突破：多角度理解3D世界的算法原理全解析

多视角条件扩散算法通过多张图片输入生成高质量3D模型，克服了单图建模背面细节缺失的问题。该技术模拟人类多角度观察方式，结合跨视图注意力机制与一致性损失优化，大幅提升几何精度与纹理保真度，成为AI 3D生成的重要突破。

# 云解析DNS # 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 编解码 # 算法 # PyTorch

真的很搞笑

|

问答

|

来自： ModelScope模型即服务

连接不上Modelscope，可以怎么解决？就在国外…昨天晚上用不了的，HTTPConnection

# 视觉智能开放平台

三分钟热度的鱼

|

问答

|

来自：视觉智能

文字识别OCR这种手写的文字，识别准确率很低呀，如何调整？

# 文字识别 # 视觉智能开放平台 # 文字识别

六月的雨在钉钉

|

博文

|

来自：视觉智能

Image Search-这是你的图像搜索

简要讲述一下什么是图像搜索，什么应用场景，怎么用相关内容

# 图像搜索 # 对象存储 # 视觉智能开放平台 # 机器学习/深度学习 # JSON # 文字识别 # 搜索推荐 # 对象存储 # 数据格式

ModelScope运营小助手

|

博文

|

来自： ModelScope模型即服务

关键点检测从入门到进阶

关键点检测，也被称作关键点定位或关键点对齐（keypoint alignment），在不同的任务中名字可能略有差异。比如，在人脸关键点定位中会被称作facemark alignment，在人体关键点检测中称作pose alignment。

# 视觉智能开放平台 # GPU云服务器 # 机器学习/深度学习 # 人工智能 # 编解码 # JSON # 数据可视化 # 开发工具 # 数据安全/隐私保护 # 计算机视觉 # 数据格式 # 异构计算

aqi00

|

博文

|

来自：视觉智能

FFmpeg开发笔记（一）搭建Linux系统的开发环境

本文指导初学者如何在Linux上搭建FFmpeg开发环境。首先，由于FFmpeg依赖第三方库，可以免去编译源码的复杂过程，直接安装预编译的FFmpeg动态库。推荐网站<https://github.com/BtbN/FFmpeg-Builds/releases>提供适用于不同系统的FFmpeg包。但在安装前，需确保系统有不低于2.22版本的glibc库。详细步骤包括下载glibc-2.23源码，配置、编译和安装。接着，下载Linux版FFmpeg安装包，解压至/usr/local/ffmpeg，并设置环境变量。最后编写和编译简单的C或C++测试程序验证FFmpeg环境是否正确配置。

# 视觉智能开放平台 # Linux # API # C语言 # C++ # Python

aqi00

|

博文

|

来自：视觉智能

FFmpeg开发笔记（二十四）Linux环境给FFmpeg集成AV1的编解码器

AV1是一种高效免费的视频编码标准，由AOM联盟制定，相比H.265压缩率提升约27%。各大流媒体平台倾向使用AV1。本文介绍了如何在Linux环境下为FFmpeg集成AV1编解码库libaom、libdav1d和libsvtav1。涉及下载源码、配置、编译和安装步骤，包括设置环境变量以启用这三个库。

# 视觉智能开放平台 # Linux # 编解码 # Python # 开发者

aqi00

|

博文

|

来自：视觉智能

FFmpeg开发笔记（四十八）从0开始搭建直播系统的开源软件架构

音视频技术广泛应用于直播系统，涵盖电视、电脑、手机直播等多种形式，并延伸至在线教育、医疗咨询和安全监控等领域。直播系统涉及实时编解码与传输，技术实现较复杂。从用户角度看，直播系统分为来源方和观看方，但在开发者视角下还需加入云平台作为中转。本文提出一套基于全开源软件的直播系统架构，分为三层：开源直播录制软件（如OBS Studio、RTMP Streamer），开源流媒体服务器（如SRS、ZLMediaKit），以及开源音视频播放器（如VLC media player、ExoPlayer）。这些组件共同构成一个高效、灵活且成本低廉的直播解决方案。

# 视觉智能开放平台 # Web App开发 # 编解码 # Linux # Android开发 # 开发者

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

视觉智能开放平台