视觉智能开放平台

首页 标签 视觉智能开放平台
FFmpeg开发笔记(一)搭建Linux系统的开发环境
本文指导初学者如何在Linux上搭建FFmpeg开发环境。首先,由于FFmpeg依赖第三方库,可以免去编译源码的复杂过程,直接安装预编译的FFmpeg动态库。推荐网站<https://github.com/BtbN/FFmpeg-Builds/releases>提供适用于不同系统的FFmpeg包。但在安装前,需确保系统有不低于2.22版本的glibc库。详细步骤包括下载glibc-2.23源码,配置、编译和安装。接着,下载Linux版FFmpeg安装包,解压至/usr/local/ffmpeg,并设置环境变量。最后编写和编译简单的C或C++测试程序验证FFmpeg环境是否正确配置。
HunyuanVideo:腾讯推出的开源视频生成模型,参数高达130亿
腾讯推出的开源视频生成模型HunyuanVideo,拥有130亿参数,是目前参数量最大的开源视频模型之一。该模型具备物理模拟、高文本语义还原度、动作一致性和电影级画质等特性,能生成带有背景音乐的视频,推动了视频生成技术的发展和应用。
VITRON:开源像素级视觉大模型,同时满足图像与视频理解、生成、分割和编辑等视觉任务
VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大模型,支持图像与视频的理解、生成、分割和编辑,适用于多种视觉任务。
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且时间平滑的视频。
DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频
DreamActor-M1是字节跳动研发的AI图像动画框架,通过混合引导机制实现高保真人物动画生成,支持多语言语音驱动和形状自适应功能。
这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型,通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。
|
18天前
| |
来自: 视觉智能
2025 年度机器视觉公司有哪些:从技术实力到落地案例的全方位选型参考
在智能制造背景下,机器视觉成为提质增效关键。本文发布2025年度机器视觉公司评估,从技术、场景、服务三大维度解析领先企业方案,聚焦苏州德创测控等代表,涵盖核心技术、落地案例与产教融合,为制造企业选型提供权威参考,助力智能升级。
免费试用