视觉智能开放平台

首页 标签 视觉智能开放平台
FFmpeg开发笔记(十五)详解MediaMTX的推拉流
MediaMTX是开源轻量级流媒体服务器,提供RTSP, RTMP, HLS, WebRTC和SRT服务。启动后,它在不同端口监听。通过FFmpeg的推拉流测试,证明了MediaMTX成功实现HLS流媒体转发,但HLS播放兼容性问题可能因缺少音频流导致。推流地址为rtsp://127.0.0.1:8554/stream,RTMP地址为rtmp://127.0.0.1:1935/stream,HLS播放地址为http://127.0.0.1:8888/stream(Chrome)和http://127.0.0.1:8888/stream/index.m3u8(其他播放器可能不支持)。
X-Dyna:一张图片就能实现动画化!字节联合斯坦福推出动画生成框架
X-Dyna 是由字节跳动联合斯坦福等高校推出的动画生成框架,基于扩散模型实现单张图像动画化,支持面部表情和身体动作控制,生成高质量动态细节。
BEN2:一键快速抠图!自动移除图像和视频中的背景,支持在线使用
BEN2 是由 Prama LLC 开发的深度学习模型,专注于从图像和视频中快速移除背景并提取前景,支持高分辨率处理和GPU加速。
|
12月前
| |
来自: 视觉智能
AI视觉新突破:多角度理解3D世界的算法原理全解析
多视角条件扩散算法通过多张图片输入生成高质量3D模型,克服了单图建模背面细节缺失的问题。该技术模拟人类多角度观察方式,结合跨视图注意力机制与一致性损失优化,大幅提升几何精度与纹理保真度,成为AI 3D生成的重要突破。
|
12月前
| |
来自: 视觉智能
【繁体图片文字识别】竖排的繁体图片文字识别翻译,竖排的繁体图片文字如何识别,竖排繁体图片识别后转横排,竖排的繁体识别比较友好的方法
竖排繁体文字识别系统适用于古籍数字化、港澳台文档、书法作品、历史档案及学术研究等场景,支持图像预处理、自动旋转、OCR识别、竖转横与繁转简。通过咕嘎OCR与OpenCC技术,实现高效精准的文字转换与编辑。
|
4月前
| |
来自: 视觉智能
AI解说大师Agent Skill详解:如何让智能体具备自主任务规划能力?
本文深度解析AI Agent“技能(Skill)”的本质,破除“仅封装CLI/API”的误区,揭示真正核心是任务规划能力——让AI像项目经理一样理解意图、拆解任务、自主决策、传递数据、容错恢复。以“AI解说大师”为例,详解原创/二创双路径规划、数据流依赖管理与Markdown结构化Skill设计,推动Agent从执行者跃升为“懂思考的协作者”。
|
20天前
| |
来自: 视觉智能
ECS GPU 上跑 vLLM:模型目录、镜像和 runtime 排查记录
本文记录ECS GPU环境部署vLLM时“容器运行但服务不ready”的排查过程。聚焦NAS模型挂载、Docker GPU透传、镜像预检、runtime配置及vLLM冷启动分层验证,避免将存储延迟误判为GPU或模型问题,提炼出7项可复用的GPU推理服务上线前检查清单。(239字)
免费试用