视觉智能开放平台

首页 标签 视觉智能开放平台
UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型
UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,支持跨平台自动化交互,具备强大的感知、推理、行动和记忆能力,能够通过自然语言指令完成复杂任务。
|
11月前
| |
来自: 视觉智能
OBS美颜美肌插件安装使用教程
软件是不自带美颜插件的,可以安装OBS-Studio-29.1.3安装包,就自带美颜功能的插件。在OBS软件【插件中心】菜单下,打开【打开插件中心】,安装美颜摄像头注册即可。在OBS软件【停靠窗口】菜单下,打开【美颜参数控制面板】的美颜窗口。插件里面有自带教程,可以自行学习。
YOLO26如何训练自己的数据集 | (NEU-DET为案列)
本文详解YOLO26全新架构:移除DFL、端到端无NMS推理、ProgLoss+STAL损失策略及MuSGD优化器;并以NEU-DET数据集为例,详述训练全流程(含预训练/优化器选择/模型缩放对比),附结构图、代码与可视化结果。
|
13天前
| |
来自: 视觉智能
Ж-CEH:锚定结构存在论—— 从宇宙虚无到视觉张量的统一框架
陈恩华提出“锚定结构存在论”,定义核心算符Ж(观察者坍缩筛)与锚定存在方程,首创Ж-CEH算法,突破强光干扰下边缘检测难题:FP压制率达83%~89%,F1仅降2.3%,1帧恢复。实现工业视觉从“依赖光源”到“遵循物理规律”的范式跃迁。
FFmpeg开发笔记(四十三)使用SRS开启SRT协议的视频直播服务
《FFmpeg开发实战》书中介绍了轻量级流媒体服务器MediaMTX,适合测试但不适用于生产环境。SRS是一款国产开源服务器,支持RTMP、SRT等协议,适合生产使用。要启用SRS的SRT推流,需配置`srt.conf`,开启SRT服务并配置端口。在确保FFmpeg集成libsrt后,拉流则使用类似但带有`m=request`的地址。在Windows上,同样需要集成libsrt的FFmpeg来使用ffplay拉流。SRS的日志确认了推拉流的成功。书中提供更深入的FFmpeg开发知识。
TRELLIS:微软联合清华和中科大推出的高质量 3D 生成模型,支持局部控制和多种输出格式
TRELLIS 是由微软、清华大学和中国科学技术大学联合推出的高质量 3D 生成模型,能够根据文本或图像提示生成多样化的 3D 资产,支持多种输出格式和灵活编辑。
Light-A-Video:好莱坞级打光自由!上海AI Lab开源视频打光AI,无需训练秒改画面氛围,3步让阴天变夕阳
Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法,支持高质量、时间一致的光照控制,零样本生成和前景背景分离处理。
# 用Prompt Engineering高效生成合规Amazon包类套图
利用Prompt Engineering,仅需1张实拍图+产品参数,即可高效生成符合Amazon美国站合规要求的包类套图。通过结构化提示词,明确主图、卖点、场景等6类图片职责,确保每张图精准传达信息,避免AI篡改产品细节,实现低成本、可复用、规模化出图,大幅提升上架效率。
免费试用