备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

请问“视频摘要”能力是否可以输入条件来引导摘要结果

我希望对我们生成的摘要能够受到控制，例如强调一些内容，而忽略另一些。我们有什么方法解决吗？

展开

收起

游客5xcaq2cmhsdo2 2022-10-31 10:51:40 835 版权

1 条回答

写回答

取消提交回答

jianguowang

基于某种条件引导的视频摘要是一种十分实用的技术，一般可以输入语音或者文字等信息来引导生成的摘要结果，来满足不同用户对视频摘要的不同偏好。以美食探店的视频为示例，用户甲的关注信息可以为菜品种类的介绍，例如该店的招牌菜是炙子烤肉，如何选肉、如何腌制肉是用户甲关注的重点；而用户乙的关注信息可以为店铺的地址、环境等。后续会有自然语言引导的视频摘要模型上线。

2022-10-31 18:06:36

赞同展开评论

相关问答

计算机视觉

购买阿里国外的云服务器是否可以访问谷歌？

83936

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3858

1

0

this xml file does not appear to have any style in

51994

10

0

重启Docker后报错：Error response from daemon

2400

0

0

sql server的用户名和密码怎么查啊？

37585

21

0

LoRa的网络覆盖能力范围是怎么样的？

3238

1

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60999

32

0

OSS的endpoint如何查看

37570

6

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3719

1

0

阿里云服务器如何重置系统？

24780

4

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

收录在圈子:

计算机视觉

171

+ 订阅

相关文章

迎宾机器人技术深度解析与主流产品选型指南

AI视觉在市政道路无人机巡检中的技术

商用迎宾机器人技术深度解析与主流解决方案调研

YOLOv11改进 - C3k2融合 | C3k2融合 IIA信息整合注意力（Information Integration Attention ）平衡精度与计算成本 | TGRS2025

基于 YOLOv8 的智能车牌定位检测系统设计与实现—从模型训练到 PyQt 可视化落地的完整实战方案

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

ModelScope下载速度慢怎么解决？

如何下载modelscope模型？

com/action/joingroup?code=v1是什么意思

创业项目：AI 拟人化中层解决方案

modelscope这个下载有点慢呀，好几次都超时了，怎么解决？

ModelScope有没有人知道windows安装ttsfrd的方法或者ttsfrd源码？

服务器上onnxruntime-gpu 调用结束，如何释放显存

在ModelScope中，下载模型时的ssl问题怎么解决？!

展开全部

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

PSHuman：开源单图像3D人像重建技术，一张照片就能生成3D人像模型

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

InvSR：开源图像超分辨率生成模型，提升分辨率，修复老旧照片为超清图像

SmartEraser：中科大推出图像对象移除技术，轻松移除照片中的不想要元素，保留完美瞬间

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

展开全部

还有其他疑问?