独家丨慧川智能发布首款视频理解API,要让AI真正取代“剪片子”的人类?

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介:

独家丨慧川智能发布首款视频理解API,要让AI真正取代“剪片子”的人类?

慧川智能CEO:康洪文

在今日由中国计算机学会(CCF)主办,雷锋网和香港中文大学(深圳)承办第二届CCF-GAIR全球人工智能与机器人峰会的AI+专场上,慧川智能CEO康洪文在给大家带来“AI(爱)让视频更简单”的主题演讲的同时,也重磅首发了一款新的视频内容理解的API产品:智影·视频理解API。

据康洪文介绍,这款API可利用深度学习技术,对一段完整输入的视频中所涵盖的图像和视频流进行模式识别、拆解和结构化,从而对视频内容实现精确到每一帧的处理。

康洪文向雷锋网(公众号:雷锋网)表示,智影·视频理解API目前已向第三方开发者、媒体、内容制造者等群体开放使用。值得注意的是,该款API还有一个重要意义在于,可实现视频内容的结构化。所以,这款API的开放在当前视频内容理解相对处于空白状态下来看,颇具意义。

又一个从学术界走向产业界

独家丨慧川智能发布首款视频理解API,要让AI真正取代“剪片子”的人类?

左:慧川智能创始人康洪文   右:CMU大学计算机科学和机器人研究所教授金出武雄

说起慧川智能的初创团队,其实也有点意思:创始人康洪文,CMU博士,曾在微软研究院工作,研究方向主要为AI及视频理解;CTO黄健,宾州州立大学博士,曾与康洪文同为微软研究院同事,此前曾在Google工作,研究方向为NLP和机器学习;首席架构师刘曦,与康洪文同为CMU博士,曾在Conviva工作,研究方向主要为云计算和视频大数据。

CMU作为计算机排名世界第一的学府,已经给学术界和产业界输送了非常多优秀的人才。像计算机视觉鼻祖金出武雄,现任微软全球执行副总裁的沈向洋等,皆来自于此。巧合的在于,康洪文在CMU和微软都有分别“师从”金出武雄和沈向洋的经历。

除去这些光彩的“缘分”,还得一提的是,2015年,三位初创成员就已有过一段与视频AI处理相关的创业经历。两年过后,康洪文、黄健和刘曦又因为一些行业态势走在了一起,开启了二次创业。

“目前短视频非常火”

“就视频而言,90%的功劳归属于创意,只有5%有赖于'体力'。很多人就是被这些5%的体力给牵制住了。”康洪文向雷锋网如此说道。

了解到这一行业现象,一与康洪文研究方向和从业经历有关,二则是与湖南卫视的合作让其对此深有体会。往往一档大型综艺节目,一个小时的视频,背后往往需要上千个小时的幕后剪辑工作。康洪文发现,在这里边,其实有很多繁琐的工作是完全可以依赖机器来完成的,并且机器的速度和效果会更快更好。

于是,康洪文开始和湖南卫视、浙江卫视等有了合作,帮他们做了一些简化工作流程的系统和产品。而智影正是在这些系统之上衍生出来的一款AI产品。

不过,这还不够。

“目前短视频非常火”,康洪文有点兴奋。

暂不提月活用户已超20亿的Facebook,单就国内而言,网络视频活跃用户已达5.5亿。微信每天产出100万篇以上的公号文章,其中就有67%的内容适合生成视频。而随着机器学习、CV和NLP应用的不断拓展,用户正慢慢从图像、文字转向视频和短视频使用,大家越来越依赖大信息量的视频内容。

从这一行业大趋上来看,短视频终将爆发不是没有道理。然而,AI业界对文本、图像的处理技术和算法已渐趋成熟,但对视频信息的理解却暂时处于空白状态。业内甚至有人认为“视频是一种暗物质”,机器无法知道视频里究竟有哪些内容,或者视频之间有哪些联系。“它们占了全网90%的存储空间,然而这种结构化的数据却完全没有。”

市场的痛点就此形成。这一切都让一直深耕在CV领域的康洪文感觉到,既是挑战,也是机遇。

2分钟视频,人力4小时剪辑、机器只要30s,效果一样,如何做到?

康洪文给雷锋网列了这样一项数值,2分钟的视频,人类需要花费4小时在素材的收集、剪辑和渲染上,直至整个视频出炉,而智影可在30s内自动生成这段视频并达到相同的效果。

如何实现?

智能视频技术的学术积累

独家丨慧川智能发布首款视频理解API,要让AI真正取代“剪片子”的人类?

在1990年以前,学术业界开始有了一些关于视频合成技术和物体检测识别的讨论和研究。2000年以后,特别是2005年左右,整个学术业界开始泛起了对视频合成,视频内容理解的研究。据Google学术查阅的资料表明,在2005年以前,关于视频内容理解这一项就有4530条结果的收录。近十年来,这一学术搜索结果已增至17000条。同理,视频合成、物体检测识别、机器学习和NLP的理论研究也正如大家感受到的一样呈井喷态势。

这些学术研究成果确实给AI业界的创业者们搭起了架子。

视频数据结构化的优势

此外,托赖初创团队在CMU的学术研究成果,以及在Facebook、微软、Google等科技巨擘的从业经历,慧川智能可以从各个公开的数据源里获得全网的数据,并借助自身AI算法的积累对其进行内容结构化的处理。

独家丨慧川智能发布首款视频理解API,要让AI真正取代“剪片子”的人类?

据康洪文介绍,慧川智能在此其中还实现了一项新的Research成果,也是今日康洪文在CCF-GAIR 2017会场上发布的重头戏:根据输入的一段完整视频,机器能够利用深度学习对其涵盖的图像和视频流进行模式识别,拆解和结构化,从而对视频内容实现精确到每一帧的处理。比如,在20-40帧出现了一辆兰博基尼汽车,在60-95帧出现了一段两个人在对话。之后,从100-120帧,是一辆商务客机滑行出来直至结束......

这种算法可帮助机器很好的理解视频内容,从而实现更高精确度的视频的智能化处理。

所以,在数据结构化相对空白的行业态势下,相较其他公司而言,这点算是慧川智能的一大优势。

背后的CV、NLP、机器学习

不过,视频数据结构化只能算是关键助力剂的一种,让智影做到如上小标题的成绩依然离不开架构在智影背后的机器学习、CV、NLP和信息检索贡献。

具体的运行原理可看这张图:

独家丨慧川智能发布首款视频理解API,要让AI真正取代“剪片子”的人类?

据康洪文介绍,智影的运行流程有以下4步:

·  文本分析

·  素材匹配

·  在线剪辑、预览

·  云端视频渲染

其中关键的基础步骤在前面2个。在一个拥有足量信息和内容的数据库里,当一篇文章被上传到机器里,在NLP和机器学习的帮助下,机器会先对其进行文本分析,抓取文本中的如时间、地点、人物、事件等关键要素,并予以理解。接续,机器会进入“素材匹配”阶段。因为这些素材本身是不带标签信息的,所以系统需要进入其中找到这些相关信息。比如,在全网所有的图片、社交媒体、视频片段和原声广告中,将某个特定的人出现的场景都截取出来,这其中就需要CV的助力。完成了两项最基础也最难的工作之外,机器就能接续实现在线剪辑、预览和渲染,直至生成整个视频。当然,整个过程都免不了机器学习的支持。

“相对其他公司来说,智影这款API产品在物体识别的范围、种类、精度和稳健性上都算是最领先的。”康洪文颇有底气的如此表述。

内容视频化会给未来产业结构带来哪些影响?

当问及这个问题时,康洪文向雷锋网表示,这是一个很大的问题。

“它应该会带来整个产业结构的改变。”康洪文拿Google举了个例子。

Google之所以能成为Google,一大原因在于其对文本的结构化处理的能力。以Google Search为核心,在其周围还有Index技术、Adwords业务等,所有这些都建立在对文本的深度理解之上。

然而,随着用户越来越依赖大信息量的视频内容,并逐渐习惯短视频对文本和图像的取代,在目前视频内容暂时还缺失结构化方案的过渡阶段,在行业发展到一定程度之后,必然会产生一类对视频内容提供结构化或标准化处理的方案商公司。

而这个过程有趣的地方在于,提供AI技术方案商的公司不会“闭门造车”或“自个玩自个”,他们会逐渐将自己的应用开放给第三方开发者,媒体甚至所有人(慧川智能已经将智影开放出去了)。当“信息视频化”发展到一定规模之后,必将有更多的人参与进来并使用这些产品,这一过程又将产生足量的数据,反过来即会刺激整个行业的爆发性增长,直至巨头的出现。

康洪文说,“如果我们是赋能的一方的话,肯定会创造更大的价值。”

结语

谈及未来可能会遭遇的竞争,康洪文表现的非常自信,“因为任何一家AI公司,同一种算法是不可能立马被应用在其他领域之上的。每个应用领域都能催生很多的技术细节,所有公司都需要持续不断的去解决技术上出现的挑战和困难。它跟产品经理时代,或者运营驱动产品的公司不一样,不是看了它的产品模式就能学会的。”

事实上,目前国内也有一些创业公司在做一些消费级视频的AI应用,如给视频信息做标签化从而达到精准广告投放的效果。在康洪文看来,这些技术应用更多的是一种“任务驱动”。机器可能会对命令型任务完成的很好,但仍然不会增加对视频内容的理解。

随着机器学习能力的增强,AI在一些专项任务上已经表现出超越人类的特质,如AlphaGo对弈,CT图像的识别,图片情景的分类等。一直以来,人类对AI的理解是仅限于做一些机械化的工作,但在康洪文看来,随着机器人对专项任务的本质的理解加深之后,就能获得创造力的延伸,如谱曲机器人可达到以假乱真的程度,机器人写诗超过人类等等。AI在其“可做事情”和“不可做事情”之间,界限正变得慢慢模糊。


本文作者:李秀琴

本文转自雷锋网禁止二次转载,原文链接


相关文章
|
6天前
|
人工智能 搜索推荐
写歌词的技巧和方法:塑造完美歌词结构的艺术,妙笔生词AI智能写歌词软件
歌词是音乐的灵魂,其结构艺术至关重要。开头需引人入胜,主体部分无论是叙事还是抒情,都应层次分明、情感丰富,结尾则需升华或留白,给人以深刻印象。《妙笔生词智能写歌词软件》提供多种AI辅助功能,助你轻松创作完美歌词,成为音乐创作的得力助手。
|
6天前
|
人工智能
巧妙构建歌词结构:写歌词的技巧和方法之关键,妙笔生词AI智能写歌词软件
在音乐世界里,歌词是灵魂的载体,构建其结构至关重要。优秀的歌词需有引人入胜的开头、条理清晰且富变化的主体,以及深刻难忘的结尾。《妙笔生词智能写歌词软件》提供多种功能,帮助创作者克服结构难题,激发灵感,助你写出打动人心的歌词,开启音乐创作的新篇章。
|
6天前
|
人工智能
歌词结构的巧妙安排:写歌词的方法与技巧解析,妙笔生词AI智能写歌词软件
歌词创作是一门艺术,关键在于巧妙的结构安排。开头需迅速吸引听众,主体部分要坚实且富有逻辑,结尾则应留下深刻印象。《妙笔生词智能写歌词软件》提供多种 AI 功能,帮助创作者找到灵感,优化歌词结构,写出打动人心的作品。
|
6天前
|
存储 人工智能 自然语言处理
Elasticsearch Inference API增加对阿里云AI的支持
本文将介绍如何在 Elasticsearch 中设置和使用阿里云的文本生成、重排序、稀疏向量和稠密向量服务,提升搜索相关性。
45 14
Elasticsearch Inference API增加对阿里云AI的支持
|
2天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###
|
5天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
41 10
|
5天前
|
人工智能 机器人 API
【通义】AI视界|谷歌Q3财报:Gemini API六个月增长14倍,公司超25%的新代码由AI生成
本文内容由通义自动生成,涵盖谷歌Q3财报、马斯克xAI融资、九巨头联盟挑战英伟达、Meta加大AI投入及麻省理工研究LLM与人脑相似性等热点资讯。更多精彩内容,请访问通通知道。
|
1天前
|
机器学习/深度学习 人工智能 安全
利用 AI 进行代码优化:智能化代码审查的新纪元
【10月更文挑战第24天】本文探讨了AI在代码优化和审查中的应用,介绍了AI如何通过静态代码分析、代码风格一致性、历史数据学习和实时反馈等功能提升代码审查效率。文章还介绍了几款智能化代码审查工具,如SonarQube、DeepCode和GitHub Copilot Security,并提供了实施AI代码审查的最佳实践,帮助开发者提高工作效率和代码质量。
|
6天前
|
人工智能
歌词结构的艺术:写歌词的技巧和方法深度剖析,妙笔生词AI智能写歌词软件
歌词是音乐的灵魂伴侣,其结构蕴含独特艺术魅力。掌握歌词结构技巧是创作者成功的关键。开头需迅速吸引听众,主体部分通过叙事、抒情或对话形式展开,结尾则点睛收尾。创作时可借助《妙笔生词智能写歌词软件》,利用 AI 功能优化歌词,提供丰富模板和案例,助力灵感涌现,轻松掌握歌词结构艺术。
|
6天前
|
人工智能
写歌词的技巧和方法:打造完美歌词结构,妙笔生词AI智能写歌词软件
写歌词的技巧包括:开头吸引人,主体逻辑清晰,结尾画龙点睛。使用《妙笔生词智能写歌词软件》的AI功能,如智能写词、押韵优化等,可助你克服创作瓶颈,打造完美歌词结构,适用于民谣、摇滚、流行等多种风格。

热门文章

最新文章