大数据的技术趋势与应用前景

简介: 国家自然科学基金委员会副主任、 中国工程院院士高文教授,在第二届中国OTT TV峰会上,以《大数据的技术趋势与应用前景》为题作主题演讲。高院士从宽带中国战略和信息消费的政策层面,提出OTT TV发展正面临一个重要的发展机遇。
0.jpg

国家自然科学基金委员会副主任、 中国工程院院士高文教授,在第二届中国OTT TV峰会上,以《大数据的技术趋势与应用前景》为题作主题演讲。高院士从宽带中国战略和信息消费的政策层面,提出OTT TV发展正面临一个重要的发展机遇。而基于显著性计算实现精准广告,基于大数据平台智能搜索实现付费收看,是两个可能的盈利模式。同时,OTT TV也对大数据和编解码技术提出了新的技术挑战。

如下是国家自然科学基金委员会副主任、 中国工程院院士高文先生,题为《大数据的技术趋势与应用前景》的演讲全文:

讲到大数据趋势。我想从两个方面来说一说,不敢太跳出我本行说问题。所以会在进本题的时候,里面装一点东西。我讲两个问题。

第一个,是关于现实形势下,今天研讨会主题的OTT TV,到底有什么样机遇;

第二个,讲讲OTT TV在新形势下,信息消费所遇到的技术挑战,里面会涉及到大数据。

新的形势大家都知道,8月1日和8月8日国务院连发两个文,第一个是关于宽带中国。对于刚才张总谈到支持付费业务带宽是先决条件,在中国把带宽问题解决。8月8日这个文,扩大信息消费这个文件就提到这个问题。

8月1宽带中国战略发布。大家如果关心的话已经知道这些数据(PPT),按照国务院部署从2013年到2015年,到2020年我们国家宽带接入带宽用户数以及贷款宽度会急剧的发展增长,实际上从一个侧面国家在拉动我们新的经济增长方面,实际上在信息领域是一个纵轴戏,信息领域通过宽带中国建设把基础设施,把以前主要放在铁路、公路、机场这种设施一定基础设施,未来发展和信息有关的问题向这方面转移。

8月8日这个文实际上就是说要提升信息消费,希望通过信息消费来拉动内需。如果说8月1日那个文是政府主导性对经济推动做法,8月8日实际上是拉动、扩大内需。什么是信息消费?顾名思义信息消费只要信息方面花钱就是信息消费,信息消费有比较严格定义。大家上网一搜百度百科里面分析消费有一段定义,认为是一种直接或间接以信息产品和信息服务为消费对象的消费活动。实际上是有一套经济学理论的,经济学理论里面有四个过程,叫做信息需求过程、信息战略过程、信息主体过程和信息载重。四个过程里面都是产生经济活动,经济活动涵盖信息消费全过程。

维基百科把信息消费敲进去,目前词条没有建立,有兴趣可以建立这个词条。有一个MBA管理方面有智库百科信息消费管理学角度给出比较准确定义。信息消费这件事,实际上是整个从需求到底是什么?要想占有你要付费。你要处理也需要有处理的基础设施和处理的费用,你要去看或者再生出来也是需要产生消费行为的,所以这个东西实际上整体叫做信息消费。刚才我也说了,我们看国务院8月1日、8月8日这两个文,基础设施建设宽带中国,另外信息消费实际上是拉动内需这样一个动作。

这两个文,实际上给我们今天做OTT TV实际上是产生非常好的推动作用。OTT我想大家都是这个领域热心者或者专家,OTT TV并不简单把机顶盒加TV一个升级,因为OTT Open The Top做机顶盒可以使用。Open The Top比OTT TV更宏观一点,Open很讲究,STV和运营商绑定的,有运营有STV,没有运营商这个没有用。OTT并不和运营商绑定,实际上是开放东西,开放东西这里面很多理念上开放一点认识。一般OTT TV一般解释程一体机,把以前机顶盒塞到计算机里面,通过互联网接入直接就可以去进行节目的访问等等,这里面有三个比较重要的概念。

一个概念作为计算机厂商,实际上应该在互联网领域查找切入点。

第二对运营商门户是切入点

以前多个运营商在现在变成一个,也是运营商是互联网运营商提供是门户。还有一个很重要是平台,大家知道一个平台,实际上OTT其实对平台很好机会,对今天来讲我想工业非常大。一方面就是说本身广电业务发展这些年滞后很多,我们说20年前基本中国电信和广电市场年销售额差不太多,多少有点差别,但是不是成几倍差别。你要看今天,2012年三大运营商三大电信运营商年销售是一万一千亿。但是整个全部有线网络运营商整个收入才660亿,这个相差百分之十几倍,这些年整个业务发展不平衡导致这样结果。

这个现象不可能长期存在下去,有两个可能性。一个可能性今后电信运营商业务可能有一部分被广电运营商给分流的,电信运营商不是一万一千亿,可能是一万九千亿留向广电运营商里面。还有一个电信运营商总体销售额略有增加,增加不太快,广电快速增加。过去从660亿增加到四五千亿不是太大问题,关键怎么做的问题。我想这里面可能有很多机会,机会一方面国家要有政策倾斜,前些年国家有政策保护但不是倾斜。今后可能会有一些政策倾斜。当然前些年国家在三网融合方面一直是倾斜,但是这个东西市场上没有见到好处,这次信息消费希望这方面能够有所起色这是讲第一个问题。

第二个问题就是关于技术挑战问题

在新形势下,OTT技术挑战很多,有软件方面挑战OTT用什么操作系统、开发系统各种各样软件挑战。也有硬件挑战不管是一体机还是盒子、CPU用盒子硬件挑战,苹果用平台方向推动看起来不是很成功,小米大概也是这种做法这种套路,别人能想出其它一些平台思路,有一个东西肯定可行。谁足够聪明给出一些比如说能够和节目的提供者非常友好这样一些环境,使得这些节目提供者愿意在你平台上面创造节目,可能成功机会比较大。

我今天想说的是两个技术挑战

一个大数据挑战

一个编码工具挑战

大数据挑战

说到今天发言题上,实际上现在大数据目前还是还时兴,我今年年初去基金委工作。第一件事就是接待专家,很多专家说大数据很热,基金委多立一点大数据项目多放一点钱做研究,后来想听一听。结果至少有四个不同的人谈大数据问题,搞数据库谈大数据,搞控制人来谈大数据,现在很多控制领域很多数据,很多控制方案都是模型来模型去很少从数据来,可以通过大数据对于控制可能会有一些比较好的切入点。搞管理就说,现在金融等等领域数据量非常大非常多,这里很多东西有规律,通过数据算法把规律找到,指导解决运行指导管理,搞数学人来,搞数据人说大数据是数学问题,怎么样把里面最核心东西提炼出来,需要新的数学工具、方法。实际上大数据各个方面都有这个方面问题。

笼统来说大数据是三个v,第一个就是量 Volume,大数据就是量比较大。第二个V Velocity速度非常快,第三个多样Veriety,数据形形色色多样性非常快,大数据里面有一个HACE理论,大家看一二三四。大数据理论上做比较完整反映特点一套数学工具。从处理流程来说数据产生,产生完以后对产生数据存储,进行处理挖掘里面规律性东西。然后把它进行应用指导是这样大的循这样一个过程。

大数据到底对我们现在OTT TV带来什么?其实可以带来很多东西。

第一个精准广告,这是大数据最擅长东西。大数据里面最典型应用,一个超市在卖婴儿那种尿布地方,发现了统计起来发现一般买尿布人同时买啤酒,不知道为什么很奇怪,后来想想有道理。在美国丈夫下班以后,不像我们都请月嫂,美国人养孩子都是夫妻两个人事,丈夫白天上班,一般上班下班时候妻子就会告诉他,去商店给我买包尿布,买尿布想晚上回去晚上喝点啤酒,就一起买就一起付费,商业者很聪明,把尿布和啤酒紧挨着放,这样 就一起销售,实际上在我们OTT TV精准广告靠数据挖掘。

还有付费收看,付费节目也要进行大数据,如果不进行这个东西笼统说我收多少钱发展多少用户,做起来蛮辛苦,还有其它电子商务、电子政物。

我集中讲精准广告,精准广告推送一部广告怎么推,这里很讲究。推出广告首先要知道推给谁,这个人如果是男的看电视不能推一些妇女用品广告白推,不能推小孩的。就是说你要知道他是哪个年龄人,喜好是什么?这个是可以靠数据挖掘,经常上网就会有你经常访问哪些网页,根据这个东西马上就归纳出来你大概是年龄段你的喜好是什么?推送时候一定推送你喜好的东西,所以首先就说推什么靠大数据已经很成熟一个技术。

第二个要点就是说往哪里推?这个事情很有讲究。一个广告推出来推一个画面上可以像现在电视一样,把整个画面屏蔽住,放广告看不了节目,几十秒钟甚至是一分钟,七十秒钟全是广告有时候大家很累。在视听推广告不能用那个方式,在画面上推,画面上推往哪里推,万一推的位置不好看不见就白推,推太好把最主要位置占据用户开始烦你。一开始打计算机网页弄一个广告把最主要地方占住就很讨厌,千方百计把广告关掉。有没有办法让他注意到不烦这就是推广告艺术,关键是说这里有一套技术去做。最主要技术叫视觉显著性计算,视觉显著性计算最主要想法是什么?就是说我一个视频画面里头我知道人第一注意点是什么?第二注意点是什么?可能我这个广告要放在第三注意点。原来没有第三注意点只有两个注意点,广告产生一个注意点放在这里头。

人们看的时候第一注意点、第二注意点看,第三注意点余光可以看到,这是最明显这就是视觉显著性。我们人看东西不是漫不经心随便看,一眼扫过去,什么东西重点什么东西非重点一下抓住,这点可以用模型在线,我们有一项向上的视觉显著模型。当然还有跟它对应有一套自底向下显著计算。

这是一个案例给你一段视频通过刚才两个来酸,在图象里面就说,大家可以看到这几个点我算出来所谓视觉,人最主要的东西,像前面这地方有一个圈,这个视频不管怎么画人眼睛看这两个,其他看不不多。在马路上人一眼看到这个车等等类似。通过这个视觉显著性看是什么东西可以分析出来,是什么样的画面。有了这样一些东西可以算出很多,任何给你一段视频我可以算出来,等等就可以算出来,很多的显著性。

这有一个车,其实真正人看的东西是在车门右边这个东西上面等等,这有一个演员干什么,这是比较显著的。这是更多的一些例子,就说这有一个人戴着眼镜看,真正关注是他耳朵上方左上方人比较关注,有三个骑马人,对这个两边人和右边马关注更高一点,花同时可以关注到。

经过这样一些东西以后我们知道一个画里面有几个显著点,推广告时候躲开这几个。保证两个显著点第三个推出广告,我视听显著点周边地方就把广告推出去。这是一个简单嵌入式广告,这是一个电视剧人身上带很多东西,把这个东西广告推出来,只要眼往那里一看,可以把你看的东西马上放在这儿,这东西叫什么哪里有卖多少钱就出来。有一些追星族,年轻人搞时髦容易发生这种消费行为等等。现在付费收看大部分都是给定一些现有节目去做,现在电视台或者电影院正在放的东西去做,实际上有了付费这块儿,把以前很多东西不太火的节目重新变回有可能。

刚才像我前面说的如果能够很好把平台利用起来,实际上在这个平台上各种各样受众面不需要三千万人同时看这个东西,可能付费有两万个用户可以维持收回你投入成本,很多中小节目上可以采用各种各样内容,使得这种付费更丰富一些。

现在就是说大数据多屏体验,除了大数据多屏体验,现在非常关键一个技术,多屏体验有四月三屏有时候四屏,多屏体验有很多技术问题,现在大家想到视频流同步有同步技术,有几个问题没有解决很好,一个是屏幕比例,手机屏幕比例,计算机屏幕比例,比例不一样。另外尺寸,手机大小屏幕和高清电视65寸电视屏幕尺寸不一样,东西大小不一样。65寸电视上看一个足球,同样在手机上看足球,变成很下颗粒,看起来很费劲。另外还有帧的精准,在计算机这个东西不严格,这个东西怎么去把它就是说能够影射过来,还有计算复杂度,特别智能手机耗电很厉害,过于复杂手机电视就被消耗掉,这里很多技术问题要去解决。

还有很重要技术问题就是编码工具,编码工具在这里大家知道目前用比较多在我们OTT TV上面H.264比较多,跟谷歌有关用VP8我们希望有些同OTT TV角度编码工具,说到编码工具话比较长,我做十多年工作,就是说怎么样把量大数据给它压缩很小,压缩到一百分之一,两百分之一,这样传输存储比较小。怎么样压缩?原则就是空间、时间、编码压缩。

不同的应用实际上它使用压缩的算法可以略有不同,我们现在一般说的电视或者电影这样的场景视频,现在H.26也好非常适合这种视频,除了这种视频还有其它视频,比如说监控视频、互联网视频,这两种视频两种压缩工具很合适不见得。从技术上有很多可以切入的地方。

我们说编码工具,视频编码整个对于数字电视数字视频发展前景巨大,从最早其的压缩到50比1,把高清压缩75比1,现在我们正在做比如说几乎做完了把高清视频150比1越容易压,因为很精细,压缩起来效率高一点,对4K视频最有新H.265就可以做到450比1,质量几乎看不到有损失,互联网为了追求省点带宽压非常满,1000比1也用,看还是可以看,如果严格按照比如说广播的质量来看根本不允许,因为质量损失太大。这个事还得做下去像OTT TV互联网贷款,互联网带宽本身带宽没有那么宽,我们通过宽带建设,很大问题即使够宽,大家一起上一共享带宽一分也没有那么多,这时候怎么办有非常好编码压缩工具,使得压缩非常高,大家还在做。

现在我们十多年前开始做AVS+已经变成广电行业标准,所以现在央视已经经过很多人测试,今年年底明年年初陆续有很多,今年可能大概三个频道,明年有十几个AVS高清频道开播,这是广电行业用,这之后推动国际标准HOD标准,2010年开始推动,从去年我们启动一个视频部分,视频部分实际上是今年已经完成了。完成的东西是今年6月4日第一版本印刷出来。所包含档次我们所说基本档次有增强档次,监控档次,增强档子面向电影和广播做,增强档次增加版增强版,就是我们所说的AVS 这是光电行标对应在CCTV被测试过东西,还有特点面向视频监控做了一个档次,做很巧妙,性能非常好,不光支持你监控里面编码压缩。把视频把背景建起来,利用背景可以使得编码效果提高很高,有些监控摄象头回旋转镜头拉伸,可以用同样背景去覆盖。

另外可能有些比如说天气、光照、雾、雨各种各样的场景可能会模型产生一些变化,加上这些天气模型。这些模型实际上不仅可以提高电板,更重要最对象,对象有人、车、自行车行为往哪里开,突然加速突然减速等等行为进行完整分析,这东西实际上模型效率很高,在AVS做了,投稿时候有人就说能不能放大H.265试试,我们就放在效果非常好。比现有的可以节省44.7%,实际上这个模型是比较好使的。今天我们话题不是很直接,实际上我们现在正在启动新的视频部分,这部分我们面向互联网电视做的,互联网电视除了刚才带宽问题以外,互联网可以参考信息非常多,这就是大数据给我们带来好处。

可以利用大数据,利用互联网数据编码效率可以更高,这是正在做的东西。可以这样说,我们后那部分字完对OTT TV编码工具应该说就会有很好的支持,现在我们定位就是说,对于OTT TV编码标准效率高一倍,支持视频检索,可以支持画面尺寸大小变化。正在组织领域做国际杂志一个专辑。我们现在从整个国家经济发展来说信息消费,宽带中国信息消费给我们OTT TV带来一定机遇,大数据和编码工具还有很多技术没有做得很好,具有很多技术挑战,对我们来讲迎接挑战,做技术人很高兴,同时做产业人也很有机会,希望大家能够抓住机遇顺利发展,谢谢大家。


原文发布时间为:2013-08-26


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
18天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
1月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
12天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
29天前
|
数据采集 分布式计算 大数据
Java语言在大数据处理中的应用
传统的大数据处理往往依赖于庞大的数据中心和高性能的服务器,然而随着大数据时代的到来,Java作为一种强大的编程语言正在被广泛应用于大数据处理领域。本文将探讨Java语言在大数据处理中的优势和应用,以及其在分布式计算、数据处理和系统集成等方面的重要作用。
|
1月前
|
存储 大数据 数据挖掘
云计算与大数据:从基础设施到实际应用
云计算与大数据:从基础设施到实际应用
120 0
|
21天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
26天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
1月前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。
|
1月前
|
存储 分布式计算 大数据
现代化数据库技术——面向大数据的分布式存储系统
传统的关系型数据库在面对大规模数据处理时遇到了诸多挑战,而面向大数据的分布式存储系统应运而生。本文将深入探讨现代化数据库技术中的分布式存储系统,包括其优势、工作原理以及在大数据领域的应用。