【活动推荐】CDN Tengine开源技术沙龙
Tengine开源项目从阿里集团内部核心HTTP服务器,到其层流量统一入口核心系统,再到阿里云CDN节点系统七层负载接入,一路走来积攒了大量一线开发调试经验并逐步实现工具化。作为阿里集团七层流量入口核心系统,Tengine支撑着阿里巴巴双11等大促活动,并提供智能的流量转发策略、HTTPS加速、安全防攻击、链路追踪等众多高级特性。本场沙龙由多位阿里云技术专家带来,为您分享内部的调试与实践经验,揭开Tengine的神秘面纱。
时间:5月19日 下午13:30-17:00地点:浙江省杭州市经济技术开发区一号大街68号华媒科创园阿里巴巴创新中心(杭州下沙)
感兴趣的用户可以扫码上图二维码或者点击以下链接进行报名
了解Tengine官网
微博关注Tengine
了解并购买阿里云CDN
猫晚流量再创记录,阿里云直播方案护航优酷2500万用户体验
对“剁手党而言,天猫双11早已经超越了简单的“买买买”,更是一场边看边玩的狂欢盛宴。今年的天猫双11狂欢夜晚会(简称“猫晚”)在上海举办,这台兼具年轻潮流与国际风范的“超级晚会”,通过优酷、浙江卫视、东方卫视进行了全程网络直播和电视直播,吸引了超过全球超过2.4亿人收看。
作为这场猫晚的唯一网络直播平台,优酷平台上直播观看人数近2500万,是去年的两倍。这也是阿里云第四年支持双11猫晚网络直播,从阿里云作战室监控的数据上来看,猫晚直播期间各项系统数据指标运转平稳。
本次猫晚直播,阿里云采用了最新推出的广播级高可靠直播方案,这是在支持了2018世界杯直播后的再次技术升级,该解决方案服务于体育赛事、电子竞技、重大活动等大型网络直播,用于保障千万级用户并发场景下的高品质、低延时、超卡顿的观看体验。
从上行链路、云端内容生产到极速分发的全链路支持
阿里云视频云直播服务为猫晚直播提供了从上行,云端内容再生产到分发的全链路技术支持和保障。通过全链路容灾、多流合并、CDN多源站智能选择等技术、网络抖动时候自动选择最佳链路、机房区域发生故障的时候可实现秒级切换,做到了整套直播系统达到广播级的稳定性。
在云端内容处理环节,直播转码全面覆盖了从360P到4K超高清的分辨率,帧率涵盖25fps与50fps,能根据用户网络带宽和使用场景,提供不同级别的视频清晰度体验。
在内容分发环节,依托于CDN遍布全球的1500+节点分发网络,进行精准流量预测、实时智能调度,保障内容极速、精准分发到用户端。
4K高清直播广泛应用 智能视频生产为千牛直播提供实时字幕
视频清晰度作为衡量用户体验的重要指标,也是视频云技术团队十分关注的方向。本次猫晚的视频清晰度再度升级,通过阿里云直播服务提供实时4K直播,将现场4K超高清、高帧率的视频实时处理,进行画质提升。
在4K视频的处理上,直播服务大规模使用GPU进行视频处理及转码,大大提升了实时视频处理能力,保证了直播视频最高4K的HEVC实时转码。据直播服务负责人李彬介绍,4K高清直播已在阿里云的众多游戏直播客户中广泛使用。
视频的智能生产也在双11直播中开始商业应用,阿里云通过ASR技术自动识别直播字幕,并通过云导播为千牛头条直播提供实时字幕服务。同时,阿里云视频智能产品矩阵还包括视频智能审核、视频DNA、视频多模态内容理解、智能封面、智能视觉等,致力于让智能赋能于视频生产、传输、消费的完整链路。
此外,阿里云边缘节点服务(ENS)今年首次加入双11支持战队,助力构建淘宝电商超低延时的互动直播网络,面对双11的业务洪峰,ENS能够做到超低成本、快速、安全可靠地弹性扩容。同时,视频能力和边缘计算的深度结合,也可以将视频的分析和计算业务直接下沉到边缘,为客户创造更大价值。
在双11的海外战场,阿里云视频云为东南亚最大的B2C平台Lazada提供独家直播解决方案,帮助Lazada把双11晚会推送到泰国、马来西亚等国家,让东南亚的消费者通过娱乐、乐趣和互动参与到双11的狂欢中。
阿里云开年Hi购季,视频直播、视频点播、CDN全线折扣,错过这次,再等一年!点击了解活动详情
福建选择阿里云ECS服务器华南/华东/华北节点哪个更快更好?
福建选择阿里云ECS服务器哪个地域节点比较合适?哪个节点速度快?很多福建用户对于选阿里云服务器哪个地域并不清楚,有的人认为选择距离较近的深圳节点比较好,有的用户觉得选择杭州节点合适。众说纷纭就会出现选择困难症,今天我们详细解释清楚这个问题。
根据延迟高低来选择
从地图上看福建紧挨浙江和广东,此时阿里云杭州节点和深圳节点都是比较近的,通过本地ping的方式,得知华南1 深圳延迟最低,如果你的web用户主要在福建这块用华南服务器的速度较快。当然了这是我自己测试的结果,你要亲自测试你本地ping速度,根据测试的结果来决定选择哪个,数字越低越好。也许你那里对于华东1杭州节点速度更快。更多参阅官方文档
用户群体考虑
除了服务器节点外,主要用户群体所在的地理位置是另外一个重要依据。
1、如果你的业务用户、访客遍及全国,选择华东地区服务器比较合适,因为华东的上海节点和杭州节点地理位置在公鸡的中间一些,无论南北都可以照顾到了。
2、像上面提过的用户仅限福建及周边地区选华南最佳。
3、业务长期运行后,访客陆续的全国各地都有,这时候为了减轻服务器压力,使用阿里云CDN后访客被引导到最近的网络节点,CDN还能抵挡轻度的CC和DDOS攻击。
当你确定了合适地域后,及时参加阿里云·云小站的优惠活动,买到性价比高的云服务器,这样才能花费最省,享受更多云计算带来的便利。
4K超清,2500万人在线,猫晚直播技术全解读
2018天猫双11已经过去一周,各路快递也在快马加鞭送到大家手中。但对于剁手党而言,天猫双11也不仅仅是简单意义上的“买买买”,更是一场边看边玩的狂欢盛宴。
作为双11的必备节目,今年的猫晚通过优酷、浙江卫视、东方卫视进行了全程网络直播和电视直播,吸引了超过全球超过2.4亿人收看。猫晚期间,优酷基于阿里云最新的广播级高可靠直播方案,为近2500万的观众带来了超高清、流畅的观看体验。
大家一定还记得今年俄罗斯世界杯期间,阿里云承包了全网70%的直播流量,其实,本次猫晚直播解决方案带来了全新的能力,例如首次引入了4K以及视频智能生产技术,观看体验得到了进一步提升。
/全链路支持/
1、阿里云视频云直播服务为今年猫晚直播提供了从上行,云端内容再生产到分发的全链路技术支持和保障,整套直播系统达到广播级的稳定性。
2、上行链路采用多网接入和视频流合并功能,确保上行链路的高可用。
3、视频处理中心采用异地多中心多机房部署,即一个直播频道同时通过多个区域的直播集群进行处理,一个区域出现任何故障,可快速切换至新区域避免中断,确保视频处理环节的高可用。
采用阿里云CDN进行全球直播分发,受益于CDN系统针对突发活动的流量预测和实时调度系统,保证视频播放的流畅。
当连续的图象变化每秒超过24帧画面以上时,根据视觉暂留原理,人眼看到的就是平滑连续的视觉效果,而如果需要更高清的体验,这远远不够的。
在云端内容处理环节,直播转码全面覆盖了从360P到4K超高清的分辨率,并延用了在世界杯上的“50帧”技术,也就是说画面帧率达到了每秒50帧,比目前网络视频的25帧、30帧提升了2倍左右。最直观的表现就是明星面部皮肤的细节也能清晰可见。
而在触达用户环节,依托于CDN遍布全球的1500+节点分发网络,进行精准流量预测、实时智能调度,保障内容极速、精准分发到用户端。
/4K超高清、智能视频生产首次大规模应用/
视频清晰度作为衡量用户体验的重要指标,也是技术团队十分关注的方向。4K首次在本次猫晚中得到了应用,通过阿里云直播服务提供实时4K直播,将4K超高清、高帧率的视频实时处理,整体画质得到了大幅提升。
1、在4K视频的处理上,直播服务大规模使用GPU进行视频处理及转码,大大提升了实时视频处理能力,保证了直播视频最高4K的HEVC实时转码。阿里云直播服务负责人李彬表示,目前4K高清的能力不仅仅应用在双11场景,游戏直播客户也在广泛使用。
2、在智能高效方面,视频智能生产也是首次在双11直播中大规模应用。例如,基于ASR技术自动识别直播字幕,并通过云导播为千牛头条直播提供实时字幕服务。阿里云视频智能产品矩阵还包括视频智能审核、视频DNA、视频多模态内容理解、智能封面、智能视觉等,致力于让智能赋能于视频生产、传输、消费的完整链路。
3、阿里云边缘节点服务(ENS)也加入了双11护航阵营。在手淘上,ENS构建了超低延时的互动直播网络,面对双11的流量洪峰,ENS能够做到超低成本、快速、安全可靠地弹性扩容。同时,视频能力和边缘计算的深度结合,也可以将视频的分析和计算业务直接下沉到边缘,为客户创造更大价值。
值得注意的是,在海外,阿里云视频还为东南亚最大的B2C平台Lazada提供独家直播解决方案,帮助Lazada把双11晚会推送到泰国、马来西亚等国家,让东南亚的消费者通过娱乐、乐趣和互动参与到双11的狂欢中。
阿里云视频云总经理叔度表示,
经过了历年双11的洗礼,阿里云视频云已经发展成为一个日连接10亿设备的超大规模媒体处理、分发平台。在未来,依托于场景化CDN内容分发和边缘计算技术,视频的智能分析、高清转码等能力会下沉至用户10公里范围内,这就为用户的视觉体验升级创造了条件。阿里云会持续构建更低延时、更高清、更智能的视频服务,为客户创造更多价值。
揭秘天猫双11背后:2500万超高清直播的“硬实力”
2018天猫双11已经过去一周,各路快递也在快马加鞭送到大家手中。但对于剁手党而言,天猫双11也不仅仅是简单意义上的“买买买”,更是一场边看边玩的狂欢盛宴。
作为双11的必备节目,今年的猫晚通过优酷、浙江卫视、东方卫视进行了全程网络直播和电视直播,吸引了超过全球超过2.4亿人收看。猫晚期间,优酷基于阿里云最新的广播级高可靠直播方案,为近2500万的观众带来了超高清、流畅的观看体验。
大家一定还记得今年俄罗斯世界杯期间,阿里云承包了全网70%的直播流量,据相关技术负责人介绍,本次猫晚直播解决方案带来了全新的能力,例如首次引入了4K以及视频智能生产技术,观看体验得到了进一步提升。
从上行链路、云端内容生产到极速分发的全链路支持
阿里云视频云直播服务为今年猫晚直播提供了从上行,云端内容再生产到分发的全链路技术支持和保障,整套直播系统达到广播级的稳定性:
l ● 上行链路采用多网接入和视频流合并功能,确保上行链路的高可用;
l ● 视频处理中心采用异地多中心多机房部署,即一个直播频道同时通过多个区域的直播集群进行处理,一个区域出现任何故障,可快速切换至新区域避免中断,确保视频处理环节的高可用;
l ● 采用阿里云CDN进行全球直播分发,受益于CDN系统针对突发活动的流量预测和实时调度系统,保证视频播放的流畅。
当连续的图象变化每秒超过24帧画面以上时,根据视觉暂留原理,人眼看到的就是平滑连续的视觉效果,而如果需要更高清的体验,这远远不够的。
在云端内容处理环节,直播转码全面覆盖了从360P到4K超高清的分辨率,并延用了在世界杯上的“50帧”技术,也就是说画面帧率达到了每秒50帧,比目前网络视频的25帧、30帧提升了2倍左右。最直观的表现就是明星面部皮肤的细节也能清晰可见。
而在触达用户环节,依托于CDN遍布全球的1500+节点分发网络,进行精准流量预测、实时智能调度,保障内容极速、精准分发到用户端。
4K超高清、智能视频生产首次大规模应用
视频清晰度作为衡量用户体验的重要指标,也是技术团队十分关注的方向。4K首次在本次猫晚中得到了应用,通过阿里云直播服务提供实时4K直播,将4K超高清、高帧率的视频实时处理,整体画质得到了大幅提升。
l ● 在4K视频的处理上,直播服务大规模使用GPU进行视频处理及转码,大大提升了实时视频处理能力,保证了直播视频最高4K的HEVC实时转码。阿里云直播服务负责人李彬表示,目前4K高清的能力不仅仅应用在双11场景,游戏直播客户也在广泛使用。
l ● 在智能高效方面,视频智能生产也是首次在双11直播中大规模应用。例如,基于ASR技术自动识别直播字幕,并通过云导播为千牛头条直播提供实时字幕服务。阿里云视频智能产品矩阵还包括视频智能审核、视频DNA、视频多模态内容理解、智能封面、智能视觉等,致力于让智能赋能于视频生产、传输、消费的完整链路。
l â  阿里云边缘节点服务(ENS)也加入了双11护航阵营。在手淘上,ENS构建了超低延时的互动直播网络,面对双11的流量洪峰,ENS能够做到超低成本、快速、安全可靠地弹性扩容。同时,视频能力和边缘计算的深度结合,也可以将视频的分析和计算业务直接下沉到边缘,为客户创造更大价值。
值得注意的是,在海外,阿里云视频还为东南亚最大的B2C平台Lazada提供独家直播解决方案,帮助Lazada把双11晚会推送到泰国、马来西亚等国家,让东南亚的消费者通过娱乐、乐趣和互动参与到双11的狂欢中。
阿里云视频云总经理叔度表示:“经过了历年双11的洗礼,阿里云视频云已经发展成为一个日连接10亿设备的超大规模媒体处理、分发平台。在未来,依托于场景化CDN内容分发和边缘计算技术,视频的智能分析、高清转码等能力会下沉至用户10公里范围内,这就为用户的视觉体验升级创造了条件。阿里云会持续构建更低延时、更高清、更智能的视频服务,为客户创造更多价值。”
云场景实践研究第46期:吉利汽车
更多云场景实践研究案例,点击这里:【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
吉利汽车互联营销服务平台,是吉利集团营销域新一代互联网化核心业务系统。整套系统完全构建在阿里公共云平台上,按照企业级互联网架构的理念去构建,使用了包括IaaS服务、Aliware中间件服务、云盾服务和大数据服务在内的全系列阿里公共云服务。同时借鉴阿里巴巴能力中心和微服务的思想,采用Aliware为基础平台,建设了会员中心、交易中心、支付中心、物流中心等能力中心,并以这些能力中心为基础,为吉利集团的其他业务提供IT技术和运营的支持。
除了互联营销服务平台,吉利汽车已经在将越来越多的应用迁移到阿里云上使用,并通过阿里云的服务来直接解决以前在自建IDC需要大量成本才能解决的问题,比如商城秒杀活动、视频直播、在线客服等。
--吉利公司
采用的阿里云产品
阿里云企业级分布式应用服务 EDAS
阿里云分布式关系型数据库服务 DRDS
阿里云消息队列服务 MQ
阿里云业务实时监控服务 ARMS
阿里云laaS服务
阿里云云盾安全服务
阿里云负载均衡服务 SLB
阿里云对象储存 OSS
阿里云内容分发网络 CDN
使用阿里云的意义
省去了采购硬件基础设施的麻烦,加速项目上线过程,加速了客户业务创新的过程。与此同时,与消费者的各种触点,与车的实时连接,必然存在大并发访问的大数据量存储和处理的场景,采用云计算的架构具有天然优势。
关于吉利汽车
吉利集团总部设在杭州,在浙江台州、宁波、湖南湘潭、四川、成都、陕西宝鸡、山西晋中等地建有汽车整车和动力总成制造基地,现有博瑞、博越、帝豪系、远景系、金刚系等10多款整车产品及1.0L-3.5L全系列发动机及相匹配的手动/自动变速器。 吉利汽车集团在国内建立了完善的营销网络,拥有800多家品牌4S店和近千个服务网点;在海外建有近350个销售服务网点;投资数千万元建立国内一流的呼叫中心,为用户提供24小时全天候快捷服务。截至2016年底,吉利汽车累计社会保有量超过500万辆,吉利商标被认定为中国驰名商标。 吉利汽车所属公司浙江吉利控股集团以314.298亿美元营收位列第343位,强势攀升67位。自2012年首次进入《财富》世界500强榜单以来,吉利控股集团已连续6年上榜。而在净资产收益率榜上,吉利在中国公司中排名第四,中国车企中排名第一。
业务之痛
本案例的项目主要是涉及的吉利互联营销服务平台,覆盖汽车主机厂销售、售后及客户关系管理三大业务板块,传统的主机厂方案一般通过DMS(经销商管理系统)和CRM(客户关系管理)两大软件加部分定制化开发完成,这类方案一般会带来用户使用体验差、数据不及时、功能迭代更新缓慢等问题。吉利汽车对于本系统的要求是能实现接触、选车、试驾、买车、售后服务等全客户旅程的业务线上化,摈弃纸件表格等非实时及手动的业务流程,并需要和集团现有业务系统及生产端系统数据实时打通。为了支持新的业务需求,吉利汽车当时面临两个选择:使用已有汽车行业成熟技术方案快速上线,还是利用云计算和互联网技术进行从零开始创新。经过多次的交流和成功案例的激励,吉利汽车认识到企业的重点在于业务的创新和运营,基础设施和通用组件的建设可以交由专业的团队处理,从而确立了本项目全面采用云计算的策略并开始拥抱阿里云。拥抱阿里云
基于以上考量公司开发了吉利汽车互联营销服务平台,整套系统完全构建在阿里公共云平台上,使用了包括阿里云IaaS服务、Aliware中间件服务、云盾安全服务和大数据服务在内的全系列阿里公共云服务。同时,吉利汽车基于现有业务需求设计了全新的基于互联网架构商城、社区和官网,构建了客户旅程的全新体验。借鉴阿里巴巴能力中心和微服务的思想,采用Aliware为基础平台,建设了会员中心、交易中心、支付中心、物流中心等能力中心,并以这些能力中心为基础,为吉利集团的其他业务提供IT技术和运营的支持。
前端使用SLB作为负载均衡集群分摊大量to C业务的请求,应用系统基于EDAS企业级分布式应用服务进行开发,后端数据库使用DRDS分布式数据库来保障高并发的业务请求和大容量的业务数据存储,由RDS for Redis来提供缓存服务,OSS+CDN来为不同网络接入用户对于图片、视频等文件的提供更好的使用体验。
后记
除了互联营销服务平台,吉利汽车已经在将越来越多的应用迁移到阿里云上使用,并通过阿里云的服务来直接解决以前在自建IDC需要大量成本才能解决的问题,比如商城秒杀活动、视频直播、在线客服等。吉利互联营销服务平台作为国内首家主机厂营销系统上云的案例,标志着国内大型企业对于公有云的接受程度已经大幅提高,在日益要求快速变化、创新及高效的行业背景下,相信吉利汽车还将优先选择阿里云作为创业业务的基础设施。
关于XX的更多实践详情:吉利汽车借助阿里云进行汽车行业新零售模式探索
原文发布日期:2017-02-26
云栖社区场景研究小组成员:郭思乔,仲浩。
华栖云携阿里云首发云上电视台服务:致力于把电视台搬上云端
5月23日,华栖云携手阿里云宣布,正式推出国内首个“云上电视台”解决方案,致力于为视频节目制播单位打造一个云端媒体核心生产业务资源平台,提供高清视频在公共云上安全的采、编、播、存、管等业务。用户可以根据自己的业务规模,申请对应的服务类型,即开即用,弹性伸缩。
(图:阿里云官网已开放云上电视台的购买与咨询服务)
云上电视台方案基于阿里云公共云平台打造,华栖云提供媒体专业技术及架构支持。该平台有着5大标准级媒体处理能力配置:高性能云端媒体存储、高速的媒体网络服务、GPU媒体渲染服务、高效的媒体云桌面VDI服务、完善的媒体安全服务。在该平台上,华栖云与阿里云携手提供专业媒体SaaS服务、专业视频云服务,可以支撑视频媒体机构绝大部分核心业务系统的运行。
与其他行业不同,广播电视级别的素材和互联网素材相比,分辨率更高,素材量更大,并发读取写入高。最典型的非线性编辑系统在实施编辑多层高清素材时,对顺序读写、IO延迟都有极度苛刻的要求。阿里云云上电视台解决方案依托于阿里云的高带宽、低延时NAS Plus存储服务,可适配2K、4K视频精编的云端在线共享存储,一个存储域内支持上万高清站点同时编辑。NAS Plus,作为阿里云文件存储NAS的升级款,提供高达200Gbps的吞吐性能和低至1毫秒的超低延迟,支持12层4K媒体编辑能力,比一般多媒体处理性能高10倍。并且针对广电场景进行了深度优化,包括进程级别防火墙,加密,多级存储;虚拟化hardlink共享,智能拼接,帧级共享,快速检索;单一数据资源池完成采、编、播、管、媒资库保存全流程共享等等。
在媒体工作中,一台低端的笔记本电脑,如果安装非线性精编工作站,编辑一层高清视频都很困难,但是通过阿里云端的高性能的GPU服务器实例,实时编辑高达10层高清视频节目,并且随时随地接入,在5-10Mbps带宽下可获得如同本地的操控体验。阿里云的单个GPU服务器实例可提供 32 GiB 的 GPU 显存、提供 8192 个并行处理核心、15.08 TFLOPS 单精度浮点运算能力和 1 TFLOPS 双精度峰值浮点能力。计算性能非常稳定,无固定的CPU和Memory配比,使用最新一代的DDR4内存,并且实例计算规格越大,网络性能越强。
此外,电视播出事故是广播电视的致命问题,所以预先有完善的防范机制和稳定、安全的系统支撑,对播出来说是首要条件。阿里云拥有的多项目国际安全认证,与华栖云一起为云端系统建立三级等保标准服务,融合了DDoS防御、区域安全隔离、深度入侵防御等技术,充分保障用户应用的安全性。
云上电视台这一解决方案的发布,势必会带来整个媒体行业业务模式颠覆性改变的连锁反应,通过阿里云技术的保障,及华栖云专业媒体业务能力,媒体核心生产系统云端运行将逐渐成为未来的趋势。
云上电视台带来媒体生产流程的创新再造
从媒体行业趋势来看,生产流程的再造已成为行业内必经的一场革命。在互联网云计算时代的背景下,传统电视节目制作方式已经不能适应业务飞速发展和多元化发展的需求。
过去的视频节目拍摄,特别是异地节目制作,需要近百人奔赴现场进行拍摄,现场编辑,编辑完成的成品需要由人带回到电视台内进行审核以及最终的播出,并且不同的播出渠道无法快速的共享同一素材或成品节目。这样繁琐的工作流程,极大的降低了工作人员的效率,使电视台无法将更多的精力花费到内容的打磨中去。
在这样的背景下,新的技术发展势必引发新的流程再造。在云端全面实现融合汇聚、融合生产、融合发布、融合运营等各类业务流程的创新。
融合汇聚流程,通过对互联网热点内容、大数据分析内容以及信号采集/收录内容的汇聚,形成统一的内容库进行管理。同时,由于摄像机、导播台等各种专业设备搬上云端,使得人员可以利用摄像机直接将拍摄的高清视频素材文件/流上传云端,同时能利用云端广播级导播台切换最高64路高清信号,将以往独立非互联网内容的专业视频内容,统统汇聚到统一的入口中来,并且通过视频智能标签技术针对统一内容库快速建立及引用。
融合生产流程,利用云端无处不在的特点,让媒体生产环节摆脱地域的限制,在统一的内容库之上,提供满足融合媒体生产的全套工具集,包含专业高清视音频生产工具、新媒体内容生产工具、H5/图文生产工具。云端生产支持12轨高清视频实时编辑,同时,通过语音识别、图像识别、片段识别、智能标签、画面修复等技术,以及视频类非结构化数据智能标签技术,提高生产流程的效率,真正实现无处不在、随时随地的新闻报道和节目制作。
融合发布流程,在有了汇聚生产流程创新之后,融合发布是将传统媒体端如电视/报纸/广播/IPTV/OTT等与新媒体端如网站/APP/微信/微博等渠道统一管理,做到一稿多发,一键发布。
阿里云领先的CDN服务,亦提供了便捷的加速服务,提升用户体验。
云上电视台带来融合媒体运营创新
云上电视台不仅仅能提供媒体核心的生产能力,还能提供各种针对媒体行业的运营手段。在云上电视台解决方案中,使用了阿里云大数据引擎,实现数据集成、数据分析、流计算、大数据应用编排、大数据展现等全系列功能。通过云上电视台架构中的大数据平台,将电视端、IPTV、OTT、APP、网站的数据整合起来,构建起以观众为基准的内容库、用户库、经营库,并可将所有数据资产化、标签化,从而开发多个方向的大数据应用。如媒体整合传播、内容推荐服务、舆情大数据、用户画像/情感分析、广告大数据等等。
除此之外,通过云上电视台方案连接阿里的互联网生态及电商能力,支撑媒体机构融合运营业务。利用新媒体APP、微信、微博的终端以及直播、点播、多屏互动等新兴的内容运营形式,将互联网运营模式给电视台注入运营新能力。例如,媒体机构可以通过与支付宝的合作,支持周围区/县/小区/街道的民生服务,支付宝支持政务服务、医疗服务、交通出行、车主服务、气象环保、文化生活、充值缴费、综合服务,9大服务类别、100多种小项服务。未来还将规划电商服务、小微金融、信用服务等其它智慧服务。电视电商方面,浙江卫视联合天猫播出的双十一晚会,电商多屏互动贯穿晚会的多个环节,通过手机“摇一摇”,就可以直接跳转到相关的“双十一”页面,从而一键下单购买。
云上电视台发挥资源集约化能力
目前,传统电视台内各个业务系统资源独立,每当业务有峰值需求时,都是占用尽可能多的资源来保障。但是全年的峰值需求往往和大活动大事件相关,波峰波谷明显。另外业务负荷的不清晰,导致设备的使用效率低下,资源冗余严重。而底层平台不统一,导致增加新业务时响应速度慢,物理服务器增加,从购买到业务上线,至少需要数个月时间。随着业务的发展,传统的系统架构对于业务人员和技术人员来说,难管理、升级慢、配置复杂、维护困难等问题急需解决。
在这一背景下,通过标准化云架构,将所有资源集约化管理、分配、维护,利用云资源的共享、弹性扩展的能力和特点,保证资源的有效利用的同时,满足业务峰值需求。例如,现在有十台服务器支持视频渲染功能,而当用户需要渲染超复杂视频场景时,云资源管理平台会马上调用后台另外成百上千台服务器来对该动作提供支撑。
因此,云上电视台解决方案是适应各级媒体、制作机构未来业务发展的最佳选择。利用云计算、大数据、互联网中间件、安全防护体系、广泛的海量资源,可以让电视台的业务在云上延展、让用户的体验更优异、让服务更安全、让数据能产生更多的价值,让业务更灵活、更弹性、更丰富。
身为码农,为 12306 说两句公道话
我曾在淘宝写过一段时间代码,2012年在一家百强民企做电商副总,当时在极为艰苦的条件下带队开发了一个B2C网站,走支付宝和银联支付通道,年营业额千万级(当然实在太少了,我只是说这个网站投入了实际的运营)。
也就在那个时候,我对12306嗤之以鼻,觉得他们做得太烂了,认为自己能带队花几百万半年时间做个好的出来。于是我狂妄地想做一个开源的订票系统 给他们。我花了一个星期时间思考建立数据模型,思考到库存这一步的时候,我才发现,12306的库存复杂性比淘宝、京东高很多倍,运算量也大很多倍。传统 的分布式数据库、缓存、负载均衡技术并不能恰好满足12306的需求。
在平时,12306也就是个正常的电商网站。但一到黄金周,12306就是一个全站所有商品都秒杀,所有SKU都是动态库存的变态。
即使不考虑线下既有的电话、代售点等渠道,要实现一个12306,最少最少也是千万级别的硬件投入(这是当时的估算,没有精算,可能与实际相差较 大,总之,我说得不一定对,12306的业务也许没我说的那么复杂,但也绝不是某些人喷的那么简单),软件和人力另算。那些叫嚣只要40台服务器、只要2 个架构师4个程序员、大谈分库分表和前端CDN的人们,只是纸上谈兵罢了。所谓初生牛犊不怕虎,做了三年CMS和BBS,就以这个经验来喷12306,未 免太天真了。
媒体人喷12306,是他们不懂技术,没有能力和耐心来分析背后的难度。技术人员喷,则是因为大部分的技术人员在短时间思考时,容易陷入过于乐观的 误区,经典的例子就是估算工作量,程序员们往往容易估算出一个超短的工期,把写程序的工作乐观地想象成了打字员照稿敲键盘的工作。
知乎那篇文章,我觉得不是洗地。排名第一和第二的答案都说得很客观。淘宝技术是比12306强大很多倍,淘宝现在的系统也是花了10倍于12306的钱、时间和人才做起来的。根本原因还是铁路运力不能满足春运需求,淘宝也解决不了这个问题。
12306这一年来进步非常大。从前段动画验证码、分时段抢票,到后端去小型机、虚拟化、内存数据库的运用。可以说,12306是中国政府机关做的 最强大的网站(电商系统),能在短短一两年内做出这样的改变,几乎是个奇迹,就连一些市场化的民企都望尘莫及,甚至一些上市公司都比不上它!(比如 51job和ctrip)。
事非经过不知难,在网上批判12306的人,大部分还是形成了【国企 = 垄断 + 腐败 + 低效 】的思维定势。小部分是真的轻视了它的难度。
至于12306一期工程3个亿(含硬件)贵不贵我不评价,我只提供一个数字供参考,百度一年的研发费用(不含硬件)是10亿,这个数字来自百度财报。网上能查到。3亿看起来好大一个数字,真用到超大型的电商系统、搜索引擎系统里面,其实也不算什么天文数字了。
再解释一下,为什么秒杀压力大,以及为什么12306的动态库存很复杂。
先说秒杀
2013年12月25日前后,天猫搞了一个圣诞季积分兑换活动,持续几天。25号上午10点12分,放出了15000个天猫魔盒(淘宝集市有人卖,大概190-230块),从成交记录上看,是19秒内全部抢完。
实际上,我也参加秒杀了,那天的题目特别简单(请输入xxx汉字的拼音首字母),我应该是5秒内答题完成并提交订单,结果告诉我排队的人太多,挤不 进去,并提示14秒以后重试。人太多就是因为题目太简单了,门槛越低,5秒内挤进去的人也越多嘛,如果题目换成【2克浓度为3%的U235在大亚湾核电站 能发多少KW的电】,5分钟之内也不会有1万5千人跟我竞争。
我想,14秒以后哪还有我的事情呀,于是重新答题秒杀,结果出现了服务器错误的页面。反复刷新几次,就告诉秒杀结束了。
在群里问了一下同事,有不到10个人回答我,都说没秒到(也可能秒到的人闷声发大财,不回复我)。
淘宝是什么技术水平呢,淘宝有至少4000技术人员,至少4万台服务器(这都是两年前的公开数据了,按规定可以谈论),2013年11月11日成交额351亿,2012年全年成交额超过1万亿。
淘宝拥有各种自主研发团队:服务器、交换机(网上可以搜索到淘宝公开的绿色服务器开放标准);操作系统(Linux Kernel taobao版,yunos手机操作系统是阿里云的,暂时不计入)、Web服务器(Tengine)、Java语言虚拟机(JVM taobao版)、数据库(MySQL内核 taobao版,google和facebook也有自己的版本,HBase淘宝版、还有自己全部从头开发的OceanBase)、负载均衡器 (LVS,LVS始创人就在淘宝,担任研究员)、Java运行容器(Jboss,其创始人之一,王文彬,也在淘宝,担任副总裁)。
淘宝还有数不清的开源项目和中间件,如高性能Java通信中间件HSF、分布式数据库中间件TDDL、异步消息系统notify等等等等。
以淘宝这样的技术水平,也不能做到秒杀时让每个用户都没有拥挤感,为什么呢?
一是要尊重物理原理,一台服务器一秒钟能承受的计算量是有极限的,任你怎么优化,采用多高效的算法和编程语言, 都突破不了某个极限,比方说汽车发动机驱动的F1赛车至今也不能突破400公里的时速(超音速推进号那个1千多公里的时速不能算,那是飞机引擎驱动的)。 再往深了说,就不容易懂了。感兴趣的可以从著名的C10K问题开始看起。
二是要考虑经济效益,十一黄金周的时候,北京主城区到八达岭长城的路堵得严严实实,但不能因为黄金周的高峰,就 把这段路修成长安街那样10车道的高速公路。否则的话,花费天文数字(真的是天文数字,12306那3个亿大概只够修1-3公里)。修了一段路,黄金周是 可以飙到80公里/小时了,可平时呢,拿来给两边的居民晒谷子?
淘宝目前的硬件和带宽数量,已经超出日常运营的需求了,就是留了相当大的余量给大促销(众所周知的是双十一,双十二,其实基本每个季度都有大促销, 每个月都有促销,甚至天天都在促销——聚划算)。amazon当年就是为了应对黑色星期五的大促销购置了大量的服务器,平时订单量没那么大 了,amazon就把富余的服务器拿来搞云计算了。顺便说一下,阿里云是当今中国第一世界数一数二的云计算服务商,和amazon走的路也有点像。
再说动态库存
淘宝秒杀天猫魔盒的时候,只有一个商品(行话叫做SKU),它的库存是15000个。有一个人秒杀到了,库存就减1,19秒卖完的,一秒要成功产生 789个订单(下订单的请求可能是8万个,只是可能啊,非实际数字,也可能是1万个,用于说明一下壮观程度)。想象一下,你在广场上卖火车票,一秒钟有8 万人举着钱对你喊:卖给我!
上过大学的人都知道,比秒小的时间单位还有毫秒、皮秒、飞秒。但交易系统登记一个交易可不像电子绕着原子核跑一圈那么简单,它要做这些事:检查是否 恶意访问、取到系统时间、取到顾客默认收货地址、核对顾客秒杀资格(当时的规定是天猫T2.T3达人)、生成订单号、把顾客ID系统时间订单号收货地址写 入订单系统、扣除顾客天猫积分、商品库存减一、给顾客打标记(每人只能秒一个,下次不能秒了)等等,这每一件事都要花费毫秒级别的时间,这些操作加起来的 时间可能是接近1秒级别的,但由于淘宝的服务器比较强悍,而且采用了分布式和集群技术,结果比1秒理想一点。但即使有1万台服务器,也不能把这个时间稀释 成万分之一秒,因为,商品只有一种,它有15000个库存,对应的数据库记录只有一行,所有的交易请求都要到这里来处理。
能不能把这15000个拆分成5000个商品并分配到5000台服务器上呢?那样不就可以5000台服务器同时处理了吗?答案是不能,首 先,5000个商品,意味着有5000个商品详情页,5000个购买按钮,这对前期的营销、引流是个灾难。基本上就没法做引流入口了,显然这违背了商业管 理原则,人为增加了信息混乱程度。其次,天猫魔盒秒杀也不是啥大事,即使按官方标价399元来计算,也就6百万的交易。如果6百万的交易要花费那么大的配 套成本,那就太不划算了。再次,淘宝有十几亿商品,这十几亿商品的展示交易和管理,本来就是分布到上万台服务器上去了。没有必要再把每个商品按库存拆成多 个商品了。
这789人抢到了,还不一定会付款(99积分换天猫魔盒还好一点,不需要去网银,成本也极低,大部分是会付款的,3999秒杀iPhone 5S就不一定,有人可能网银有问题,有人可能改变主意不想要了),所以就又带来订单取消重新恢复库存的问题。还有想要的消费者们,会认为还有机会,继续在 前台刷一会儿,最终这个秒杀会被热情的消费者们猛刷30秒到1分钟。
(超卖这一部分科普笔法写得有错误,鉴于12306目前全在内存数据库中读写,没有产生超卖问题,先把这个段落删去。感谢@吹西门的雪 指正)
好了,讲了这半天淘宝,可以说12306了吧?
我以北京西到深圳北的G71次高铁为例(这里只考虑南下的方向,不考虑深圳北到北京西的,那是另外一个车次,叫G72),它有17个站(北京西是 01号站,深圳北是17号站),3种座位(商务、一等、二等)。表面看起来,这不就是3个商品吗?G71商务座、G71一等座、G71二等座。大部分轻易 喷12306的技术人员(包括某些中等规模公司的专家、CTO)就是在这里栽第一个跟头的。
实际上,G71有136 * 3 = 408种商品(408个SKU),怎么算来的?请看:
如果卖北京西始发的,有16种卖法(因为后面有16个站),北京西到:保定、石家庄、郑州、武汉、长沙、广州、虎门、深圳……都是一个独立的商品,
同理,石家庄上车的,有15种下车的可能,以此类推,单以上下车的站来计算,有136种票:16+15+14….+2+1=136。每种票都有3种座位,一共是408个商品。
好了,再看出票时怎么减库存,由于商务、一等、二等三种座位数是独立的,库存操作也是一样的,下文我就不再提座位的差别的,只讨论出发与到达站。另外,下文说的是理论世界的模型,不是说12306的数据库就是这么设计的。
旅客A买了一张北京西(01号站)到保定东(02号站)的,那【北京西到保定东】这个商品的库存就要减一,同时,北京西到石家庄、郑州、武汉、长沙、广州、虎门、深圳等15个站台的商品库存也要减一,也就是说,出一张北京到保定东的票,实际上要减16个商品的库存!
这还不是最复杂的,如果旅客B买了一张北京西(01号站)到深圳北(17号站)的票,除了【北京西到深圳北】这个商品的库存要减一,北京西到保定 东、石家庄、郑州、武汉、长沙、广州、虎门等15个站台的商品库存也要减1,保定东到石家庄、郑州、武汉、长沙、广州、虎门、深圳北等15个站台的商品库 存要减1。。。总计要减库存的商品数是16+15+14+。。。。+1=120个。
当然,也不是每一张票都的库存都完全这样实时计算,可以根据往年的运营情况,在黄金周这样的高峰时段,预先对票做一些分配,比如北京到武汉的长途多 一点,保定到石家庄的短途少一点。我没有证据证实铁道部这样做了,但我相信,在还没有12306网站的时候,铁道部就有这种人工预分配的策略了。
想象一下,8万人举着钱对你高喊:卖给我。你好不容易在钱堆里找到一只手,拿了他的钱,转身找120个同事,告诉他们减库存,而这120个同事也和 你一样被8万人围着;也和你一样,每卖出一个商品要找几十个人减库存。。。这就是12306动态库存的变态之处。比你平时买东西的任何网站的库存机制都复 杂几十上百倍。
再说一下抢票插件
机器永远比人快,当你好不容易从8万人里突出重围,来到了柜台前,你发现,我操,来了10万根绑着钱的竹竿,而且当有退票出来的时候,你要闯过3层 人肉才能接近柜台,竹竿在8个人身后一伸,钱就到了柜台前。你低头看了一眼手机,票就没了,竹竿却永远在那里伸着,永不低头,永不眨眼。如果没有这10万 根竹竿,虽然你很可能还是抢不到票,但不至于沮丧成这样:我TM为什么总是手最慢的一个?!!
防机器人抢票,也不是加个图片验证码那么简单。我写过文章系统性分析过,图片验证码有6种机器暴力破解的办法,抢票插件用的是我说的第三种,OCR 识别。Google采用的Wave波形字母已经能比较好地防住机器OCR了,ems.com.cn上的验证码就是反面教材,机器OCR成功率接近 100%,12306的比ems的图片验证码强一点。不过,验证码设置得复杂一点吧,人们要喷:这只是便宜大学生和办公室白领,农民工连26个字母都认不 齐,怎么搞?搞动画验证码吧,也有人喷,视力不好的人怎么办?最后验证码搞得太简单了,皆大欢喜了,其实最高兴的是开发抢票插件的公司。
就算采用了机器完全不可能识别的验证码,也防不住社会工程学的破解办法。招募一堆网吧打游戏的青少年朋友,每成功输入50个验证码给1块钱,或者等 值的虚拟货币、游戏装备,我保证想赚这个钱的人数不胜数。这点钱对转卖车票的利润而言,是可以接受的成本。有没有什么技术可以防住社会工程学的破解办法 呢?能防住网吧青少年的验证码只有【2克浓度为3%的U235在大亚湾核电站能发多少KW的电】。
没有历史包袱从零起步的交易系统?
以上讨论只是把12306当成和淘宝一样没有历史包袱从零起步的交易系统,实际上,它不是,它后面的票池,还有电话售票、火车站售票、代售点售票等多个传统渠道要服务。除了客运服务,12306还有全国最大(很可能也是全球最大)的大宗物资货运系统。
架空政策(包括定价政策、警方打击黄牛政策、身份验证政策)谈技术,是不可能解决春运抢票困局的,要想让春运的时候每个人在12306抢票都毫无拥 挤感(但不一定能抢到票,铁路运力摆在那),那就是逼着12306买一大堆服务器对付春运,春运过去后,成为跟amazon一样牛逼的云计算服务商。和逼 北京修一条10车道的高速公路去八达岭长城一个道理。
目前的12306技术上是还有问题,比如,抢票高峰,输入个身份证号和图片验证码都卡得要死(本人亲测),服务器端繁忙,你浏览器端卡什么呀。
但人家在进步。相信2014年春运的时候,技术已经不再是一票难求的主要问题。在铁路运力不可能神速增加(孙中山先生计划的20万公里铁路,土共修了快70年,才修到10万公里)的情况下,要做到春运更公平地买票,需要停靠政策调整。
非常时期有什么解决方案?
下文针对的是春节国庆这种非常暑期。其它时期,大部分线路保持现状就行了,问题不大,极少部分票源紧张的线路可以按春运处理:
拍卖法,价高者得之
当硬座票拍出飞机票价格的时候,相信票就不难买了(可惜就是贵了),也没有那么多黄牛了。要说淘宝有什么能帮12306一下子搞定技术问题的,淘宝的拍卖系统可以帮忙,浙江省高院在淘宝拍卖一年多,成交26亿。
可惜这个方法不可能实行。现在的高铁票价都被媒体和意见领袖喷成啥样了,何况是拍卖。再说,火车票毕竟是生存之刚需,票价20年来不涨本来就有照顾补贴的成分在里面,全拍卖可能也是不妥当。
抽签法,运气好者得之
开车前2个月开放报名,开车前7天抽签,中途可取消。预存票款,抽不中退款。上传身份证和正脸自拍照,机器核对。
这样的话,拦截黄牛的成功率就高很多了,黄牛可以预存票款,可以找到大量真实身份证号,你黄牛再让每个给你身份证号的人把身份证照片和脸部自拍也给 你试试?即使有人真想找黄牛,给身份证照片还是会犹豫一下吧。而且中间手工操作多了很多,黄牛成本提高,还不一定搞得到票。反正都是碰运气,我想真正的消 费者还是会选择自己先去碰运气吧。
这个方法实施难度也大,无论怎么设计抽签规则,必然有人大叫“有黑幕,不要相信政府”。
开车前7天出抽签结果,改变行程的人应该在7天前就能决定改还是不改了。没抽到的也还有时间想别的办法。当然不一定是7天,15天,10天也可以,具体几天要有数据模型来算。
拍卖 + 抽签
软卧、高铁商务座等高价位的,拍卖,反正买这个的是经济能力相对较强的。那就拼谁经济能力更强吧。
硬座、站票抽签。
凭身份证进站,车票跟发票一样,是报销凭证,不是进站凭证;退票后钱进入12306账户,不可提现,只可该乘客下次乘车用;黄金周期间,个人账号最多订购10张票
这个办法可以打击黄牛囤票再转卖。运行一段时间后,按账户余额弄个排行榜就知道谁是黄牛了
可惜这个需要车站设备改造配合。
文章转载自 开源中国社区 [http://www.oschina.net]
我被“非结构化数据包围了”,请求支援!
阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%。换句话来说,就是我们都被“非结构化数据”包围了。由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使用成为了难点。如果说结构化数据用详实的方式记录了企业的生产交易活动,那么非结构化数据则是掌握企业命脉的关键内容,所反映的信息蕴含着诸多企业效益提高的机会。而对大部分组织而言,掌握先进的非结构化数据分析能力仍是从“大数据”中获得价值的重大挑战。当前,数据技术及产品部对结构化数据处理和应用已经具备了成熟的技术以及产品方案。为了应对日益增长的非结构化数据诉求,非结构化数据体系通过覆盖非结构化数据规范、数据设计、算法能力、服务能力等来解决这一问题,该体系是对OneData体系的非结构化数据的补充和完善。已经赋能了集团内很多业务取得了非常好的效果,而这只是刚刚开始。
非结构化数据概述
“非结构化数据”是什么?相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息等。
相对于结构化数据,非结构化数据具有以下特点:数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。
当前行业公认:非结构化数据占数据总量的80%以上。结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,非结构化数据包含各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。
图:非结构化数据的占比图 图片来源:《大数据分析行业网》非结构化数据没有预定义的数据模型,不方便用数据库二维逻辑表来表现。
下面对比一下结构化数据和非结构化数据的区别:
结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
结构化数据格式形式如图下:
图:结构化数据非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。
非结构化数据-图片格式如下图所示:
图:非结构化数据 图片来源:《数字时代》非结构化数据包含的信息量丰富。非结构化数据与结构化数据最大的区别在于蕴含信息量非常丰富,同样以图片为例,请看下图:
图:图片蕴含的信息 图片来源:淘宝你看到了多少信息?不妨我们一起看一看:
人物:女人,短发,佩戴项链,做了美甲,......
衣服:女装,黑色T恤,长袖,低领,白色裤子,薄款,紧身
文字:秋定制,流金诗意,2折包邮,custom
这是一些显性信息,可以看出一张图片里面的显性信息就已经很多了,当然还有很多隐形信息。比如:
1.衣服材质:纯棉2.特点:时尚的版型,贴身,显身材......
由此可以看出非结构化数据隐含的信息量非常丰富。
非结构化数据一般不能直接使用,需要通过算法等手段进行处理。但因非结构化数据本身的特点,处理难度大。比如:对评论文本信息的情感分析。为了实现情感分析,需要使用算法进行复杂的处理,通过大量的数据训练才能完成。以商品评论数据来看,对于结构化的评论如下表:
结构化评论数据可以直观看出用户感情是负向的。
同一个买家的非结构化评论:我在这家买了,缺少螺丝,商品还有划痕直接不管。
根据以上的评论内容,如果要确定买家的情感,就没那么简单了。需要使用NLP算法,并经过算法效果评估等一系列过程。
因此,当前非结构化数据的处理门槛还是很高,处理难度还比较大。
非结构化数据的价值及应用
非结构化数据因其包含丰富的内容、多样化的形态以及广阔的想象空间,必将引爆将来的市场,无论是娱乐、教育、医疗、生活等,都将产生更丰富的非结构化数据场景、使用更智能的数据处理方式。接下来,我们就针对当前的一些场景简单了解一下非结构化数据的价值。
ImageNet:改变AI和世界的图片[1]
2006 年,李飞飞开始反复思考一个问题。
当时的李飞飞才刚刚在伊利诺伊大学香槟分校(UIUC)任教,她看到整个学界和工业界普遍流行一种想法,都在致力于打造更好的算法,认为更好的算法将带来更好的决策,不论数据如何。
但李飞飞意识到了这样做的局限——即使是最好的算法,如果没有好的、能够反映真实世界的训练数据,也没办法用。
李飞飞的解决方案是:构建一个更好的数据集。
“我们要详细描绘出整个世界的物体。”李飞飞说。由此生成的数据集名叫 ImageNet。
相关论文发表于 2009 年,最初作为一篇研究海报在迈阿密海滩会议中心的角落展示出来。但没过多久,这个数据集就迅速发展成为一项年度竞赛,衡量哪些算法可以以最低的错误率识别数据集图像中的物体。许多人都认为 ImageNet 竞赛是如今席卷全球 AI 浪潮的催化剂。
尽管经历了很多艰辛,但是最终 ImageNet改变了人们认识数据和算法的方式。“ImageNet 思维所带来的范式转变是,尽管很多人都在注意模型,但我们要关心数据,”李飞飞说:“数据将重新定义我们对模型的看法。”
自 2010 年以来,谷歌、微软和 CIFAR 推出了其他一些数据集,因为事实表明深度学习需要像ImageNet 这样的大数据。
“图片,很多很多的图片”,作为非结构化数据的一种,ImageNet向我们展示了图片的巨大威力,而我们相信,这只是刚刚开始。
图: ImageNet 图片来源:《数据科学浅谈》店小蜜:智能客服的养成之道[2]
2016年3月,一个名叫“我的小蜜”的人工智能客服就出现在了手机淘宝和手机天猫的APP中,它可以说是店小蜜的前身,当时,它的主要工作是担当平台客服,为用户解决催发货、退货退款、投诉和售后保障等问题。“我们开发‘我的小蜜’,是为了让用户能以最快的方式找到解决问题的途径。” 小蜜的产品经理南山回忆起团队初创时的往事,这样说道。
整个淘宝天猫电商平台的用户有好几亿,如果让每个用户都能用快速客服通道来联系客服,显然会对淘宝客服团队造成巨大压力。怎么办呢?人力不能解决的问题,就靠技术来解决。客服人员忙不过来,就请智能客服来帮忙。阿里每天大量的真实交易互动,让用户的问题都以数据的形式沉淀下来。通过这些数据,开发团队可以得知哪些问题最高频。而这些数据也让小蜜不断地进行强化学习,变得越来越“聪明”,应答准确度越来越高。
客服系统产生的文本、语音成了丰富的宝藏,通过对这些文本、语音的智能化处理,店小蜜逐渐成为了“最懂电商的客服机器人”。
“知识,各行各业的知识”,店小蜜的成功从一个角度证明了对文本、语音的运用,可以释放出来的巨大能力。我们相信,这只是刚刚开始。
图:客服机器人 图片来源:浙江在线-钱江晚报智能安保:智能化办案[3]
2018年11月5日到10日,首届中国国际进口博览会在上海成功举办。本次进博会有一个大的亮点:智能安保。
在本次安保活动中,上海公安局“智慧公安”产品“智能警务中台”成功亮相,通过对辖区1.5万摄像头的全量接入,实时解析,实现民警的智能化办案。基于全网全视频数据结构化的提取,实现人、车多维特征布控,触网自动告警,融合视频结构化信息、MAC、IMEI、RFID等进行多维研判,对目标嫌疑人进行行为轨迹跟踪。
图:首届中国国际进口博览会 图片来源:环球网
“视频,流动的视频”,首届中国国际进口博览会上智能安保的成功应用,使我们相信了对视频监控智能化处理的巨大。我们仍然相信,这只是刚刚开始。
狂奔的应用:被“惯坏”的应用
随着网络的加速和人工智能的兴起,仿佛一夜之间信息流、短视频、网红直播这些新的娱乐方式涌现在人们面前,躁动的人们搅动着躁动的市场,躁动的市场搅动着躁动的应用。头条、抖音、斗鱼、小红书、淘宝直播等等新的娱乐或电商模式喷薄而出,网红经济、内容电商、信息流等新兴的词汇也如雨后春笋般涌现出来。正如苹果广告Think different里面描述的那样:“你可以赞美他們,引用他們,反对他们,质疑他們,颂扬或是诋毁他们,但唯独不能漠视他们。”也许你跟我一样,对某些产品不以为然甚至嗤之以鼻,但是新的娱乐形态毕竟挡无可挡,每个人都不能置身事外。
仔细分析,其实不难发现,当我们经历了互联网时代的洗礼,对信息的渴望被极大的唤起,常规的结构化数据交互已经不能满足人们的欲望,而伴随着技术成熟而来的非结构化数据:图片、视频、语音,正式登上舞台,催生着一个接一个的应用一路狂奔。
图:狂奔的应用 图片来源:百度百科
非结构化数据的问题和挑战
非结构化数据虽然具有很大的价值,但是当前对非结构化数据的处理和管理却存在很多问题和挑战,下面结合我们的理解对这些问题和挑战进行一个初步整理。
实体和关系分离
非结构化数据因为其自身不具有规整的形式,因此不能像结构化数据一样按照二维表的形式存储。因此其实体和关系是分离的。
举个简单例子:对于淘宝商品的图片,其商品的信息是通过二维表的形式存储的,但是主图的图片却存在在OSS中,需要通过cdn映射才能访问图片内容。
这种情况出现在大部分的非结构化数据的身上,实体和关系的分离,造成了场景分析的困难。如果我们单独看一张图片(可参考图:图片蕴含的信息),其蕴含的丰富的信息如果全部靠算法去处理,不仅耗费巨大的资源,而且无法追溯其来源、曝光、使用场景等,会造成大量精准信息的缺失。如果我们从结构化数据去看,却无法直接使用图片本身所包含的信息(图片的特点、图片包含的文字、图片包含的促销信息)等。实体和关系的分离,造成了非结构化数据使用的困难,降低了数据的完整性。
数据分散,未形成合力
无论是从ImageNet的例子还是从集团数据的角度去看,当前非结构化数据普遍存在数据分散的现象。而实际的生活中,数据不应该是分散的,而应该形成联动,更充分的发挥价值,便利我们的生活。
处理复杂,开发门槛高
现在对于非结构化数据的处理,离不开算法,依托于集团人工智能实验室、各个部门的算法团队,集团内智能化场景遍地开花,欣欣向荣。
但是,这并没有解决非结构化数据处理复杂,开发门槛高的问题。算法的高门槛和业务的高要求,制约了非结构化数据能力的释放。
随着5G时代的到来,各种新的应用产生的巨量非结构化数据,仅仅依托人工的合作形态,恐怕不足以很好的实现非结构化数据的使用。工具化、平台化、规模化将会成为将来的重点。
非结构化数据的思考
经过前文的描述和分析,我们对非结构化数据进行了深入的思考。
构建完整的非结构化数据资产意义重大
“单丝不成线,孤木不成林”,构建非结构化数据资产意义重大。当我们将分散的非结构化数据汇集在一起,会形成完整的用户、商品、内容、品牌等的数据集,会形成完整的资产视图和商业视图。数据汇集后,各个BU看数据的视角不再是孤立的,不再是受限的。从广度上来讲,能够从整个集团甚至整个市场的层面去查看业务的全貌;从深度上来讲,能够深入行业,形成行业专业化的知识,将业务深耕进去。
集成通用及专用的算法能力至关重要
当非结构化数据遇到MIT、PAI等集团强大算法平台或工具后,将会充分降低算法的使用门槛,充分发挥数据的价值。届时,80%的非结构化数据不再是放在仓库中积灰的矿石,而是可以被加工成闪闪发光的金子;算法不再是针对具体业务去赋能的途径,而是可以被规模化使用的利器。
提供标准化、快速的非结构化数据服务前景可观
当前无论是AWS、Azure还是阿里云,对于非结构化处理主要提供工具、算法,并没有针对数据本身提供解决方案,不同的行业数据应该如何组织、如何训练、如何形成行业知识库。所谓,提供了“器”,却没有提供“术”。而市场上很多数据公司,则专注于某个领域的数据,如公安、电商、咨询等行业,提供行业性的解决方案,并且取得了可观的成果。如果我们能够与业务深度结合,提供标准化、快速的非结构化服务,前景将会非常可观,小到BU,大到集团乃至外部市场,具备极大的想象空间。
非结构化数据的价值还远未充分挖掘,未来:广阔天地,大有可为。
非结构化数据作为一种数据量大、类型丰富、与人工智能可以深度结合的数据类型,将会发挥越来越大的价值。然而如何管理、使用、快速价值化非结构化数据,当前并没有很好的解决方案,我们团队在综合分析市场上的产品和深度思考后结合DT强大的数据能力,提出了“非结构化数据体系”的设想和解决方案。
参考资料:[1]ImageNet:改变AI和世界的图片https://www.sohu.com/a/160316515_680198[2]店小蜜:智能客服的养成之道http://www.sohu.com/a/131845725_635114[3]智能安保:智能化办案https://baijiahao.baidu.com/s?id=1616255897334017138&wfr=spider&for=pc
原文发布时间为:2019-09-9作者: 数据技术及产品部本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”。