本节书摘来自华章计算机《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第3章,第3.1节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
第3章
企业大数据解决方案
企业在开展大数据战略时,往往面临多种实施解决方案的路径可供选择。由于企业需求、背景和环境的不同,所适用的解决方案和实现方式也会有所差异。对大多数企业而言,适合企业的解决方案才是最好的,而非是那些价格最贵、功能最全的。
不同解决方案之间有哪些区别?它们各自对于企业的要求和限制条件是什么?企业应该如何根据自身情况选择最合适的大数据解决方案?本章将重点介绍这些问题。
3.1 企业大数据解决方案实现方式
工欲善其事必先利其器,企业大数据解决方案既包括大数据产品和工具层面,又包括服务层面。企业大数据解决方案根据实现方式的不同可分为完全独立研发、直接购买第三方解决方案和借助第三方的力量进行联合开发三种。
3.1.1 独立研发
独立研发指的是企业内部通过组建大数据中心或部门,独立进行大数据项目的研发。企业独立研发大数据平台,在数据安全、技术可控、后期扩展等方面具有重要意义。
但是,这种方式并不适合所有企业,它对企业来讲具有以下几个方面的要求和限制:
综上,独立自主研发的方式更适合具有下列特点的企业:企业内部有一批专家、具有非常强的解决问题的能力、较强的技术实力、充足的资源保障、对大数据没有较强的时间紧迫性要求。除此以外,企业对于数据安全、技术可控、后期运维方面的需求较为明显。
3.1.2 第三方解决方案
由于国外市场的开发性、企业运营的成熟性以及法律法规保障的完善性,很多国外的大型企业尤其是上市公司通常更愿意直接购买成熟的大数据解决方案。直接购买第三方成熟的解决方案具有如下优势:
综上,直接采用第三方解决方案更适合希望借助第三方的平台快速进入大数据工作状态,借助其成熟经验将大数据的价值迅速落地,并在后期运维过程中不想投入太多的企业;但对于技术完全可控、二次开发需求大、数据安全要求高的企业将不适用。
第三方大数据方案服务商非常多,甚至可以说有一个大数据生态圈。在这个生态圈中既有能够实现端到端的完整链条的整合解决方案,也有侧重于数据采集、数据预处理、数据存储、数据挖掘分析、数据可视化等环节的垂直型方案。国内的服务提供商包括阿里巴巴、百度、腾讯、华为等,国际大数据巨头包括Amazon、Oracle、SAP、Dell、TERADATA、EMC、Opower、Splunk、Intel、Google、Microsoft、IBM、HP等。
以阿里巴巴为例,阿里巴巴提供的阿里云是中国最成熟也是应用最为广泛的大数据解决方案之一。阿里云不仅提供大数据方案的服务,更提供了包括云计算、安全、域名与网站等不同服务。在大数据领域,阿里巴巴提供的服务叫做“大数据(数加)”,其中包括数据应用、数据分析展现、人工智能、大数据基础服务四类。如图3-1所示为阿里云大数据解决方案内容。
1.数据应用
推荐引擎
推荐引擎(Recommendation Engine, RecEng,)是在阿里云计算环境下建立的一套推荐服务框架,目标是让广大中小互联网企业能够在这套框架上快速地搭建满足自身业务需求的推荐服务。
它基于阿里云的一体化部署(SaaS),为推荐业务定义了一整套规范,同时提供了默认算法模板以及自定义功能;支持接入实时日志,以及实时修正API;通过多种测试手段和监控方式为业务决策提供参考。如图3-2所示是阿里云的推荐引擎配置界面。
公众趋势分析
公众趋势分析是基于全网公开发布数据,结合媒体传播路径和受众群体画像,利用语义分析、情感算法和机器学习等大数据技术,识别公众对品牌形象、热点事件和公共政策的认知趋势。
它全面覆盖全网公开的数据(千万源站,每日更新20亿网页),能最快2分钟级别获得数据;通过机器学习、自然语言、文本处理的协同处理等提供精准有效的结果,结合分级告警、智能分析、协同处理和深度集成等为客户提供丰富的服务。如图3-3所示为阿里云公众趋势分析报表。
数据集成
数据集成(Data Integration)是阿里巴巴对外提供的稳定高效、弹性伸缩的数据集成平台,为阿里云大数据计算引擎(包括MaxCompute、AnalyticDB、OSS)提供离线的批量数据进出的通道。有别于传统的客户端点对点同步运行工具,数据集成本身以公有云服务为基本设计目标,集群化、服务化、多租户、水平扩展等功能都是其基本实现要求。阿里巴巴自己的采云间、御膳房、聚石塔、孔明灯的后台数据同步均是基于数据集成完成各自的数据传输需求。
目前,数据集成支持的数据通道包括:关系型数据库、NoSQL数据存储、数据仓库、结构化存储以及文本,通过离线数据同步的模式以读取Snapshot的方式从源端传输到目的端。但目前只支持结构化(或可以转换为结构化)的数据,不支持多个地域之间数据同步,本身不提供数据流的消费方式,即用户不能直接通过数据集成的API消费数据流。如图3-4所示为阿里云数据集成的配置界面。
移动数据分析
移动数据分析(Mobile Analytics)是阿里云推出的一款移动App数据统计分析产品,提供通用的多维度用户行为分析,支持日志自主分析,助力移动开发者实现基于大数据技术的精细化运营、提升产品质量和体验、增强用户黏性。
移动分析能采集用户行为和应用性能数据,通过秒级的实时计算,为客户提供丰富的维度统计报表。同时,它还能通过与移动加速、移动推送、移动域名解析等合力为移动开发者提供更完善的移动服务。如图3-5所示为阿里云移动数据分析报告界面。
阿里巴巴还有另外一套移动数据分析产品——友盟,目前友盟已经跟缔元信网络数据、CNZZ三家公司合并并统一更名【友盟+】,提供包括针对网站和App的统计分析服务,针对游戏、广告和线下分析的行业数据解决方案、自助智能分析,针对微社区、分享和推送的运营工具全域运营指数和运营报告。
数据市场相关API及应用
阿里云允许自身以及第三方企业通过API的形式提供大数据应用服务,它的定位是软件交易及交付平台,作为2016年阿里云的战略发展点,承接着中国云生态各个链条产品的落地。目前,入驻云市场的优秀ISV遍布国内外,提供围绕云计算产品的软件应用及服务,包括但不限于基础软件、服务市场、行业软件、企业应用、建站市场等。如图3-6所示为阿里云数据市场相关API及应用界面。
2.数据分析展现
DataV数据可视化
DataV是一个可视化产品组件。相比于传统图表与数据仪表盘,其可视化致力于用更生动、友好的形式,即时呈现隐藏在瞬息万变且庞杂数据背后的业务洞察。DataV提供指挥中心、地理分析、实时监控、汇报展示等多种场景模版来帮助客户解决设计难题,并通过多种图表、数据源接入、图形化操作方式满足开发和设计需要,最终在终端适配多分辨率与发布方式,满足不同场合下的使用。如图3-7所示为阿里云DataV数据可视化界面。
QuickBI
QuickBI是一个大数据商业智能套件,提供海量数据实时在线分析、拖拽式操作、丰富的可视化效果,帮助客户更快地完成数据分析、业务数据探查。该产品更多地侧重于通过快速的数据整合、分析和可视化的方式提供简易可操作的数据分析服务。
QuickBI内置柱状图、线图、饼图、雷达图、散点图等20多种可视化图表,可通过类似于Excel的操作方式进行多维数据分析;整个分析过程都是实时的,支持RDS、MaxCompute(原ODPS)、AnalyticDB等多种云数据源;通过智能加速引擎针对海量数据提供秒级响应。如图3-8所示为阿里云QuickBI开始界面。
画像分析
画像分析所适用的场景主要是结合阿里云分析型数据库(Analytics DataBase),将分布在多个存储资源的数据整合起来,在标签模型上构建大数据画像类的交互式分析应用,让业务人员可以自由灵活地分析这些对象各种属性与行为之间的关联性。它可以广泛应用于工业设备画像分析、企业经营画像分析、用户行为画像分析等多个场景。
大数据画像类分析基于行为等明细数据产生,通过从半结构化数据中抽取特征并结合预测、评分、文本特征提取等算法技术来进一步挖掘有效用户特征。在交互式分析过程中根据不断调整的筛选条件、维度组合、下钻、上卷能够快速返回结果,直到获取到足够多的信息。如图3-9所示为阿里云画像分析。
郡县图治
“郡县治,天下安”,区域发展亟需响应“互联网”行动计划,敏捷应对经济新常态。“郡县图治”能够提供直观的数据可视化技术,整合政府统计数据和互联网数据源,动态反映当前区域经济的发展态势,集中呈现当地基础产业、特色产业、内需消费特征等各类关键指标,民生经济一览无余,为宏观决策提供分析依据和辅助支撑。“郡县图治”基于云计算环境部署,具备多种可配置参数,由阿里云实时推送互联网数据分析的结果,并提供全链路维护和自动化升级服务。如图3-10所示为阿里“云郡县图治”报告。
3.人工智能
机器学习
阿里云机器学习平台是构建在阿里云MaxCompute计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习平台。该平台为算法开发者提供了丰富的MPI、PS、BSP等编程框架和数据存取接口,同时为算法使用者提供了基于Web的IDE可视化实验搭建控制台。
它是一站式的算法与智能应用的开发、发布与分享的平台,所有工作都在一个平台上完成,减少了多平台转换、迁移、集成等繁琐问题;支持处理亿万级大规模数据,适用于绝大多数企业数据规模;基于工作流的思路,通过简单的拖拽即可完成数据挖掘、数据分析等功能。如图3-11所示为阿里云机器学习平台工作流操作界面。
智能语音交互
智能语音交互(Intelligent Speech Interaction),是基于语音和自然语言技术构建的在线服务,通过提供语音识别(ASR)、语音合成(TTS)、自然语言理解(NLU)为智能手机、智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。
智能语音交互提供的三类服务:
印刷文字识别
印刷文字识别是OCR(Optical Character Recognition,光学字符识别)的具体应用,它提供了包含多种场景下的文字识别,其中包括身份证证件识别、驾驶证识别、行驶证识别、营业执照识别、门店招牌识别、英文识别。
人脸识别
人脸服务是一款用于提供图像和视频帧中人脸分析的在线服务,通过提供人脸检测、人脸特征提取、人脸年龄估计和性别识别、人脸关键点定位等,可应用于人脸美化、人脸识别和认证、大规模人脸检索、照片管理等各种场景。
通用图像识别
通用图像分析服务是一款用于提供图像内容分析和理解的在线服务产品。“通用”一词是指,在该服务中提供的算法API模块可以应用于各种图像领域,没有具体业务场景、垂直领域等场景限制。该服务旨在提供一些通用的图像分析和理解算法API模块,开发者和企业可以通过这些模块组合,结合自身领域特点,独立开发图像分离和理解系统,满足自身特定需求。
电商图像分析
电商图像分析服务是一款用于提供电商平台环境下的图像分析的在线服务产品。该产品提供若干图像分析和理解技术的在线API服务给开发者和企业使用,其中包括牛皮癣图像识别、图像背景分析、炒信图像识别等独立服务模块。这些独立技术模块可应用于电商平台下的商品主图、副图等质量判断、选品投放过滤、搜索和推荐等业务场景。
机器翻译
机器翻译(Machine Translation)通过阿里巴巴的海量电商数据,结合机器学习、自然语言处理技术,实现多语言语种识别与自动翻译功能,为跨境电商信息本地化与跨语言沟通提供精准、快捷、可靠的在线翻译服务。
4.大数据基础服务
大数据开发套件
大数据开发套件(Data IDE)是阿里巴巴集团推出的大数据领域平台级产品,它提供了一站式大数据开发、管理、分析、挖掘、共享、交换等端到端的解决方案,其利用MaxCompute(原名ODPS)在几分钟内可将原始数据转变为业务洞察的海量数据处理能力,整个过程都是通过对可视化组件的拖拽来实现。如图3-12所示为阿里云大数据开发套件配置界面。
大数据计算服务
大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。MaxCompute已经在阿里巴巴集团内部得到大规模应用,例如:大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。如图3-13所示为大数据计算服务界面。
分析型数据库
阿里云分析型数据库(原名:分析数据库服务ADS),则是一套RT-OLAP (Realtime OLAP,实时OLAP)系统。在数据存储模型上,采用自由灵活的关系模型存储,可以使用SQL进行自由灵活的计算分析,无需预先建模,而利用云计算技术,分析型数据库可以在处理百亿条甚至更多量级的数据上达到甚至超越MOLAP类系统的处理性能,实现百亿数据毫秒级计算。如图3-14所示为阿里云分析型数据库使用界面。
批量计算
批量计算(BatchCompute)是一种适用于大规模并行批处理作业的分布式云服务。Batch
Compute可支持海量作业并发规模,系统自动完成资源管理、作业调度和数据加载,并按实际使用量计费。如图3-15所示为阿里云批量计算作业配置。
3.1.3 联合开发
联合开发是一种介于上述两种解决方案的折中方式,它是企业与第三方服务商一起进行大数据解决方案开发的方式。这种方式能融合二者的优点,并对缺点进行有效补足:
综上,联合开发方式更适合那些想要对数据、技术完全可控,并且将大数据战略作为重要发展战略和核心竞争力的企业,这些企业通常内部已经具有一定的技术实力、较多的行业专家、相对明确的数据规划和预期。