《企业大数据系统构建实战:技术、架构、实施与应用》——第3章 企业大数据解决方案 3.1 企业大数据解决方案实现方式

本文涉及的产品
票证核验,票证核验 50次/账号
智能商业分析 Quick BI,专业版 50license 1个月
NLP 自学习平台,3个模型定制额度 1个月
简介:

本节书摘来自华章计算机《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第3章,第3.1节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第3章

企业大数据解决方案

企业在开展大数据战略时,往往面临多种实施解决方案的路径可供选择。由于企业需求、背景和环境的不同,所适用的解决方案和实现方式也会有所差异。对大多数企业而言,适合企业的解决方案才是最好的,而非是那些价格最贵、功能最全的。

不同解决方案之间有哪些区别?它们各自对于企业的要求和限制条件是什么?企业应该如何根据自身情况选择最合适的大数据解决方案?本章将重点介绍这些问题。

3.1 企业大数据解决方案实现方式

工欲善其事必先利其器,企业大数据解决方案既包括大数据产品和工具层面,又包括服务层面。企业大数据解决方案根据实现方式的不同可分为完全独立研发、直接购买第三方解决方案和借助第三方的力量进行联合开发三种。

3.1.1 独立研发

独立研发指的是企业内部通过组建大数据中心或部门,独立进行大数据项目的研发。企业独立研发大数据平台,在数据安全、技术可控、后期扩展等方面具有重要意义。

image
image

但是,这种方式并不适合所有企业,它对企业来讲具有以下几个方面的要求和限制:

image

综上,独立自主研发的方式更适合具有下列特点的企业:企业内部有一批专家、具有非常强的解决问题的能力、较强的技术实力、充足的资源保障、对大数据没有较强的时间紧迫性要求。除此以外,企业对于数据安全、技术可控、后期运维方面的需求较为明显。

3.1.2 第三方解决方案

由于国外市场的开发性、企业运营的成熟性以及法律法规保障的完善性,很多国外的大型企业尤其是上市公司通常更愿意直接购买成熟的大数据解决方案。直接购买第三方成熟的解决方案具有如下优势:

image
image

综上,直接采用第三方解决方案更适合希望借助第三方的平台快速进入大数据工作状态,借助其成熟经验将大数据的价值迅速落地,并在后期运维过程中不想投入太多的企业;但对于技术完全可控、二次开发需求大、数据安全要求高的企业将不适用。

第三方大数据方案服务商非常多,甚至可以说有一个大数据生态圈。在这个生态圈中既有能够实现端到端的完整链条的整合解决方案,也有侧重于数据采集、数据预处理、数据存储、数据挖掘分析、数据可视化等环节的垂直型方案。国内的服务提供商包括阿里巴巴、百度、腾讯、华为等,国际大数据巨头包括Amazon、Oracle、SAP、Dell、TERADATA、EMC、Opower、Splunk、Intel、Google、Microsoft、IBM、HP等。

以阿里巴巴为例,阿里巴巴提供的阿里云是中国最成熟也是应用最为广泛的大数据解决方案之一。阿里云不仅提供大数据方案的服务,更提供了包括云计算、安全、域名与网站等不同服务。在大数据领域,阿里巴巴提供的服务叫做“大数据(数加)”,其中包括数据应用、数据分析展现、人工智能、大数据基础服务四类。如图3-1所示为阿里云大数据解决方案内容。

image

1.数据应用

推荐引擎

推荐引擎(Recommendation Engine, RecEng,)是在阿里云计算环境下建立的一套推荐服务框架,目标是让广大中小互联网企业能够在这套框架上快速地搭建满足自身业务需求的推荐服务。

它基于阿里云的一体化部署(SaaS),为推荐业务定义了一整套规范,同时提供了默认算法模板以及自定义功能;支持接入实时日志,以及实时修正API;通过多种测试手段和监控方式为业务决策提供参考。如图3-2所示是阿里云的推荐引擎配置界面。

image

公众趋势分析

公众趋势分析是基于全网公开发布数据,结合媒体传播路径和受众群体画像,利用语义分析、情感算法和机器学习等大数据技术,识别公众对品牌形象、热点事件和公共政策的认知趋势。

它全面覆盖全网公开的数据(千万源站,每日更新20亿网页),能最快2分钟级别获得数据;通过机器学习、自然语言、文本处理的协同处理等提供精准有效的结果,结合分级告警、智能分析、协同处理和深度集成等为客户提供丰富的服务。如图3-3所示为阿里云公众趋势分析报表。

image

数据集成

数据集成(Data Integration)是阿里巴巴对外提供的稳定高效、弹性伸缩的数据集成平台,为阿里云大数据计算引擎(包括MaxCompute、AnalyticDB、OSS)提供离线的批量数据进出的通道。有别于传统的客户端点对点同步运行工具,数据集成本身以公有云服务为基本设计目标,集群化、服务化、多租户、水平扩展等功能都是其基本实现要求。阿里巴巴自己的采云间、御膳房、聚石塔、孔明灯的后台数据同步均是基于数据集成完成各自的数据传输需求。

目前,数据集成支持的数据通道包括:关系型数据库、NoSQL数据存储、数据仓库、结构化存储以及文本,通过离线数据同步的模式以读取Snapshot的方式从源端传输到目的端。但目前只支持结构化(或可以转换为结构化)的数据,不支持多个地域之间数据同步,本身不提供数据流的消费方式,即用户不能直接通过数据集成的API消费数据流。如图3-4所示为阿里云数据集成的配置界面。

image

移动数据分析

移动数据分析(Mobile Analytics)是阿里云推出的一款移动App数据统计分析产品,提供通用的多维度用户行为分析,支持日志自主分析,助力移动开发者实现基于大数据技术的精细化运营、提升产品质量和体验、增强用户黏性。

移动分析能采集用户行为和应用性能数据,通过秒级的实时计算,为客户提供丰富的维度统计报表。同时,它还能通过与移动加速、移动推送、移动域名解析等合力为移动开发者提供更完善的移动服务。如图3-5所示为阿里云移动数据分析报告界面。

image

阿里巴巴还有另外一套移动数据分析产品——友盟,目前友盟已经跟缔元信网络数据、CNZZ三家公司合并并统一更名【友盟+】,提供包括针对网站和App的统计分析服务,针对游戏、广告和线下分析的行业数据解决方案、自助智能分析,针对微社区、分享和推送的运营工具全域运营指数和运营报告。

数据市场相关API及应用

阿里云允许自身以及第三方企业通过API的形式提供大数据应用服务,它的定位是软件交易及交付平台,作为2016年阿里云的战略发展点,承接着中国云生态各个链条产品的落地。目前,入驻云市场的优秀ISV遍布国内外,提供围绕云计算产品的软件应用及服务,包括但不限于基础软件、服务市场、行业软件、企业应用、建站市场等。如图3-6所示为阿里云数据市场相关API及应用界面。

2.数据分析展现

DataV数据可视化

DataV是一个可视化产品组件。相比于传统图表与数据仪表盘,其可视化致力于用更生动、友好的形式,即时呈现隐藏在瞬息万变且庞杂数据背后的业务洞察。DataV提供指挥中心、地理分析、实时监控、汇报展示等多种场景模版来帮助客户解决设计难题,并通过多种图表、数据源接入、图形化操作方式满足开发和设计需要,最终在终端适配多分辨率与发布方式,满足不同场合下的使用。如图3-7所示为阿里云DataV数据可视化界面。

image

image

QuickBI

QuickBI是一个大数据商业智能套件,提供海量数据实时在线分析、拖拽式操作、丰富的可视化效果,帮助客户更快地完成数据分析、业务数据探查。该产品更多地侧重于通过快速的数据整合、分析和可视化的方式提供简易可操作的数据分析服务。

QuickBI内置柱状图、线图、饼图、雷达图、散点图等20多种可视化图表,可通过类似于Excel的操作方式进行多维数据分析;整个分析过程都是实时的,支持RDS、MaxCompute(原ODPS)、AnalyticDB等多种云数据源;通过智能加速引擎针对海量数据提供秒级响应。如图3-8所示为阿里云QuickBI开始界面。

image

画像分析

画像分析所适用的场景主要是结合阿里云分析型数据库(Analytics DataBase),将分布在多个存储资源的数据整合起来,在标签模型上构建大数据画像类的交互式分析应用,让业务人员可以自由灵活地分析这些对象各种属性与行为之间的关联性。它可以广泛应用于工业设备画像分析、企业经营画像分析、用户行为画像分析等多个场景。

大数据画像类分析基于行为等明细数据产生,通过从半结构化数据中抽取特征并结合预测、评分、文本特征提取等算法技术来进一步挖掘有效用户特征。在交互式分析过程中根据不断调整的筛选条件、维度组合、下钻、上卷能够快速返回结果,直到获取到足够多的信息。如图3-9所示为阿里云画像分析。

郡县图治

“郡县治,天下安”,区域发展亟需响应“互联网”行动计划,敏捷应对经济新常态。“郡县图治”能够提供直观的数据可视化技术,整合政府统计数据和互联网数据源,动态反映当前区域经济的发展态势,集中呈现当地基础产业、特色产业、内需消费特征等各类关键指标,民生经济一览无余,为宏观决策提供分析依据和辅助支撑。“郡县图治”基于云计算环境部署,具备多种可配置参数,由阿里云实时推送互联网数据分析的结果,并提供全链路维护和自动化升级服务。如图3-10所示为阿里“云郡县图治”报告。

image

image

3.人工智能

机器学习

阿里云机器学习平台是构建在阿里云MaxCompute计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习平台。该平台为算法开发者提供了丰富的MPI、PS、BSP等编程框架和数据存取接口,同时为算法使用者提供了基于Web的IDE可视化实验搭建控制台。

它是一站式的算法与智能应用的开发、发布与分享的平台,所有工作都在一个平台上完成,减少了多平台转换、迁移、集成等繁琐问题;支持处理亿万级大规模数据,适用于绝大多数企业数据规模;基于工作流的思路,通过简单的拖拽即可完成数据挖掘、数据分析等功能。如图3-11所示为阿里云机器学习平台工作流操作界面。

image

智能语音交互

智能语音交互(Intelligent Speech Interaction),是基于语音和自然语言技术构建的在线服务,通过提供语音识别(ASR)、语音合成(TTS)、自然语言理解(NLU)为智能手机、智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。

智能语音交互提供的三类服务:

image

印刷文字识别

印刷文字识别是OCR(Optical Character Recognition,光学字符识别)的具体应用,它提供了包含多种场景下的文字识别,其中包括身份证证件识别、驾驶证识别、行驶证识别、营业执照识别、门店招牌识别、英文识别。

人脸识别

人脸服务是一款用于提供图像和视频帧中人脸分析的在线服务,通过提供人脸检测、人脸特征提取、人脸年龄估计和性别识别、人脸关键点定位等,可应用于人脸美化、人脸识别和认证、大规模人脸检索、照片管理等各种场景。

通用图像识别

通用图像分析服务是一款用于提供图像内容分析和理解的在线服务产品。“通用”一词是指,在该服务中提供的算法API模块可以应用于各种图像领域,没有具体业务场景、垂直领域等场景限制。该服务旨在提供一些通用的图像分析和理解算法API模块,开发者和企业可以通过这些模块组合,结合自身领域特点,独立开发图像分离和理解系统,满足自身特定需求。

电商图像分析

电商图像分析服务是一款用于提供电商平台环境下的图像分析的在线服务产品。该产品提供若干图像分析和理解技术的在线API服务给开发者和企业使用,其中包括牛皮癣图像识别、图像背景分析、炒信图像识别等独立服务模块。这些独立技术模块可应用于电商平台下的商品主图、副图等质量判断、选品投放过滤、搜索和推荐等业务场景。

机器翻译

机器翻译(Machine Translation)通过阿里巴巴的海量电商数据,结合机器学习、自然语言处理技术,实现多语言语种识别与自动翻译功能,为跨境电商信息本地化与跨语言沟通提供精准、快捷、可靠的在线翻译服务。

4.大数据基础服务

大数据开发套件

大数据开发套件(Data IDE)是阿里巴巴集团推出的大数据领域平台级产品,它提供了一站式大数据开发、管理、分析、挖掘、共享、交换等端到端的解决方案,其利用MaxCompute(原名ODPS)在几分钟内可将原始数据转变为业务洞察的海量数据处理能力,整个过程都是通过对可视化组件的拖拽来实现。如图3-12所示为阿里云大数据开发套件配置界面。

image

大数据计算服务

大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。MaxCompute已经在阿里巴巴集团内部得到大规模应用,例如:大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。如图3-13所示为大数据计算服务界面。

image

分析型数据库

阿里云分析型数据库(原名:分析数据库服务ADS),则是一套RT-OLAP (Realtime OLAP,实时OLAP)系统。在数据存储模型上,采用自由灵活的关系模型存储,可以使用SQL进行自由灵活的计算分析,无需预先建模,而利用云计算技术,分析型数据库可以在处理百亿条甚至更多量级的数据上达到甚至超越MOLAP类系统的处理性能,实现百亿数据毫秒级计算。如图3-14所示为阿里云分析型数据库使用界面。

image

批量计算

批量计算(BatchCompute)是一种适用于大规模并行批处理作业的分布式云服务。Batch

Compute可支持海量作业并发规模,系统自动完成资源管理、作业调度和数据加载,并按实际使用量计费。如图3-15所示为阿里云批量计算作业配置。

image

3.1.3 联合开发

联合开发是一种介于上述两种解决方案的折中方式,它是企业与第三方服务商一起进行大数据解决方案开发的方式。这种方式能融合二者的优点,并对缺点进行有效补足:

image

综上,联合开发方式更适合那些想要对数据、技术完全可控,并且将大数据战略作为重要发展战略和核心竞争力的企业,这些企业通常内部已经具有一定的技术实力、较多的行业专家、相对明确的数据规划和预期。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
监控 网络协议 Nacos
Nacos:构建微服务架构的基石
Nacos:构建微服务架构的基石
112 2
|
15天前
|
监控 安全 API
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
本文详细介绍了PaliGemma2模型的微调流程及其在目标检测任务中的应用。PaliGemma2通过整合SigLIP-So400m视觉编码器与Gemma 2系列语言模型,实现了多模态数据的高效处理。文章涵盖了开发环境构建、数据集预处理、模型初始化与配置、数据加载系统实现、模型微调、推理与评估系统以及性能分析与优化策略等内容。特别强调了计算资源优化、训练过程监控和自动化优化流程的重要性,为机器学习工程师和研究人员提供了系统化的技术方案。
134 77
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
|
7天前
|
存储 SQL 分布式计算
大数据时代的引擎:大数据架构随记
大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。
119 8
|
8天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
37 2
|
10天前
|
Serverless 决策智能 UED
构建全天候自动化智能导购助手:从部署者的视角审视Multi-Agent架构解决方案
在构建基于多代理系统(Multi-Agent System, MAS)的智能导购助手过程中,作为部署者,我体验到了从初步接触到深入理解再到实际应用的一系列步骤。整个部署过程得到了充分的引导和支持,文档详尽全面,使得部署顺利完成,未遇到明显的报错或异常情况。尽管初次尝试时对某些复杂配置环节需反复确认,但整体流程顺畅。
|
18天前
|
缓存 Kubernetes 容灾
如何基于服务网格构建高可用架构
分享如何利用服务网格构建更强更全面的高可用架构
|
28天前
|
弹性计算 持续交付 API
构建高效后端服务:微服务架构的深度解析与实践
在当今快速发展的软件行业中,构建高效、可扩展且易于维护的后端服务是每个技术团队的追求。本文将深入探讨微服务架构的核心概念、设计原则及其在实际项目中的应用,通过具体案例分析,展示如何利用微服务架构解决传统单体应用面临的挑战,提升系统的灵活性和响应速度。我们将从微服务的拆分策略、通信机制、服务发现、配置管理、以及持续集成/持续部署(CI/CD)等方面进行全面剖析,旨在为读者提供一套实用的微服务实施指南。
|
24天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
26天前
|
负载均衡 Java 开发者
深入探索Spring Cloud与Spring Boot:构建微服务架构的实践经验
深入探索Spring Cloud与Spring Boot:构建微服务架构的实践经验
88 5
|
22天前
|
SQL 运维 大数据
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。

热门文章

最新文章