大数据项目产品选型的五个建议

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

数据如今对企业来说可谓是头等大事。使用欺诈检测来降低财务风险或是建设推荐系统来改善用户体验,都需要数据来为企业解决这些日益复杂的问题提供支撑。

既然数据已成为企业的重要元素,那我们这几年在数据这个领域都学到了什么?市面上有多种不同的软件模式,包括私有专属软件、云端SAAS软件和开源软件,因此,现在开展大数据分析项目时,开发者、架构师及数据科学家要在众多软件中进行选型,某些软件可能需要昂贵的前期投资或需要投入庞大资源,当然也有一些工具恰到好处,既容易部署又为构建原型(prototype)提供了广泛的支持。

寻找合适的工具对提高项目成功率及避免落入常见陷阱至关重要。以下为在大数据分析项目中进行产品选型的五个建议:

从简单的小规模起步

企业构建数据分析项目常见的最大错误往往是贪大求全。特别是如果项目是从上往下推,执行团队很有可能会被要求构建一套既没有明确成效却又十分复杂的解决方案,造成项目成本高昂且工期很长。

企业不如从规模较小的项目起步,让决策者很快可以看到成效,提升他们对同类项目的信心。利用现代化开源技术,企业不但不用作大量的前期投资,更可以让开发者迅速投入工作,在几天或几周内就能构建出所需的应用程序或是原型。

及早考虑可扩展性

即使只是构建一个框架,也应尽早测试其可扩展性。很多项目之所以失败,全因应用程序在构建时并没有测试其扩展性,也可能是因为其所选技术并不是为处理大数据而设计的。

确保性能测试不是事后的事。先预计在这段时间内将会产生多少数据,并进行测试和评估,构建合适的架构,同时确保当数据量增加并需要横向扩展时,也不会影响业务。

数据的实时性很重要

我们都经历过应用程序或网站没反应或是缓慢的那种痛苦,时至今日,任何不能实时响应的事情我们都不能接受。如果有一个请求没有被及时处理,用户可能很快就会因缺乏耐性而离开该网站或程序,从而导致客户流失及营收下降。

企业要确保所用的软件不但能处理大量数据,还要有能力实时响应这些请求。建议使用具备聚和与地理位置分析功能且能与实时搜索相结合的数据分析软件。

采用灵活的数据模式

现今的系统主要包括结构化和非结构化数据。但不要被那些为结构化图表及数据而设计的关系型数据库所限制。这类数据库很难被加上索引,解析、搜索及分析这些日积月累的大量数据往往很难。

企业应采用具备通用数据结构的软件。很多用于数据分析的软件包括NoSQL数据库及Elasticsearch等均采用JSON作为数据格式,支持文字、数字、字符串、布尔值、数组和哈希等结构化和非结构化数据类型。

挑选开发者易于使用的工具

现今数据流量之多让企业或开发者在应对大数据分析项目时,很难去使用不包含开放API接口的软件。 API接口被用作数据录入、索引及数据分析,这些数据一般来自不同的数据源或是业务系统本身的数据。

企业应提供给开发者一套拥有丰富、开放及资料完整的应用程序API接口,让他们更快速有效地解决问题。久而久之,当项目壮大时,开发者亦能不断创新及改进这套应用程序。

总结

基于以上五点为大数据分析项目挑选最适合的工具,将有助改善项目的价值时间,并确保企业已为长远的成功作好准备。很多如华为、联想、BBC、高盛集团、英国卫报等大企业均已采用这方式,挑选如Elastic Stack这样的开源软件来解决其关键项目。只要方法正确,企业所需的数据分析其实可以很迅速、简单及划算。

曾勇(Medcl),Elastic工程师与布道师,在加入Elastic之前,在分布式搜索、高性能、高可用架构、自动化运维等方面积累了超过七年的经验。Elasticsearch国内首批用户,自2010年起就开始接触Elasticsearch并投入到生产环境中使用,并编写过一系列的中文处理相关的插件,也是Elasticsearch中文社区发起人。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何开发ODPS Spark任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
1月前
|
人工智能 分布式计算 DataWorks
大数据&AI产品月刊【2024年8月】
大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
机器学习/深度学习 搜索推荐 算法
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
|
2月前
|
存储 人工智能 搜索推荐
飞天大数据平台产品问题之阿里云OpenSearch的定义如何解决
飞天大数据平台产品问题之阿里云OpenSearch的定义如何解决
|
2月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之未保存的ODPS SQL语句该如何找回
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
消息中间件 大数据 Kafka
Go 大数据生态迎来重要产品 CDS
Go 大数据生态迎来重要产品 CDS
|
2月前
|
SQL 分布式计算 运维
DataWorks产品使用合集之如何恢复odps误删的分区
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
分布式计算 关系型数据库 Serverless
实时数仓 Hologres产品使用合集之如何将ODPS视图表数据导入到Hologres内表
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。

热门文章

最新文章