天天在做大数据,你的时间都花在哪了

简介:

大数据做了这许多年,有没有问过自己,大数据中,工作量最大和技术难度最高的,分别是什么呢?

大数据

  前言

我每天都在思考,思考很重要,是一个消化和不断深入的过程。

正如下面的一句话:

我们从出生开始如果没思考过人生本身这件事情,一切按照社会的习惯前行,那人生是没有意义的。因为你连人生都没有想过。

那么延生出来,我们有没有想过大数据本身?大数据到底是在做什么,为什么我做了这么多年的大数据,总是做不完呢?

大数据本质是:

随着科学技术发展,更多的数据能够被存储了,能被分析了。所以有了大数据的概念。

机器学习的本质是:

随着数据变多了,量变导致质变,数据足够大后其内部的隐含的规律会越来越精确和完整。机器学习则是将数据内存存在的这种隐含关联给挖掘出来的一项技术。

大数据最消耗工作量的地方是哪里呢?

目前百分之八十的工作量都在于数据收集 清理和校验。 这个工作本身并不难,但是真的很繁琐,很费力。

我们天天感叹:

数据在哪里?如何收集

数据要怎么进行清洗

无效数据太多,如何去除

而让我们心灰意冷的是

当一个新的需求来临时,现有的数据形态似乎不能满足需求,我们又要在现有的数据堆里,重新走数据收集,清理,校验的流程。

这似乎是一种诅咒,如同可怜的西西弗斯,被判要将大石推上陡峭的高山,每次用尽全力, 大石快要到顶时,石头就会从其手中滑脱,又得重新推回去,幹著无止境的劳动。

大数据目前遇到的最大技术难点是什么

是海量数据的ad-hoc查询

当Hadoop刚刚兴起,我们可以通过它来操控越来越廉价的PC服务器价格,于是一种暴力弥漫了整个生态:

我们因为突然有了强大的算力,这就好比一个穷人突然有了一笔很大的钱。我们开始让强大的算力驾着最低效的程序去跑数据,这是批处理时代的悲哀

但是随着查询效率要求越来越高,我们不得不被迫做出改变。还记得我们以前的日志都是简单的Raw文本吗? 现在各种存储的格式慢慢开花结果:

Parquet, 数砖公司大力发展的一个存储技术

ORC, Hive 常见的一种存储格式

CarbonData, 华为推出的一套可支持PB级别的数据格式

总之,我们似乎没有找到一个奇妙的技术解决查询的问题,只能做某种折中:

为了加快查询速度,数据存储慢慢从早期的raw文本转为具备向量化,带索引,支持特定编码和压缩的列式存储结构,当然这种通过调整存储结构的方式必然以消耗数据进入时的时间和资源为代价。

也就是我们在存储和查询之间做了妥协。

如何让苦力干的更少

前面我们提及了,我们可能80%的工作都花在了数据的采集,清洗和校验上了。但是我们该如何压缩这部分的工作呢?

答案是:

流式计算

流式计算上层建筑

让所有的计算流动起来,就会让下面的事情变得简单:

我们可以在已经流动的数据中的任何一个环节引入一个新的支流。当我要获取数据时,我做的本质其实就是 连接两个或者多个节点,并且在其中对数据进行转换。就如同河水,我们可以很方便的开一个支流,将水引入灌溉新的额农田。

而且我们希望流式计算的实现是结合了流式和批量语义的。为什么呢?看看华为在Storm上做的StreamCQL,就知道,很多情况实时流式是很有局限的,因为未来我们在流式上能做的事情会非常多:

数据处理

Ad-Hoc查询

机器学习

报表

存储输出

这就需要一定的灵活性,因为只有在数据集上,才会有譬如Ad-Hoc查询,才能高效的进行存储,才能适应一些机器学习算法。单条数据很多情况下,是没有太大意义的。

这块我一直是Spark Streaming的支持者。数据天生就是流式的

那为啥我们需要一个流式计算上层建筑? 我们回顾下问题,数据的ETL过程是个苦力活,消耗掉大量程序员的工作时间,那么为了减少这种时间,我们有两个办法:

将做些任务分散出去,使得每个人都可做,那么在总量不变的情况下,单个人就会变少了

提高每个人的工作效率

流式计算构建了整个基础,而其上的框架则使得上面两点成为可能。这里我依然推荐我现在正在做的一个开源项目: StreamingPro 。未来我们还会有一个更通用的基于流式计算的采集程序,敬请期待。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
缓存 架构师 Java
Java开发三年,花费半年时间学完这些技术栈,面试定级阿里P7
现在 Java 相关岗位薪资越来越高、涨幅越来越大。 通过职友集数据可以查看,以北京 Java 相关岗位为例,其中 【20k-30k】 薪酬的 Java 工程师,占到了整体从业者的 30.8%!
|
10月前
|
存储 机器学习/深度学习 人工智能
活动预告|周五晚,一起来看图数据库如何为构建行业大模型降本增效
本次活动将与 Llama Index 的 CEO 共同探讨如何通过图技术进一步提升 LLM 的语义检索能力,并展示如何结合知识图谱与向量数据库实操 Llama Index 上的复杂问答系统,分享悦数团队与 Llama Index 团队在图驱动的 in-context learning 的最新研究进展。
活动预告|周五晚,一起来看图数据库如何为构建行业大模型降本增效
|
Linux 数据库 开发者
02毕业三年,为何技术能力相差越来越大?|学习笔记
快速学习02毕业三年,为何技术能力相差越来越大?
88 0
|
SQL 数据采集 分布式计算
211读者一周面7家大厂,收割5个大数据offer...
211读者一周面7家大厂,收割5个大数据offer...
|
SQL 人工智能 Oracle
做了三年数据分析,给你的几点建议
还有一个多月,我工作就满3年了。在职场上,3年是个坎,意味着从初级转到中高级,但前提是能力跟得上工作年限。 我第一份和第二份工作,是做的数据运营,现在这份工作,title是商业分析师。因为专业不是数学、计算机类的,所以相当于转行,但也是理工科,有编程基础,所以相对文科生来说会稍微轻松点,但转行之路并不轻松。 之前看到很多想转行的朋友,会问比如,女生适不适合做数据分析、文科生能不能做好数据分析、数据分析做什么的,这样的问题。 今天想写的,是三年来的一个总结,也写一下我是如何从一个连Excel都不会的菜鸟慢慢成长的经历。想必像BAT这样的大牛不会是我的读者,那我就自作主张的把读我这篇文章的朋
158 0
|
程序员
如何用1年时间获得3年成长?
本文讲述自我成长的过程。
1369 0
|
数据采集 监控 前端开发
在大数据行业工作两年是怎样一种体验
本文主要从大数据开发的角度出发,到大数据治理的必要性,再到图形化建模的畅想,最后在数据质量的把关,然后到大数据可视化的应用,总结两年的见闻和我的学习成果。
2554 0
|
人工智能 数据挖掘 关系型数据库
云计算周热点回顾:阿里云棒棒哒!
本文讲的是云计算周热点回顾:阿里云棒棒哒!【IT168 资讯】本周云计算领域发生了哪些事儿,让我们一起来回顾一下。本期涉及以下几个厂商(LOGO位置随机摆放…)
2564 0