大数据是什么-阿里云开发者社区

开发者社区> 尊渊> 正文

大数据是什么

简介:
+关注继续查看

标签: 大数据


[toc]


搞大数据的人,都是大公司的人。

那么接触过大数据,又耍过大数据,同时想把大数据推给别人(所有人)用的人,就是大公司里大数据部门的人。

不幸的是,我是这样的一个人!!

抛开“大”,数据一直存在。古希腊先贤探求世界本源时,毕达哥拉斯认为世界的本源是“数”,数——我想大家更多的理解为数学,但是数学的原料不就是数据吗?读书时与导师推导获取知识的链路,得到的结论是

void->noise: 自然发生
noise->data: 采集收纳
data->information: 整理抽象
information->knowledge: 深层抽象
knowledge->religion: 最终抽象
religion-->noise: 幻灭?你懂的

故事大概是这样的:

最早世界是一片混沌,我们理解为虚空(void),这里什么都没有,或者什么都有,谁知道呢;接下来出现了噪声(noise),像黑白噪声,它们彼此交错、自由狂放、繁杂变化、毫无规律,让人生厌,没人知道它们怎么来的,就好像是进化自然的产物;接着,有些耐心的人开始从噪声中采集收纳,得到数据(data)1,数据冗杂、多样、若隐若现、无法解释,让人陌生又无奈,让人好奇又沮丧,但是有一点,它们是活的,它们可以被表达,它们可以“说话”,它们包含了单纯的美;在“数字”的世界迷茫不了太久,有些聪明的人从数据中汇总分析——继续抽象——得到了信息(information)2,人们好奇驱使,大脑飞转,从数字中得到了启示——从高层解释数据规律——信息可解释、可汇总、可归纳,最关键的是,可以被传播,信息让人happy、让人愉悦、容易表达;毕竟人类的大脑不是白长的,在得到信息后,有人意识到,这玩意能“做文章”,于是更深的抽象和归纳后,形成了知识(knowledge)3,知识是啥?在这个客观世界,长时间具有代表性且普适的认识,就是知识,知识需要学习、不易获取、有的不易表达、知识让人满足;再往下走,再往下走还不满足,于是人类历史上就有那么些个“伟人”,成立了宗教,有的人在知识和宗教之间加了一层智慧,这个我看来就是一个知识的集大成者或精深者,这里且不谈,宗教干啥的我也不太懂,反正是当年我的老师谈了这么一嘴,估计我觉得是想给知识和智慧留点面子——毕竟宗教被知识分子不齿——而且最终也导致了幻灭,回到噪声了,这个中滋味,大家自己品尝吧。

好吧,一个读书时候的故事,影响了我最终的路——我进了一个“数据”的行业。

看看我们现在最能谈到的“大数据”在哪个阶段呢?其实从噪声开始到知识结尾,这几个阶段都包含(不排除未来也有宗教,we will see)。一开始说过了,我是推着别人“耍”大数据的人。那么大数据怎么映射到这几个阶段呢?

开始我说了,我是大公司的,你真别不信,这个阶段真跟公司规模大小有点关系。在一开始,初创团队只有噪声,大家恨不得一人兼多职,只有一个目标:活着。产品成型后,开始积累数据,这时候有了分工,没办法,为了能商业化,能来钱,咱得专业呀,产品相关的那些内容不管有用没用,先记下。规模逐渐做大,数据越记越多,钱够人够,这时候就得搞几个人做整理抽象——目标要获取信息——这个阶段老板牛逼啦,要看报表啦,那报表里有什么?当然不能只有数字,老板看了会吐血,你也会吐血。所以要把数字反应的信息报出来。拿到信息,基本能指导运营了,有了数字量化的标准,就有了目标。一般到这个阶段,就是瓶颈期了,一般公司也不会再做数据抽象了,再抽象就要出知识了,这哪是小公司玩的了的。说白了,知识就是通过长期数据和信息积累后,得到的产物——书籍、论文、生态~~最后的宗教?太扯了,这个就别BB了。

大数据在做什么呢?大数据核心在做的事情,我看主要集中在数据->信息的过程。围绕着这个点,把上下游的工具和平台做好,这就是大数据了。上下游是什么?就是数据采集、加工、建模。这不简单吗?这是不难,在小数据时代,一旦量大了呢?你怎么玩?单机转变为分布式。而分布式计算,效率、性能就成了众多科学家和工程师们追逐着解决的问题了。

后面会再写一篇文章来分析当前大数据的技术栈(先挖个坑)。这里就浅尝辄止吧。总结一句我理解的大数据:大数据是一个生态,它包含了数据的采集、加工、转换、分析、建模和展示,人们可以在这个生态里使用理论上没有大小限制的数据集。没有大数据和小数据的区别,大数据包含了小数据,分布式包含了单机。大数据一定是一个革命,当对数据的使用没有的边界限制时,的变化还会远吗?

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
match-trade超高效的交易所撮合引擎
match-trade超高效的交易所撮合引擎
6 0
DenseNet实战:tensorflow2.X版本,DenseNet121图像分类任务(大数据集)
本例提取了猫狗大战数据集中的部分数据做数据集,演示tensorflow2.0以上的版本如何使用Keras实现图像分类,分类的模型使用DenseNet121。本文实现的算法有一下几个特点: 1、自定义了图片加载方式,更加灵活高效,节省内存 2、加载模型的预训练权重,训练时间更短。 3、数据增强选用albumentations。
4 0
基于交通工具联网的数据分析
截止到2021年年底,包括中国在内的国家和地区超过一半以上的新组装车辆都已配备了互联网接口。当前全球联网车数量已经超过了3亿辆... ...
9 0
自建Hadoop集群 VS 阿里云EMR,差距居然这么大?
本期将为大家带来开源大数据平台E-MapReduce与自建Hadoop集群对比,一起来看看吧~
54 0
阿里云EMR到底是什么?一图带你深入了解!
阿里云开源大数据平台E-MapReduce是运行在阿里云平台上的一种大数据处理的系统解决方案,那么它到底有着怎样的功能及优势呢?一起来看看吧!
60 0
【指标需求思考】如何做好指标类需求建设
大家一直所说的【需求】究竟有哪些?用户需求、业务需求、系统需求...... 但是今天我要给大家介绍一种我自认为一种别出心裁的需求!【指标类需求】在庞大的需求体系里,一个完整的系统设计流程是非常必要的,好则效率百倍,坏则加班熬夜。本文尝试以另一种需求管理方式来处理一种特殊的需求【指标类的需求】,希望大家能所有收获一起成长。当然不积跬步无以至千里,不断的进阶才是王道!欢迎大家一起交流!
12 0
阿里云自然语言处理--情感分析(通用)Quick Start
自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了良好的效果。情感分析产品是基于海量大数据研发,为有情感分析需求的产品提供服务。能够对短文本进行情感的正负向及中性进行分析,并给出相应的结果。在舆情监控、话题审核、口碑分析聚类等商业领域有广大的应用空间。本文将使用Java CommonSDK演示情感分析(通用)服务的快速调用以供参考。
21 0
重点人员管控系统开发,智慧公安情报研判分析平台建设
重点人员管控系统利用物联网技术将身份、车牌、人脸、手机、指纹、声音等信息传输到平台上与公安数据进行匹配,从而实现重点人员管控,大数据深层挖掘和智能研判应用,达到对人员的全方位,立体式管控。
8 0
高校学生参加飞天加速计划
linux与服阿里云服务器ECS, 阿里云服务器为提供了强大云计算能力。并且平台有很多开发者的使用教程,让我们新手也能很快上手去开发一些网站,希望更多的学生能够加入到阿里云,学习+实战让自己变得更强。
8 0
阿里云 ACP是什么?阿里云 ACP有什么用?
直到现在,还有很多从事互联网的工作人员都并不是清楚阿里云 ACP是什么,它是阿里云企业推出的针对于数据分析工程师的资格认证,有极高的含金量。因为阿里云在国内市场处于领先地位,他们推出的资格认证自然而然受到很多人的欢迎,很多互联网行业从业人员都以获得阿里ACP认证为荣。那么,阿里云 ACP是什么?阿里云 ACP有什么用?在认证大使官网上查阅了相关资料,我得到了答案。
5 0
+关注
尊渊
大数据践行者,前阿里云大数据平台开发,前阿里集团VOC平台技术负责人,现网易考拉数据产品技术打杂
34
文章
2
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载