关于大数据的那些事儿(一)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/50396896 关于大数据的那些事儿(一)作为开发者,在大数据时代我们到底需要会什么?大数据到底是什么? 它是为了解决海量数据的存储和计算所出现的技术,包括结构化和非结构化数据 以及,存储数据的成本。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/50396896

关于大数据的那些事儿(一)


作为开发者,在大数据时代我们到底需要会什么?

大数据到底是什么?
它是为了解决海量数据的存储和计算所出现的技术,包括结构化和非结构化数据
以及,存储数据的成本。

只会搭搭集群,写写map-reduce不是我们的核心竞争力所在,即使现在靠这个能混口饭吃,但是能够想象到,这种类型的人才是可以批量生产的!
因为这并不算是什么核心技术,只要你不傻,借助网上的资料,几个月的时间你就可以成为一名“大数据工程师”。
但是你的会东西别人也会,那么你的价值体现在哪里?

大数据的核心价值在于数据挖掘和机器学习等领域,这是能够改变人类生活的技术
无非就是干四件事情
聚类、分类、预测、回归
(1)将海量数据标准化
(2)选择算法模型进行训练分析,此过程中要注意过度拟合、拟合不足和维度危机等。
(3)构建用户画像,根据维度给用户贴标签等
(4)进行精准营销,准确预测和推荐

大数据工程师价值所在于能够平衡,平衡什么呢?
速度和精度
在速度和精度之间做出的衡量,这才是懂大数据人才的value所在

那么问题来了:
速度和精度无非两个方面
要么算法,要么底层构架

通过优化算法(优化模型,训练最优解,尽可能地减少迭代次数)
和优化系统的底层构架(I/O开销、网络开销、序列化和压缩等)

任何一个方面都是值得专研整个职业生涯的,浑浑噩噩地写代码,不知道知道为谁而写,写了是干嘛用的,不知道自己写的代码背后发生了什么,为什么要这样写,这并不是正真的程序员,在我的眼中程序员是能够创造世界的一群人。

仅作为和前辈交流的一点心得体会所记下。

另外收获了一些关于创业的感悟

  • 1、你的idea是不是一种刚需?就想每天人们都需要吃饭一样,必不可少。
  • 2、你的技术能否落地?落地不了的东西,那也只能是想想而已。
  • 3、你的idea是不是有有社会价值?说的圣明一点,以赚钱为目的的创业成功的可能性不大,但是能有社会价值,促进生活的idea并不是那么多。
  • 4、微创新,创业并不是要在某个领域颠覆传统,推倒所有竞争对手,你要做的有可能仅仅是在对手的基础上改进那么一点点,想想QQ和微信也许你就明白了。
  • 5、好玩,这是互联网时代不可缺少的一个特性,你的作品不好玩,那就代表着没有用户粘性,结果如何可想而知。

作者:@小黑

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
SQL 机器学习/深度学习 数据可视化
漫谈对大数据的思考(下)
“大数据”已跃升为我们行业中最受炒作的术语之一,但炒作不应使人们忽视这样一个事实,即这是数据在世界上的作用真正重要的转变。
漫谈对大数据的思考(下)
|
存储 数据采集 消息中间件
漫谈对大数据的思考(上)
“大数据”已跃升为我们行业中最受炒作的术语之一,但炒作不应使人们忽视这样一个事实,即这是数据在世界上的作用真正重要的转变。
漫谈对大数据的思考(上)
|
安全 大数据 定位技术
大数据之近古篇一
这是盛宣怀利用电报信息得到胡雪岩交易的大量数据,从而找出他的资金链漏洞,击败他的故事。
326 0
大数据之近古篇一
|
大数据 分布式计算 Hadoop
从0到1完全掌握大数据
经常听别人说“我要去学习大数据”,乍一听大数据应该是某个技术。而通俗来讲,大数据就是大到难以处理的数据集合,是社会技术发展过程中碰到的棘手问题。本文将从大数据的由来和相关技术分别展开进行讲解,从0到1系统地介绍如何学会使用大数据。
3328 0
下一篇
无影云桌面