大数据认知

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据认知

大数据认知

生活中的大数据

大数据已经彻底改变了我们的生活方式,我们来聊一聊生活中的大数据。首先,大数据在媒体和乐行业快速兴起,它预测观众的兴趣,并从他们的行为中获取见解,以 Netftix 电视收视率第一的 《纸牌屋》为例,这部剧从诞生之初就是一部大数据,及互联网观众喜好来设计的作品,Netftix 会跟踪观众的搜索、评分、浏览习惯等,并据此确定电视剧的方向。教育行业同样存在大量学生、教师、课程相关的数据,依据教育大数据定制的学习动态的学习计划,重构课程材料,分析学生的优势、劣势、兴趣等进行行业预测。大数据的兴起,让交通运输变得更加高效和便捷。我们利用大数据进行路线规划,管理拥堵和控制交通,保障交通安全。以滴滴出行为例,滴滴生成并使用大量关于乘客和司机的数据,乘客可以快速了解车辆饱和度、位置、预计到达时间,而司机可以通过乘客叫车频次、区域热力图,规划路线,减少燃料浪费;医疗保健是另一个生产大数据的行业,大数据在医疗最强大的应用就是电子病历的普及、可穿戴设备和传感器,为患者的健康提供实时反馈,华为、Apple 等推出了相关的设备;金融啊行业的数据每秒都在暴涨,研究和分析这戏数据不仅可以对客户需求变化,更能发现各种非法活动,如滥用信用卡、贷款风险等等,全球各地都部署天气传感器和卫星,我们利用这些数据检测天气和环境,如天气预报、自然灾害预测或者天气变暖。当今世界,大数据的浪潮正在席卷全球,大数据不再是象牙塔里的珍品,它已经被大规模的应用于媒体和娱乐、教育、交通、医疗、金融、气候等产业,并实实在在地改变我们的世界。

大数据简史


从文明之初 结绳记事 开始,数据一直伴随着人类社会的发展和变迁,大数据的记录可以追溯到 7000 多年前。美索不达文明引入记录作生物生长和放牧,然而,直到计算机为代表的现代信息技术出现后,人类掌握数据、处理数据的能力才实现了质的跃升,第二次世界大战期间英国人发明了破解纳粹密码的机器,这台机器被称为 Colossus,它以每秒五千字的记录速度工作 Colossus将工作从几周减少到几小时,伴随着互联网和超级计算机的出现,在 1990 年代,数据以指数速度在增长, 1988 年,《纽约时报》将 “大数据“,一词的首次使用归功于 John Mashey,时间来到 21 世纪,2008 年《自然》杂志提出了大数据的概念,大数开始在信息技术行业受到重视,2001 年麦肯锡全球研究院宣布大数据时代已经到来,并发表《大数据下一个创新、竞争和生产率的前沿,此后,各国政府也开始推动大数产业发展,2012年奥巴马政府发布《大数据研究和发展计划》,启动 2 亿元的大数据研发计划,旨在推动大数据基础研究,2015年我国国务院发布《促进大数据发展行动纲要》,提出了未来 5 - 10 年大数据发展的具体目标、任务,2017 年 1 月,《大数据产业发展计划(2018 - 2020年)》正式发布,全面制定了未来五年大数据产业大战计划,为 ”十三五“ 时期大数据产业的持续健康发展确立了目标于路径,2020 年 5 月《关于工业大数据发展的知道意见》发布,推动了工业数据全面采集和工业数据开放共享

大数据的概念、本质


大数据,一看似复杂的术语,它到底是什么呢?我们都知道数据会随时被产生,但是这些杂乱无章的数据,没有带来给我们呢任何结果,随着分布式计算和大规模数据处理引擎的出现,我们现在可以分析数据,建立模型,预测结果,我们来了解一段大数据早期实践的故事,

马修莫里是一位年轻的海军教官,在常年的航海中积累了丰富的经验, 1842 年他发现库房存在非常多航海书籍、图表等,他把这些无章可循的日志整理成一张全新的行海地图,绘制了 120 万数据点,一直沿用至今,莫里中校把脏乱的航海日志变成有用的数据,从这个意义上讲,莫里就是大数据的先驱,经过多年发展的大数据,业界没有统一的定义,但是一些一致的观点,比如 IBM 总结出大数据的五大特征即 5V 获取得社会普遍得认可,我们以我国 2015 年发布得促进大数据发展行动为纲要为准,将大数据定义为:大数据以容量大、类型多、存取速度快、价值密度低为主要特征得数据集合,我们人人都是用智能手机,但你有没有想过它产生多少数据呢?电话、照片、视频、语音、音乐、搜索、电子邮件、文字输入、数字等等,现在让我们来看看,在智能手机普及得今天,什么是大数据得 5V 特征?

大数据的 5V 特征获得业界的普遍认同, 5V 是指:大量/高速/多样价值密度低/真实。我们首先通过历年双十一活动的例子来理解 5V ,中国电商自创创双十一购物狂欢节,全民线上购物产生了海量数据,家居/服装/美妆/图书/食品等等,从衣食住行生鲜冷链,云端数据川流不息。2020 年全网交易额 5700 亿,包裹量达 7.12 亿件,双十一支付宝每秒交易达 6100 万次,阿里云自研的数据库实现每秒 8700 万次的数据计算,而这都归因于大数据的速度。我们在双11买买买的时候会发现,网络购物不仅会遇到结构化数据,例如:文本/数字等,也会有海量的非结构化数据,例如:图片、视频、网站、地理位置等。双十一的数据帮助消费者在大数据推荐下没购买到心仪的产品。帮助产业精确客户需求,实现市场预测,双十一数据呈现了真实的购买及消费偏好。这些数据将是消费行业产业链收益。看完双十一购物案例后,我们来回顾一下大数据的 5V 特征。首先是大量,截至目前,人类生产的所有的印刷材料是 200 PB,而历史上全人类说过的话数据量大约是 5EB。当前,典型个人计算机硬盘的容量为 TB 量级,而一些大企业的数据量已经接近 EB 量级。其次是高速。这是大数据区别于传统数据挖掘的最显著的特征。在如此海量的数据面前,处理数据的效率就是企业的生命。第三是多样性。数据的多样性分为结构化数据、半结构化数据和非结构化数据。相对于文本、数字、符号为主的结构化和文档等半结构化数据,非结构化数据化数据越来越多,包括网络日志、音频、视频、图片摄像头数据、地理位置、可穿越这杯数据等。第四是价值密度低。价值密度的高低于数据总量的大小成反比。如何快速对有价值的数据“提纯”成为目前大数据待解决得难题。第五是真实,真实是指数据得质量和保真性,可以说假数据或不可靠的数据比没有更糟糕。 5V 特征是大数据据具备更大得潜力迎接挑战。

大数据分类


分类对于任何学科得研究都是必不可少的,因此,大数据被广泛的划分为三类。结构化数据、非结构化数据、半结构化数据,我们来逐一了解。

我们来观察一下这个魔方,它有什么特征呢?

结构统一,格式统一,我们通常把这个魔方呈现的数据叫做结构化数据。

结构化数据是指:任何以固定格式存储、访问和处理的数据都称为结构化数据。我们来看,这张表格典型的结构化数据。

从这张复杂的网状图里,我们可以看到多种数据形式,视频、语音、文字等等,而这些数据就是非结构化数据。

非结构化数据是指:字段长度可变,每个字段的记录由可以重复或不可重复的子字段构成数据库。我们来看,这张搜索大数据的页面就是典型的非结构化数据。

这是一部电影的构思图,我们看到故事和角色信息混杂在一起,那它是什么类型的数据?

电影的构思图属于半结构化数据,所以半结构化数据是指:介于结构化数据和非结构化数据之间的数据。我们来看,这个 XML 文档就是典型的半结构化数据。

通过这张图,我们可以清晰的看出结构化数据、半结构化数据、非结构化数据的特征。这就是大数据的分类,童鞋们,掌握了吗?

大数据算法


大数据处理的是各种各样的数据:数字、文字、图像、声音、视频等等。海量的数据挖掘背后后的信息,做出预测,指导决策和行动。这涉及到一些算法模型的应用。今天我们学习大数据技术涉及的算法。数据挖掘一般应用分类、聚类、回归、时间序列、文本挖掘等方法。

分类

分类就是根据所给数据的不同的特点,判断属于哪个类别,如把电子正常邮件和邮件垃圾。几种常见的分类算法朴素贝叶斯、决策树、支持向量机。如看到一个黑皮肤的外国人,猜测他来自哪里,十有八九是从非洲来的,虽然黑皮肤的外国人也有可能是美洲人或者是亚洲人,但是没有其他信息帮助的判断的情况下,我们会选择可能出现的概率是最高的类别,这个过程应用到的其实就是朴素贝叶斯算法决策树主要用于用户规分、行为预测、规则梳理等方面,有很多企业对员工的离职预测,通过决策树找出在离职员工,支持向量机可应用于人来能识别,判断相机中的物体是否是人脸。聚类,生活中我们经常讲到“物以类聚,人以群分”,常见的聚类算法:K-means;K-means 的应用领域非常多,人力资源针对不同类别的员工采取不同的人才规划,网络购物时,商家应用 K-means 算法对会员根据不同特征收入、地域、职业、等进行聚类,依聚类、依据聚类结果,对不同会员进行精准的商品推送;回归,生物统计学家高尔顿在研究父母身高和子女身高时发现:“即使父母身高都极高,子女不见得比父母高,而是有“衰退”至平均身高的倾向,这就是回归,从已有的数据结果中获取规律,对其他数据进行预测,回归算法中一元线性回归,广泛应用于我们的社会生活中,如预测房价,机场预测客流量分布,新浪微博预测用户互动量等等;时间序列,打开天气预报,未来几天关于温度,湿度的预测就是一个时间序列的应用场景,时间序列常常用于经济预测等,还可以在百度搜索引擎里查找大数据相关搜索热度,随着时间变化,搜索热度呈现出逐步的趋势,常见的实践序列算法:ARIMAARIMA用来预测未来值,如在人口普查中人口流动预测;文本挖掘 ,如我们打开百度输入”大数据“进行搜索时,搜索引擎应用文本挖掘理解你的需求,并根据你的需求推荐信息,几种常见的文本挖掘算法:词云、词频、主题分析、感情分析。商家和企业经常会应用词云、词频等算法对顾客进行用户画像,对所需要的候选人进行人才画像,我们在微博、B站等社交媒体上搜索、评论时,也会受到针对你个人的内容推荐,个性化的推荐应用各种文本挖掘分析,当你在豆瓣上吐槽某部电影时,豆瓣可以应用情感分析算法进行电影口碑分析,能够快速解读出某部电影的票房趋势,另外,如美国大选时,调查机构上利用人们在 twitter 上发布对总统候选人看法的信息,应用情感分析算法可以得出比较准确的民意倾向。


遇见大咖

数据财务分析师

人力资源数据分析师

营销数据分析师

算法工程师


人力资源大数据基础(上)

大数据概念与特点

人力资源数据特点

人力资源数据发展趋势

数据挖掘知识与工具简介


数据挖掘工具配置模型

  1. 五大类别
  • 回归分析
  • 分类分析
  • 聚类分析--人以类聚,物以群分
  • 降维分析
  1. 八个模型
  • 线性回归(回归分析)
  • 朴素贝叶斯(分类分析)
  • 决策树(分类分析)
  • K - Means(聚类分析)
  • k - Means 算法将一组 N 个样本的特征矩阵 X 划分为 K 个无交集的蔟,直观表现来看是簇是一组一组聚集在一起的数据,在一簇中的数据就认为是同一类。最终的结果,蔟就是聚类的结果表现。
  • 蔟中所有数据均值通常被称为这个蔟的 “质心” (centroids)。在一个二维平面中,一簇数据的质心的横坐标就是这一蔟所有样本数据横坐标的均值,质心的纵坐标就是这一簇所有样本数据的纵坐标的均值。
  • K - Means 是如何聚类的
顺序 过程
1 随机抽取
2 开始循环
将每个样本点分配到他们最近的质心,生成 k 个蔟
对于每个蔟,计算所有被分到该蔟的样本点的平均值作为新的质心
3 当质心的位置不再发生变化,迭代停止,聚类完成。

  • 主成分分析(降维)
  • 词云(文本分析)
  • 词频和主题分析(文本分析)
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
机器学习/深度学习 人工智能 大数据
|
分布式计算 大数据
|
机器学习/深度学习 人工智能 物联网
|
机器学习/深度学习 人工智能 物联网
|
机器学习/深度学习 人工智能 物联网
|
机器学习/深度学习 人工智能 算法
下一篇
无影云桌面