Data Science | 数据科学简介

简介: Data Science | 数据科学简介

数据科学(Data Science)

数据科学是一个跨学科的领域,包含所有与结构化和非结构化数据相关的内容,从准备、清理、分析和源于有用的视角开始。它结合了数学、统计学、智能数据捕获、编程、问题解决、数据清理、不同的观察角度、准备和数据对齐。


简而言之,它是对数据进行处理的几种技术和流程的组合,以获得有价值的业务视角。通过使用科学的方法、算法、流程和系统来有效地提取信息,这些信息可以被业务用来做出关键的业务决策。



大数据(Big Data)

大数据有几个特性,最著名的是数据量(volume),速度(velocity),多样性(variety)。除此以外,还有就是准确性(veracity),连通性(valence), 和价值(value) 。


Volume


这就是大数据本身的本质,有很多数据,很大数据量。而数据量本身并不使数据变得有用,所以我们需要对它进行再次的处理。


计算机的运行速度决定了没法迅速处理如此大的数据规模,所以在大量数据领域,还有类似存储,访问和处理相关的成本,可扩展性和性能等等挑战。


Velocity


这个词我有看到几个解释,类似的翻译有很多,有人认为应该翻译成时效性,我个人不这么认为。大部分的英文解释都是关于处理数据的速度。


当你处理这么多的数据时,访问速度和得到所需结果的速度是至关重要的。


举个例子,Google Flu Trends(虽然已经证明是失败的了)能够预测流感,通过实时收集数据进行运算,如果你的运算速度比较慢,处理不了那么多数据,那么在流感爆发的时候,你还没有计算出这个区域有没有流感潜伏,这就失去了时效性。所以处理速度很重要。


Variety


数据格式多样性:包含文字、影音、网页、串流等等结构性、非结构性的数据等等。


来源多样性:从动车系统传来的实时数据,从沃尔玛系统每周统计的数据等。


媒体多样性:随着多媒体的发展,用来传播的媒体也越来越多,如音频、视频、图片等等。


语义多样性:分为两个方面。一方面,举个最简单的例子,我们可以用数字来表示年龄,我们也有用小孩,青年,老人来表示年龄。另一方面,在不同语义情况下,相同的词会蕴含不用的意思。


Veracity


可疑性指的是当数据的来源变得更多元时,这些数据本身的可靠度、质量是否足够,若数据本身就是有问题的,那分析后的结果也不会是正确的。


Valence


这是最不常见到和谈到的属性。


这个属性的来源是化学里的化合价,在这里指的是数据的连接性,即连接的数据项与可能连接的总数的分数。


当两个数据相关的时候,则称这两个数据相互连接。而连接性会随着时间越来越大,导致数据关系越来越复杂,于是群体事件预测、关系变化的建模与预测等等也会越来越复杂。


Value


前面说了这么多,大数据的核心就是价值。所有的大数据的困难与问题都是如何将数据转化为价值。包括大容量和各种数据的易于访问和提供高质量分析,从而做出明智决策的价值等等。

image.png

数据分析(Data Analysis)

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。

image.png

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
存储 JSON 数据格式
UCB Data100:数据科学的原理和技巧:第一章到第五章
UCB Data100:数据科学的原理和技巧:第一章到第五章
191 0
UCB Data100:数据科学的原理和技巧:第一章到第五章
|
机器学习/深度学习 人工智能 自然语言处理
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
课程对于graph方向的数据挖掘、机器学习(神经网络)有全面的知识覆盖。如果想学习非结构化的图数据上的各类算法,这是最权威的课程之一。
2257 1
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
|
自然语言处理 安全 索引
《R数据科学》学习笔记|Note13:函数
《R数据科学》学习笔记|Note13:函数
180 0
|
机器学习/深度学习 存储 人工智能
零基础"机器学习"自学笔记|Note1:机器学习绪论
这个系列为我在自学【机器学习】时的个人笔记。因为本人为医学相关专业,故学习过程中可能会有较多的纰漏,希望各位读者不吝赐教。
133 0
零基础"机器学习"自学笔记|Note1:机器学习绪论
|
数据可视化
《R数据科学》学习笔记|Note14:向量
《R数据科学》学习笔记|Note14:向量
214 0
《R数据科学》学习笔记|Note14:向量
|
XML SQL JSON
《R数据科学》学习笔记|Note7:使用readr进行数据导入
《R数据科学》学习笔记|Note7:使用readr进行数据导入
212 0
|
大数据 数据处理
《R数据科学》学习笔记|Note6:使用tibble实现简单数据框
本系列为《R数据科学》(R for Data Science)的学习笔记。相较于其他R语言教程来说,本书一个很大的优势就是直接从实用的R包出发,来熟悉R及数据科学。更新过程中,读者朋友如发现错误,欢迎指正。如果有疑问,也可以在评论区留言或后台私信。希望各位读者朋友能学有所得!
480 0
《R数据科学》学习笔记|Note6:使用tibble实现简单数据框
|
机器学习/深度学习 人工智能 供应链
Kaggle 大神Dan Becker与你分享他的数据科学之旅!
【新智元导读】本文中Kaggle大佬Dan Becker谈论了自己从经济学向数据科学的转变,从零开始成为数据科学家的旅程,并给予初学者们一些建议。
156 0
Kaggle 大神Dan Becker与你分享他的数据科学之旅!
|
机器学习/深度学习 存储 分布式计算
Data Science | 数据分析
Data Science | 数据分析
120 0
Data Science | 数据分析
|
XML JSON Unix
七个用于数据科学(Data Science)的命令行工具
数据科学是OSEMN(和 awesome 相同发音),它包括获取(Obtaining)、整理(Scrubbing)、探索(Exploring)、建模(Modeling)和翻译(iNterpreting)数据。作为一名数据科学家,我用命令行的时间非常长,尤其是要获取、整理和探索数据的时候。而且我也不是唯一一个这样做的人。最近,Greg Reda 介绍了可用于数据科学的经典命令行工具。在这之前,Seth Brown介绍了如何在Unix下进行探索性的数据分析。
174 0
七个用于数据科学(Data Science)的命令行工具

热门文章

最新文章