《大数据分析原理与实践》一一导读

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

前  言

本书的缘起与成书过程
大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在“大数据+”涉及的领域(如工业、医疗、农业、教育等)有了广泛的应用。大数据分析的相关知识不仅是大数据行业的从业人员应该必备的,也是和大数据相关的各行各业的从业者需要了解的。
然而,人们对大数据分析的解读有多个不同方面。从“分析”的角度解读,大数据分析可以看作统计分析的延伸;从 “数据”的角度解读,大数据分析可以看作数据管理与挖掘的扩展;从“大”的角度解读,大数据分析可以看作数据密集高性能计算的具体化。
而大数据分析的有效实施也需要多个方面的知识。从分析的角度来讲,需要统计学、数据分析、机器学习等方面的知识;从数据处理的角度来讲,需要数据库、数据挖掘等方面的知识;从计算平台的角度来讲,需要并行系统和并行计算的知识。
上述多样化造成了目前大数据分析的教材和参考书的多样化:有些书重点介绍统计学或者机器学习知识,突出“分析”;有些书重点介绍实现平台和技术,突出“大”;有些书重点介绍数据挖掘知识及其应用,突出“数据”。笔者认为,这三类知识对大数据分析都是必不可少的,于是试图编写一本教材来融合这三类知识,给读者展示一个相对广阔的大数据分析图景。
也正是因为解读的角度和所需知识的多样化,本书的成书过程也比较曲折。在成书的过程中,笔者对大数据分析的认识也在不断加深,因而在编写过程中几次变换结构和体例。由于笔者主要从事数据相关工作,所以起初以大数据分析算法和相关技术为主,对数据分析模型方面的知识只是一笔带过。在和业内人士的交流中发现,对于很多读者来说,了解分析模型可能更重要,因为很多分析算法和大数据分析所需的技术都有平台实现,分析模型却需要了解业务的人来建立,于是笔者增加了较多数据分析模型方面的内容。而后通过和阿里云的合作,笔者又进一步了解了大数据分析的需求,于是增加了数据预处理等内容,并基于阿里云的技术和平台对书中的一些内容做了实现。这就是本书现在的版本

目录

第1章 绪  论 1.1 什么是大数据
1.2 哪里有大数据
1.3 什么是大数据分析
1.4 大数据分析的过程、技术与难点
1.5 全书概览
第2章 大数据分析模型
2.1 大数据分析模型建立方法
2.2 基本统计量
2.3 推断统计
第3章 关联分析模型
3.1 回归分析
3.2 关联规则分析
3.3 相关分析
3.4 小结

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
JavaScript API
Vue3 基础语法
该内容介绍了Vue项目的创建和Vue3的语法、响应式API、生命周期、组件通信及跨组件通信方法。包括使用`npm init vue@latest`创建项目,`npm install`初始化,Vue3的`setup`语法,`reactive`、`ref`、`computed`和`watch`的用法,生命周期图解,以及父子组件间的数据传递。此外,还提到了Vue3中使用`provide`和`inject`进行跨层数据传递,以及通过Pinia库进行状态管理。
170 0
Vue3 基础语法
|
数据库
基于Jeecgboot前后端分离的ERP系统开发代码生成(六)
基于Jeecgboot前后端分离的ERP系统开发代码生成(六)
539 0
|
编解码 人工智能 自然语言处理
通义千问开源第二波!多模态来啦!(内含魔搭最佳实践)
近期,通义千问大规模视觉语言模型Qwen-VL上线魔搭社区,Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。
|
SQL 分布式计算 Hadoop
数据治理的王者——Apache Atlas
数据治理的王者——Apache Atlas
2097 0
数据治理的王者——Apache Atlas
|
关系型数据库 MySQL 网络安全
【技术贴】安装MYSQL最后一步出现错误,提示"终结点映射器中没有更多的终结点可用的解决"!
【技术贴】安装MYSQL最后一步出现错误,提示"终结点映射器中没有更多的终结点可用的解决"!   能看到这句话证明你的mYSQL已经ok了。   问题分析 这是因为你在安装MySQL的某一步中勾选了“Add firewall exception for this port”(为防火墙添加例外),但是你的Windows的防火墙或者防火墙服务被你优化关闭了(比如我 就没有开过windows防火墙),所以会有这个提示。
2045 0
|
数据可视化 算法 安全
自动检测图像中的圆形目标并可视化检测到的圆
说明如何自动检测图像中的圆或圆形目标并可视化检测到的圆。
505 0
|
SQL Oracle 关系型数据库
Oracle 到OceanBase 数据迁移OMS最佳实践
本文介绍Oracle 到OceanBase 数据迁移OMS最佳实践。
962 0
|
机器人 图形学
Unity Shader Graph 制作Rim Light边缘光效果
Unity Shader Graph 制作Rim Light边缘光效果
675 0
Unity Shader Graph 制作Rim Light边缘光效果
|
人工智能 算法 安全
技术:Java-Web基础|生成图片验证码(二)
验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类
技术:Java-Web基础|生成图片验证码(二)