《大数据机器学习实践探索》 ---- 总目录-阿里云开发者社区

开发者社区> season雅宁> 正文

《大数据机器学习实践探索》 ---- 总目录

简介: 本专栏《大数据处理实践探索》 通过记录基于Python 的大数据处理实践探索案例,力图将大数据与机器学习相结合 产生新的实践落地思路。 网络上的大数据相关博文多是基于java 或者Scala ,本专栏的目的在于 基于python 将大数据(pyspark、 Elasticsearch、sklearn …),数据开发,与数据分析相结合。 并在实践内容上给出一定指导,最后本专栏特地针对笔试面试高频题方面给出了分享,希望能够在找工作时候帮助到大家。
+关注继续查看

@toc


本专栏持续更新中,内容还未完整的请稍安勿躁,部分内容有参考其他书籍或是网络文献,都会给出原始出处


21 世纪必将是大数据的时代,是智能信息处理的黄金时代。

BAT 公司在 2013年左右的数据量如下:

  • 2013 年百度相关技术报告称,百度数据总量接近 1000PB,网页的数量大是几千亿个,每年更新几十亿个,每天查询次数几十亿次。
  • 2013年腾讯相关技术报告称,腾讯约有8 亿用户,4亿移动用户,总存储数据量经

压缩处理以后在 100PB左右,日新增 200TB 到 300TB,月增加 10%的数据量。

  • 2013年阿里巴巴相关技术报告称,总体数据量为 100PB,每天的活跃数据量已经超过 50TB,共有4亿条产品信息和2 亿多名注册用户,每天访问超过 4000 万人次。

为了采集、存储和分析大数据,互联网公司尝试研发大数据技术,在众多技术方案中,开源系统 Hadoop、 Spark、Elasticsearch等 成为应用最广泛的大数据技术,由于它们的用户量巨大,已经初步成为大数据技术规范。

本专栏《大数据处理实践探索》 通过记录基于Python 的大数据处理实践探索案例,力图将大数据与机器学习相结合 产生新的实践落地思路。 网络上的大数据相关博文多是基于java 或者Scala ,本专栏的目的在于 基于python 将大数据(pyspark、 Elasticsearch、sklearn ...),数据开发,与数据分析相结合。 并在实践内容上给出一定指导,最后本专栏特地针对笔试面试高频题方面给出了分享,希望能够在找工作时候帮助到大家。

本专栏 于 2021年7月20日 正式更名为《大数据机器学习实践探索》,并将主要更新:基于大数据的机器学习最佳实践 中的主要内容,围绕大数据环境下的机器学习,基于spark 给大家介绍最新的大数据机器学习算法。

github 地址: big_data_repo


框架平台介绍篇

大数据尝试从海量数据中,通过一定的分布式技术手段,挖掘出有价值的信息,最终提供给用户,进而产生实用价值和商业价值。由于数据本身的多样性以及数据分析需求的多元化,大数据技术体系非常复杂,涉及的组件和模块众多。

为了便于读者从顶层框架上对大数据有一个清楚的认识,本部分尝试首先概括大数据技术框架。

云平台

通过我和北美工程师的合作,他们将AWS 已经当成了一种基础设置,如果你还不了解云计算,或者任意一家云平台的话,你out 了。 学习云计算或者云平台的途径最好就是通过他们的文档。国内云平台如同雨后春笋般蓬勃发展,但最值得借鉴的还是鼻祖AWS.

安装与调试

本小节主要针对开发环境搭建,集群环境搭建进行介绍

大数据搜索框架 Elasticsearch

Elasticsearch是一个实时的分布式搜索和分析引擎,使得人们可以在一定规模上和一定速度上实现数据检索,常用于全文本检索,结构化检索、分析以及三种的结合应用。Wikipedia、Guardian、Stack Overflow、Github都在使用Elasticsearch实现自己的相关检索工作。

大数据框架 spark

在这里插入图片描述

Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。Spark最初的设计目标是使数据分析更快——不仅运行速度快,也要能快速、容易地编写程序。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使编写程序更为容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式的编程体验。虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域最热门的大数据计算平台。

WSL 是 Windows Subsystem for Linux windows下的linux子系统,由于直接在windows 上安装pyspark 跑很多基于linux 的库的机器学习库很费劲,有什么办法是省时省力并且占用资源少的方式呢?相比虚拟机动辄8g 左右的内存占用量,wsl 当然是一个非常好的选择。


数据处理篇

数据接入

数据接入就是对于不同的数据来源、不同的合作伙伴,完成数据采集、数据传输、数据处理、数据缓存到行业统一的数据平台的过程。

数据清洗

数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。

数据清洗的目的从两个角度来讲:

一、是为了解决数据质量问题
二、是让数据更适合做挖掘、展示、分析

ETL

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

EDA

还有比pandas profiling 更好使的python EDA 工具吗?

经典Titanic 数据集的探索性数据分析报告:

https://pandas-profiling.github.io/pandas-profiling/examples/master/titanic/titanic_report.html

特征工程

特征工程的主要目的是放大数据的价值。有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已


大数据机器学习篇

在大数据领域中,机器学习几乎无处不在,即便我们没有特意引用它们,它们也经常出现在大数据应用中,例如:搜索、推荐、预测和数据挖掘等。随着互联网的高速发展,数据量不断爆发式增长,数据维度越来越丰富,这也为机器学习的发展和应用提供了良好的土壤,机器学习的良好成果也反向让数据产生更大的价值,成为真正的“大数据”,两者相辅相成,相互促进,让数据越来越智能。


算法原理篇


SQL 优化

sql 优化无处不在,核心可以概括为几点:

  1. 有效使用索引
  2. 根据查询计划持续优化
  3. 构建高效的sql 语句

大数据可视化

一图胜千言,视觉传达的信息量带宽远大于文字。


实践案例篇

基于大数据的数据处理

基于大数据的数据分析

使用pyspark 进行kaggle比赛Give me some credit数据集的建模与分析


笔试面试篇

笔试面试题复习的核心要义是什么? 一言以蔽之,基础+原理。


其他


参考文献

Spark入门教程(Python版)

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Linux学习笔记之目录配置
Linux学习笔记之目录配置一.目录配置相关目录说明 /bin   二进制文件 /boot    系统启动文件(内核的初始化文件等) /dev    设备文件(硬盘等) /etc    配置文件 /home    用户家目录 /lib    链接库文件(相当于windows里的.
783 0
如何用大数据开发套件周期调度机器学习算法
讨论如何用大数据的开发套件的调度功能和机器学习产品,进行自动化调度的机器学习计算。
4877 0
大数据学习资料下载,新手攻略,数据分析工具、软件使用教程
作为 IT 类职业中的“大熊猫”,大数据工程师的收入待遇可以说达到了同类的顶级。国内 IT、通讯、行业招聘中,有 10% 都是和大数据相关的,且比例还在上升。“大数据时代的到来很突然,在国内发展势头激进,而人才却非常有限,现在完全是供不应求的状况。
1603 0
怎么设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程
8478 0
《中国人工智能学会通讯》——12.58 大数据不确定性学习的研究
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.58节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1010 0
LINUX学习(一)文件与目录操作
        用户的数据和程序大多以文件的形式保存。用户使用Linux系统的过程中,需要经常对文件和目录进行操作。本章讲述了文件与目录的基本概念,有关文件和目录操作的命令以及如何在Linux环境下运行DOS命令。
861 0
搞定大数据:AI和机器学习在数据处理与保护上的应用
本文讲的是搞定大数据:AI和机器学习在数据处理与保护上的应用,作为咨询师和顾问,有关各自数据、信息和网络安全事务时,重复“规模”问题挺有难度。
1524 0
+关注
season雅宁
大数据生态圈,计算机视觉,机器学习,高端技术的爱好者,话不多说,上代码!!!
287
文章
1
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载