《Scala机器学习》一一1.3 数值字段概述

简介:

本节书摘来自华章计算机《Scala机器学习》一书中的第1章,第1.3节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 数值字段概述

虽然数据集的大多数列可能是类别(categorical)类型或复杂类型,但这里还是要介绍一下数值数据。通常数值数据会有五种汇总方式,即中位值、均值、四分位数、最小值和最大值。Spark执行中位数和四分位数会特别简单,因此在介绍Spark的DataFrame时再来介绍这两种汇总方式。下面是采用Scala中相应的运算符来计算均值、最小值和最大值:
image

在多个字段上grep
有时需要知道怎样从多个字段上搜寻特定的值,最常见的是IP/MAC地址、日期和格式化的信息等。比如,若要得到一个文件或文档中的所有IP地址,就可将之前例子中的cut命令替换为grep -o -E 1-9{0,2}(?:\.1-9{0,2}){3}来得到。这里的-o选项表明grep仅获取匹配部分。更精确的IP地址的正则表达式为grep –o –E (?:(?:25[0-5]|20-4|[01]?0-9?).){3} (?:25[0-5]|20-4|[01]?0-9?),但这样会慢50%,第一个正则表达式在大多数实际情形中都有效。这里不介绍如何在本书提供的样例文件上执行这条命令。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】人工智能概述
【机器学习】人工智能概述
94 0
|
11月前
|
机器学习/深度学习 人工智能 算法
【机器学习-黑马程序员】人工智能、机器学习概述
机器学习和人工智能、深度学习的关系 机器学习是人工智能的一个实现途径 深度学习是机器学习的一个方法发展而来的 机器学习的应用场景非常多,主要有下图三种领域:
118 0
|
2月前
|
机器学习/深度学习 算法 TensorFlow
【人工智能】TensorFlow和机器学习概述
TensorFlow的性能优化将是持续的工作重点。这包括更高效的GPU和TPU支持、更快速的模型训练与推理、以及优化的内存使用。同时,随着硬件的发展,TensorFlow将不断优化其代码库以充分利用新型硬件的能力。
19 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
133 0
|
5月前
|
机器学习/深度学习 存储 监控
使用Scala编写控制局域网上网软件的机器学习算法
在当今数字化世界中,对于使用控制局域网上网软件控制上网活动的需求越来越迫切。无论是家庭、学校还是企业,都需要有效的方法来监控和管理用户在局域网上的上网行为。本文将介绍如何使用Scala编写机器学习算法来实现这一目标,同时提供一些代码示例来说明具体的实现方式。
169 0
|
5月前
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习概述(二)
【1月更文挑战第26天】【人工智能】机器学习概述(二)
|
5月前
|
机器学习/深度学习 人工智能 算法
【人工智能】<吴恩达-机器学习>批量梯度下降&矩阵和向量运算概述
【1月更文挑战第26天】【人工智能】<吴恩达-机器学习>批量梯度下降&矩阵和向量运算概述
|
5月前
|
机器学习/深度学习 数据采集 人工智能
数据分析概述2(详细介绍机器学习
数据分析概述2(详细介绍机器学习
57 0
|
11月前
|
机器学习/深度学习 人工智能 边缘计算
机器学习专栏——(一)人工智能概述4
人工智能和机器人技术正在以前所未有的速度发展,对社会和经济产生深刻影响。本文将探讨人工智能和机器人领域的未来趋势和发展方向,重点关注以下几个方面:通用人工智能、人机协作、强化学习、迁移学习、边缘计算以及道德和法律议题。
114 0
|
11月前
|
机器学习/深度学习 人工智能 算法
机器学习专栏——(一)人工智能概述3
端到端学习:端到端学习也称为端到端训练,指在训练过程中,我们不需要考虑中间各个环节的功能,也不需要人为干预中间环节,我们只关注输入与输出。就像一个黑盒,黑盒中的任何东西我们都不关注,我们只关注将什么输入黑盒,从黑盒中输出了什么。同样的,端到端学习也需要解决贡献度分配问题,目前,大多数的神经网络也可被视为端到端学习。
110 0