数据理解与预处理-5|学习笔记

简介: 快速学习数据理解与预处理-5

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践情感分析 上】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15443


数据理解与预处理-5

 

内容介绍:

一、数据挖掘

二、数据、信息、知识和智慧

三、举例

四、数据

 

一、数据挖掘

数据挖掘从字面构成看:一个是数据,一个是挖掘。学习数据挖掘首先要了解数据,学习对数据的理解以及数据的预处理。

这一讲的内容主要有数据极其类型、数据的质量、数据的预处理、和对后面的数据挖掘算法应用很重要的样本数学的相似性与相应性的相关知识。

学习这部分知识以及学习后面的数据挖掘,还需要补充一些数学统计、概率方面的知识。例如需要了解样本的集中趋势、离散趋势、样本的分布。对于这些知识,不熟悉的进行补充。

在统计的基本概念中,前面的总体和样本集中趋势、离散趋势是比较容易理解的,但对于分布要花时间去再学习。

例如在分布中,知道较多的是正态分布,但正态分布下面的偏度和分布也要进行了解。

image.png一个正常的正态分布,图形中是有偏度的(一个往左偏,一个往右偏),这说明是偏度的问题,如图看到偏度小于零和偏度大于零,这是它的偏的情况。

image.png正常的正态分布是中间这一条方圆的线,如图,它的波峰可以向上也可以向下。向下也很高也可以很低,高时是风度大于零,低时是风度小于零,这是有关风度的概念。而上一张图是有关偏度的概念。不清楚的查询资料或复习有关统计的基本概念。

 

二、数据、信息,知识和智慧

image.png在学习数据及其类型前,先了解几个概念的区别。

数据、信息,知识和智慧四个概念间的区别是什么?对于数据理解越深,数据间的联系越多,数据到信息到知识到智慧的过程。

数据是孤立、互不关联的客观事实,文字,数据和符号是数据data。信息是对数据进行系统的采集、组织、整理和分析的结果,目的使数据成为一种结构化的,有序的且具有相关性的产品。

知识是针对特定用户的需求和问题,在信息分析的基础上提供解决方案,知识有显性和隐性。

现在提到很多有关智慧的概念,例如智慧图书馆、智慧城市、智慧交通、智慧教师。智慧指人对事物的发展基础具有前瞻性的看法,能够洞察事物的本质和规律。

image.png如果知识是静态的,智慧就是动态的。智慧是利用掌握的知识,做出前瞻性的判断,能够更深的洞察事物的本质和规律。

进一步了解数据和智慧的过程。假如有大量的交易数据,记录下来后是数据,从数据里进行各种加工变成信息产品。比如invent资讯、各种财经新闻后接触者可以做出决策。

对于信息加上领域,加上问题还有需求,能够解决具体问题时,就变成知识了。从知识到智慧这一步很难,它难在于知识也许懂,但是后面要进行行动时,实际上是比较困难的。

 

三、举例

比如经常运动有助于健康。但有多少人能够坚持?学生说要在学校多花时间学习,少玩游戏,但是游戏的诱惑力几个学生能够完全抗拒。新冠病毒,在2003年人们已经受到SARS非常大的侵害和痛苦,一旦有相似的冠状病毒要足够重视。以上讲述基本的概念以及它们的区别,下面来具体了解数据及其类型。

 

四、数据

数据是数据对象和它们属性的集合。数据对象Objects是二维表里的一条条记录,一行行数据。属性是二维表里面的每一列。整体是数据对象和他们属性的结合,数据对象是二维表中的每一行数据,属性是二维表里面的每一列,每一个属性。

image.png属性是每个数据对象的特征或特性,二维表中的每一个客户是否还款。他的婚姻状况、税后收入、是否有欺诈欺骗行为。属性是数据对象的特性和特征。还有其他一些属性的举例,例如眼睛的颜色、温度等等。属性有很多名字,除了属性本身之外还可以称为变量、字段、特征、特性。

属性的集合来描述数据对象。数据对象有很多名字可以称作记录样本点、案例样本、实体实例。遇到这些概念时,在表达方面有时说样本,有时说记录,有时会说实体,有时会说案例,但是表达的都是同一个含义。

接下来了解一下属性值,给它赋的值叫做属性值。属性值是附给一个属性的数字的或字符的值。主要考虑的有两大类,数字的和字符的值。在讲数值挖掘算法的分类时,它分为有监督和无监督。有监督表示有小Y,小Y的值取数字时一般为预测的算法,主要的是回归算法。小Y的值取字符时,主要是分类算法。

接下来再进一步了解属性和属性值之间的区别。属性和属性值相同的属性可以意识到不同的属性值。

怎么理解呢?看如下举例,比如对于高度来讲,可以用英尺或者米度量,英尺和米就是不同的属性值,但是都能付给高度这个属性,相同的属性可以取不同的属性值。

另外不同的属性也可以映射到同一组值。不同的属性是不一样的,但取的值可以在同一组值中。比如一个数据对象的ID,人的年龄可以取整数值,但是他们的属性是不一样的。一个是用户的编号,一个是用户的年龄,但是要知道。一个用户的编号ID是无线的,但年龄会有最大值和最小值。

刚刚学习了属性值的类型,从大的方面来说有两大类:一类是字符型,一类是数值型。但是细分一下,可以分为标称、序数、区间和比例。这个划分标准是按照在属性值上可以进行哪些操作来划分的。

第一种标称属性类型,它主要是在这类数据上面进行判断是不是相等,它没有大小,不能进行加减乘除。例如编号,眼睛的颜色有这些编码,这些数据值,是不能够判断大小,可进行算术计算的。

第二类是序数,例如一些等级。比如按照一到十来给某些食品进行等级划分,葡萄酒的品质、土豆饼的品质等,可以划分等级的,是有顺序有大小的。再例如身高可以是高、中等、矮,这是有顺序的。在这个数据上可以比较大小,当然也可以判断是否相等。但是不能进行加减乘除等计算的。

第三类数据叫区间数据,例如日期、温度等等。它是可以进行算术运算的,比如温度加几度减几度。

第四类是比率,例如人的身高、时间、一些计数等等。这一类型的数据既可以进行判断它的大小,又可以进行算术计算。

所以区间和比率这两个类型的属性有什么区别呢?注意区间的数据可以进行算术计算,但是一般配加减计算。比如说温度乘以温度,似乎没有什么概念,但对于比率的数据来讲,那它的计算范围很广。可以加减,可以乘除,可以各种计算。

刚刚讲解在数据之上可以进行的操作,将属性划分四个类型,标称、序数、区间和比率。那么接下来,在数据属性类型上面进行的操作,这些操作分为四类。第一类叫Distinctnss,判断是否相等;第二类Order,判断大小顺序,第三类是加减,第四类是乘除。

对于刚讲的标称的数据属性Nominal attribute,它只可以判断是否相等;而对于前面讲的序数的属性,Ordinal attribute,它可以判断是否相等,也可以判断大小顺序;对于区间数据属性,既可以判断是否相等还有大小,也可以做加减的运算。对于比率数据来讲,以上四种运算都可以进行。

下面来介绍一下属性类型的变换规律,四个属性类型标称、序数、区间和比率。可以分为两组,一组是分类的,一组是数值的。分类的是它的内容是相当于字符的,是不能进行算数计算的。数值的是可以进行算数计算的,分类的一般用于做定性的分析,数值的一般用于定量的分析。

对于标称数据,它的变换规律可以实现一对一变换。例如对于所有雇员的ID的编号进行重新赋值,这个不会出现任何的不同。

对于序数的变换,它的变化规律是用新值等于旧值进行一个函数处理,这个处理的函数是一个单调函数。包括好,较好,最好这样有一定顺序的属性,可以用123或者ABC来表示。等于用一个函数把旧的值好、较好、最好,替换成了新值123。对于区间数值的变换规律是,用新值等于旧值乘以一个系数,可以再加上一个系数,而系数a和B是一个常数。例如华氏度和摄氏度的转换。

对于区间的变换,在后面的数据挖掘的数据库中经常会用到。比如说把面积的平方米换成平方尺,X方的值,或者把一亩地换成多少平方米。

对于比率的变换,变换的规律是新值等于旧值乘一个系数,比如系数a,长度可以米和英尺度量的。而面积、米和亩等于也是一个比率的变换。

属性有连续属性和离散属性。离散属性,它是有限的和可数的值的集合构成的。例如邮政编码、计数等等都是离散属性。离散属性的取值通常是整数,一般不会用小数。

特别要注意:一种特别的离散属性是二元类型,取值是两个,比如yes和no、真和假、零和一。这个在机器学习和数据挖掘里面特别重要,一般也把它叫做二元分类。

对于连续属性,它是取实数值,它的取值可以有小数,是无限的。比如温度、高度、长度等等。

相关文章
|
16天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
30109 102
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
5天前
|
应用服务中间件 API 网络安全
3分钟汉化OpenClaw,使用Docker快速部署启动OpenClaw(Clawdbot)教程
2026年全新推出的OpenClaw汉化版,是基于Claude API开发的智能对话系统本土化优化版本,解决了原版英文界面的使用壁垒,实现了界面、文档、指令的全中文适配。该版本采用Docker容器化部署方案,开箱即用,支持Linux、macOS、Windows全平台运行,适配个人、企业、生产等多种使用场景,同时具备灵活的配置选项和强大的扩展能力。本文将从项目简介、部署前准备、快速部署、详细配置、问题排查、监控维护等方面,提供完整的部署与使用指南,文中包含实操代码命令,确保不同技术水平的用户都能快速落地使用。
4301 0
|
11天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6098 16
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
10天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4328 9
|
12天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5374 17
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
12天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
5857 5
|
14天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
7595 17
|
7天前
|
存储 人工智能 API
OpenClaw(Clawdbot)本地部署详细步骤与2026年OpenClaw一键部署官方教程参考
在AI办公自动化与智能代理工具日益普及的当下,OpenClaw作为原Clawdbot(曾用名Moltbot)迭代升级后的开源AI代理平台,凭借多渠道通信集成、大模型灵活调用及自动化任务执行等核心能力,成为个人处理日常事务与小型团队推进协作的得力助手。无论是追求数据自主可控的本地部署,还是倾向于7×24小时稳定运行的云端部署,用户都能找到适配的实现路径。2026年阿里云针对OpenClaw推出的预置镜像一键部署方案,更是大幅降低了云端使用门槛。本文将详细拆解OpenClaw的本地安装流程与阿里云快速部署步骤,同时补充注意事项与问题排查方法,助力不同需求的用户顺利搭建专属AI助手。
2491 1