MATLAB 数据分析方法(第2版) 1.1 数据分析与MATLAB-阿里云开发者社区

开发者社区> 华章出版社> 正文
登录阅读全文

MATLAB 数据分析方法(第2版) 1.1 数据分析与MATLAB

简介:

第1章 MATLAB基础 

 MATLAB数据分析方法

 

本章主要介绍MATLAB软件的一些入门知识,包括MATLAB界面及其基本操作、变量与函数、运算符与操作符、矩阵数据的输入与输出、符号运算、M文件与编程等,为读者学习以后各章打下基础。

 

1.1 数据分析与MATLAB


1.1.1 数据分析概述

1.数据分析的概念

 

数据分析是指用适当的统计方法对收集来的数据进行详细研究,提取其中有用信息并形成结论,以求最大化地开发数据的功能,发挥数据的作用。在统计学领域,有人将数据分析划分为描述性数据分析、探索性数据分析以及验证性数据分析。描述性数据分析是描述测量样本的各种特征及其所代表的总体特征,探索性数据分析侧重于在数据之中发现新的特征,验证性数据分析侧重于已有假设的证实或证伪。

数据分析的目的是把隐藏在数据背后的信息集中和提炼出来,总结出研究对象的内在规律。在实际工作当中,数据分析能够帮助管理者进行判断和决策,以便采取适当策略与行动。例如企业通过对产品的市场销售数据分析,可把握当前产品的市场动向,从而制定出今后合理的产品研发和销售计划。

 

2.数据来源与分类

 

数据分析的起点是取得数据。数据是通过实验、测量、观察、调查等方式获取的结果,这些结果常以数量的形式展现出来,因此数据也称为观测值。数据按照不同的标准进行分类,可分为观测数据与试验数据、一手数据与二手数据、时间序列数据与横截面数据等。

 

1)观测数据与试验数据。观测数据是在自然的未被控制的条件下观测到的数据,如社会商品零售额、消费价格指数、汽车销售量、某地区降水量等。利用这类数据进行观测所研究的个体,并度量感兴趣的变量。试验数据是在人工干预和操纵的条件下产生的数据,这种数据通常来自于科学与技术实验。例如,在研究不同的药物成分组成对某种疾病的治疗效果有什么不同时,记录实验药物成分在不同的条件下产生相应的治疗效果数据,那么药物成分数据与治疗效果数据就是试验数据。

 

2)一手数据与二手数据。一手数据是针对特定的研究问题,通过专门收集、调查或试验获得的数据。例如,为制定一家百货商店的营销方案,在这家商店所在城市抽取近300户家庭作为样本进行调查,收集下列数据:对本商店及其竞争对手商店的熟悉程度;家庭成员在各个商店购物的频率;选择百货商店时考虑的因素,如商品质量、种类、退赔政策、服务、价格、店址、商店布局、信用与收款政策;每个商店的偏好评分;被调查者的年龄、性别、受教育程度等。二手数据是由各种媒体、机构等发布的数据,数据分析人员可以根据研究的问题,从这些数据中加以选择,如证券市场行情、物价指数、耐用消费品销售量、利率、国内生产总值、进出口贸易数据等。

 

3)时间序列数据与横截面数据。时间序列数据是对同一研究对象按时间顺序收集得到的数据,这类数据反映某一事物、现象等随时间的变化状态或程度。例如,2005年至2014年中国人均国内生产总值指数(上年=100)数据分别为:110.7,112.1,113.6,109.1,108.7,110.1,109.0,107.2,107.2,106.7(数据来源:《中国统计年鉴2014》)。同样,某商场每日销售额、某股票每日收盘价、沪深股市每日收盘指数等都是时间序列数据。

 

横截面数据是在同一时间、不同统计单位、相同统计指标组成的数据列,这类数据体现的是个体的个性,突出个体的差异。例如,某日沪市全部交易股票的当日收盘价数据、2014年中国31省市人均国内生产总值增长率数据都是横截面数据。

 

近年来,出现了将横截面数据和时间序列数据合并起来进行研究的数据类型,称为面板数据(Panel Data)。该数据具有横截面和时间序列两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一条线上的一维数据有着明显的不同,整个表格像是一个面板。该类数据模型可以分析个体之间的差异情况,又可以描述个体的动态变化特征。例如,每年各地区的国内生产总值增长率数据;在一定时期间隔内对同一地区同样的家庭进行调查,以观察其住房和经济状况是否有变化,这样得到的数据都是面板数据。

 

3.数据分析过程

 

数据分析过程包括确定数据分析的目标、研究设计、收集数据、分析数据、解释结果。

 

1)确定数据分析的目标。数据分析的目标是分析和解决特定的领域问题,而这个问题可以用量化分析的方法来解决。

 

2)研究设计。研究设计是根据数据分析的目标寻求解决方案。一般而言,数据分析是用量化分析的方法对现象进行描述、解释、预测与控制。一个特定的领域问题要转化为数据分析问题,首先要进行量化研究设计,确定用什么量化研究方法以及怎样研究。常用的量化研究方法有调查法(用调查或观测得到的样本数据推断总体)、相关研究法、实验法、时序分析法等。

 

3)收集数据。确定了所要解决的问题的研究设计后,根据所要采用的量化研究方法收集数据。例如,若采用调查法,需要确定具体抽样方法以获取数据;若采用实验法,需要进行实验设计,通过实验来获取数据等。这些是为所要解决的问题专门收集的一手数据。除此之外,通常还需要二手数据。

 

4)整理与分析。数据整理与数据分析即利用数据分析方法进行计算和分析。数据分析方法以统计分析技术为主,借助各种软件(SPSS、SAS、Excel、S-Plus等)工具,完成数据的计算分析任务。本书以MATLAB为工具进行计算。

 

5)解释和分析计算结果。使用各种方法与软件等工具计算后,会得到一系列结果,包括各种图表、数据等。说明、解释和分析这些结果,或利用计算结果检验各种假设、预测、控制等,从而最终解决所要研究的问题。最后提交数据分析报告,供决策时参考。

 

1.1.2 MATLAB在数据分析中的作用

 

MATLAB是一套高性能的数值计算和可视化软件,它集矩阵运算、数值分析、信号处理和图形显示于一体,构成了一个界面友好、使用方便的用户环境,是实现数据分析与处理的有效工具,其中MATLAB统计工具箱更为人们提供了一个强有力的统计分析工具。

 

选择MATLAB软件作为数据分析工具,不仅节约了数据分析过程中的计算时间,而且增加了统计推断的正确性,提高了数据分析的效率。但要注意,尽管软件对数据分析起到非常大的作用,但软件不能处理数据分析中所有阶段所要解决的问题。明确这一点后可以更好地使用软件。确定数据分析的目标、对问题的研究设计、选择统计分析方法、收集数据、解释和分析计算结果,这些都不是软件所能替代解决的。

 

本书介绍数据分析的基本理论方法,应用MATLAB编写程序进行数据分析,既面向过程又面向对象。为方便读者,以下对MATLAB的基本操作方法作比较系统的介绍。

 

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

华章出版社

官方博客
官网链接