一、给出下列英文短语或缩写的中文名称,并简述其含义。
1、DataBase(DB)
数据库(DataBase,DB):是长期存储在计算机内的、有组织的、可共享的数据集合。具有较小的冗余度、较高的数据独立性和易扩展性,并为用户共享。
2、On-Line Transaction Processing(OLTP)
联机事务处理(On-Line Transaction Processing,OLTP):指一种信息处理方式,用于处理日常业务事务。对传统数据库进行联机的日常操作,因此称为操作性处理。
3、Decision Support System(DSS)
决策支持系统(Decision Support System,DSS):对数据进行分析处理任务的计算机系统,提供管理者决策支持。
4、Systems Development Life Cycle(SDLC)
系统开发生命周期(Systems Development Life Cycle,SDLC):指支持日常事务操作事务处理需求驱动符合系统开发生命周期,即操作型系统遵循 “需求调查、需求分析、设计&编程、系统测试、系统集成、系统实施” 的系统开发生命周期。
5、Extract-Transform-Load(ETL)
抽取-转换-加载(Extract-Transform-Load,ETL):对数据源数据进行抽取、清理、转换和加载到DW的过程。
6、Data Warehouse(DW)
数据仓库(Data Warehouse,DW):是一个面向主题的、集成的、不可修改的、随时间变化的,支持管理决策的数据集合。
7、Data Warehouse Management System(DWMS)
数据仓库管理系统(Data Warehouse Management System,DWMS):是位于用户与操作系统(OS)之间的一层数据分析管理软件,负责对数据仓库数据进行统一更新、管理和使用控制,为用户和应用程序提供访问数据仓库的方法或接口软件的集合。
8、Data Warehouse System(DWS)
数据仓库系统(Data Warehouse System,DWS):是计算机系统、DW、DWMS、应用软件、数据库管理员和用户的集合。
9、Knowledge Discovery in database(KDD)
数据库中的知识发现(Knowledge Discovery in database,KDD):指采用有效算法从大量的、不完全的、有噪声的、模糊和随机的数据中识别出有效的、新颖的、潜在有用乃至最终可理解的模式的非平凡过程。
10、Data Mining(DM)
数据挖掘(Data Mining,DM):是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
11、On-Line Analytic Processing(OLAP)
在线分析处理(On-Line Analytic Processing,OLAP):指一种用于分析数据的技术和工具,它允许用户从不同的角度、多个维度对数据进行分析、查询和报表生成。
二、简述操作型数据与分析型数据的主要区别。
从用途角度来看,操作型数据主要用于支持组织的日常业务活动和实时决策,通常用于记录、更新和管理组织的运作;分析型数据主要用于支持决策制定、趋势分析、预测和发现潜在的商业见解,可以帮助组织了解业务表现和规划未来方向。
从处理方式角度来看,操作型数据以快速、实时的方式进行处理,通常存储在关系型数据库或类似的数据存储系统中,以便实时访问和更新;分析型数据通常以批处理或实时流式处理的方式进行,主要用于数据挖掘、机器学习、统计分析等用途。
在特点方面,操作性数据的数据量较小,数据更新频繁,主要用于支持实时的业务流程和交易处理;分析型数据的数据量较大,数据处理过程可能需要复杂的算法和技术支持,主要用于深入分析和挖掘数据背后的信息。
总的来说,操作型数据主要用于支持日常业务活动的实时处理,而分析型数据则用于深入分析和挖掘数据背后的信息,帮助组织做出更明智的决策。操作型数据强调实时性和快速访问,而分析型数据注重深度分析和发现隐藏在数据中的价值。
三、简述数据仓库的定义。
数据仓库是一个面向主题的、集成的、不可修改的、随时间变化的,支持管理决策的数据集合。因此可以说,数据仓库是一个特殊的数据库,其特殊性体现在它的数据具有面向主题、集成、不可修改和随时间变化等4个特征,其目的是支持企业的管理决策而不是支持事务管理。
数据仓库的建设需要进行一系列的过程,包括需求分析、数据建模、ETL (Extract-Transform-Load)处理、数据存储和管理、数据挖掘和分析等。通过数据仓库,企业可以获得准确、全面、一致和实时的数据,以支持企业的决策和管理需求。同时,数据仓库还可以帮助企业发现数据中潜在的模式、规律和趋势,以指导企业的发展和优化决策。
四、简述数据仓库的特征。
1、数据仓库的数据是面向主题的
主题是宏观决策问题的一个分析对象,它由决策分析问题的要求来确定,并用一个在较高管理层次上的综合数据集合来描述。
2、数据仓库的数据是集成的
根据决策分析的主题需要,把多个异种数据源中的数据收集起来形成一个统一并且一致的数据集合的过程。
3、数据仓库的数据是不可修改的
数据仓库的数据都是从事务处理数据源抽取过来的历史数据,因而是不可以修改的,且基于数据仓库的决策分析只有读操作而没有修改操作。
4、数据仓库的数据是随时间变化的
主要体现在以下3方面:数据仓库随时间变化不断增加新的数据内容;数据仓库随时间变化不断删去旧的数据内容;数据仓库中包含有大量的综合数据,且随着时间要求的变化而不断变化。
五、简述主题的定义。
主题是宏观决策问题的一个分析对象,它由决策分析问题的要求来确定,并用一个在较高管理层次上的综合数据集合来描述。
从信息管理的角度看,主题是在一个较高管理层次上对数据库系统中数据,按照具体的管理要求重新综合、归类的分析对象。从数据组织的角度看,主题就是一个数据集合,这些数据对分析对象进行了比较完整、一致的描述,不仅描述了数据自身,还描述了数据之间的关系。
六、简述元数据的概念。
元数据是描述数据的数据,它提供关于数据的信息,帮助组织理解、管理和有效利用其数据资源。换句话说,元数据是对数据进行描述、定义和解释的数据。元数据通常包括以下几个方面的信息:
- 数据结构:描述数据的逻辑结构、字段名称、数据类型、长度等信息。
- 数据来源:记录数据的来源、采集方式、生产时间等信息。
- 数据质量:包括数据的准确性、完整性、一致性等质量指标。
- 数据关系:描述数据之间的关联、依赖关系以及数据流向。
- 数据用途:记录数据的业务含义、用途、访问权限等信息。
- 数据变更历史:记录数据的修改、更新历史,包括谁、何时、为什么做出了数据变更。
七、简述数据挖掘的主要任务。
1、分类分析(Classification Analysis)
通过分析已知类别标记的样本集合(示例数据库)中的数据对象(记录),为每个类别做出准确的描述,或建立分类模型,或提取出分类规则(Classification Rules);然后用这个分类模型或规则对样本集合以外的记录进行分类。
2、聚类分析(Clustering Analysis)
根据给定的某种相似性度量标准,将没有类别标记的数据库记录集划分成若干个不相交的子集(簇),使簇内的记录之间相似度很高,而不同簇的记录之间相似度很低。聚类分析可以帮助我们判断,数据库中记录划分成什么样的簇更有实际意义,在客户细分、定向营销、信息检索等领域广泛应用。
3、关联分析(Association Analysis)
关联分析最初是针对购物篮分析问题而提出的,其目的是发现交易数据库中商品之间的相互联系的规则,即关联规则(Association rules)。关联分析主要用于市场营销、事务分析等领域。
4、序列模式(Sequential Patterns)
数据间的前后序列关系,包括相似模式发现、周期模式发现等,主要应用于客户购买行为模式预测、疾病诊断、防灾救灾、Web访问模式预测和网络入侵检测等领域。
5、离群点检测(Outlier detection)
离群点(Outlier)是一个数据集中过分偏离其它绝大部分数据的特殊数据。离群点检测就是希望从数据集中发现这种与众不同的数据,已在银行、保险、电信、电子商务等行业的欺诈行为检测中得到广泛应用,比如银行的反洗钱检测系统,互联网的入侵检测系统等。
八、简述数据挖掘的主要步骤。
1、问题定义
弄清楚需要哪些方面的数据(也称为数据选择)以及希望挖掘出什么样的知识,即确定挖掘任务。
2、数据准备
数据抽取,从各种可用数据源中抽取与挖掘任务相关的数据。预处理,包括消除噪声、补充缺损值数据、消除重复记录、转换数据类型(连续型数据转换为离散型数据,或与之相反)等。数据存储,即把经过预处理的数据,按照数据挖掘任务和挖掘算法的要求集成起来,重新组织并以数据库或数据文件等恰当的方式存储,作为数据挖掘的对象。
3、挖掘实施
选定数据挖掘算法,编写应用程序或使用商品化挖掘工具的功能模块,从数据挖掘对象中挖掘出用户可能需要的知识或模式,并将这些知识或模式用一种特定的方式,比如表格、图形等可视化方法表示。
4、评估解释
挖掘人员、企业高管和领域专家,对发现的知识或模式进行评估,剔除冗余或无关的模式,并对余下的知识或模式进行解释,发现并理解其中有实际应用价值的知识。如果挖掘出来的知识无法满足用户的要求,就需要开始新一轮的数据挖掘,或者回到前面的某一步重新开始。
5、知识应用
将经过评估解释,且被用户理解的知识,用于商业决策。
九、下列活动是否属于数据挖掘任务,并简述其理由。
1、根据性别划分超市的顾客。
不属于教据挖掘任务。根据性别划分顾客是一种简单的数据分类,它不涉及对数据进行深入分析或模式识别。可以通过简单的统计方法,如计数和百分比,来获得这些信息。
2、根据可赢性划分超市的顾客。
属于数据挖掘任务。可赢利性是一个复杂的概念,涉及多个因素,如收入、消费习惯、购买频率等。根据“可赢性”(即顾客的购买潜力或利润贡献)来划分顾客需要对数据进行分析和模式识别,可以使用聚类、分类等数据挖掘技术来实现。通过挖掘大量的顾客数据,可以识别出那些具有高可赢利性的顾客,并制定相应的营销策略。
3、预测投一对骰子的结果。
不属于数据挖掘任务。因为骰子投掷的结果是基于随机的概率事件,而不是基于数据分析或模式识别。
4、使用历史记录预测某超市股票明天的价格。
属于数据挖掘任务。通过分析历史股票价格数据,可以运用时间序列分析、回归分析等数据挖掘技术来预测未来股票价格走势,这涉及对数据的深入分析和模式识别。
十、简述数据仓库与数据挖掘的区别。
数据仓库是一个用于集成、存储和管理大量数据的系统,旨在支持企业的决策制定和分析需求。通常用于存储结构化数据,经过清洗、整合和转换后的数据以便进行查询和分析。数据仓库的主要功能包括数据的抽取、转换、加载(ETL)、数据存储、数据管理和提供报表等功能。数据仓库的目的是为了提供高效的数据访问和查询,帮助用户进行各种分析和报告工作。
数据挖掘是从大量数据中发现隐藏的模式、关系和信息的过程,旨在提取对业务有用的知识和见解。数据挖掘技术包括聚类、分类、关联规则挖掘、异常检测等方法,可以帮助发现数据中的潜在模式。通常应用于数据仓库中的数据,通过分析数据挖掘结果来实现更深入的业务理解和决策支持。数据挖掘的目的是发现数据中的价值和趋势,帮助企业做出更明智的决策和预测未来的走向。
总的来说,数据仓库主要用于数据的存储、管理和查询,而数据挖掘则是在数据仓库中进行的一种分析过程,旨在发现数据中隐藏的信息和规律。数据仓库是数据挖掘的数据来源和支撑,二者共同为企业提供数据驱动的决策支持和业务洞察。