大数据相关术语(2)-阿里云开发者社区

开发者社区> 大数据> 正文

大数据相关术语(2)

简介: 27.LDB(local DataBase):本地数据库本地数据库是指驻留于运行客户应用程序的机器上的数据库。本地数据库提供最快的相应时间。因为在客户端没有网络传输。 本地数据库位于本地磁盘或局域网上。如果有几个用户同时访问数据库,本地数据库采取攘于文件的锁定策略。因此本地数据库叫基于文件的数据库。典型的有Paradox、dBasep、FoxPro、Access。 28.DAQ(d
27.LDB(local DataBase):本地数据库
本地数据库是指驻留于运行客户应用程序的机器上的数据库。本地数据库提供最快的相应时间。因为在客户端没有网络传输。

本地数据库位于本地磁盘或局域网上。如果有几个用户同时访问数据库,本地数据库采取攘于文件的锁定策略。因此本地数据库叫基于文件的数据库。典型的有Paradox、dBasep、FoxPro、Access。


28.DAQ(data Acquisition):数据采集
数据采集是指将被测对象的各种参量通过各种传感器做适当转换后,在经过信号调理、采样、量化、编码、传输等步骤传递到控制器的过程。
各类数据采集系统的数据采集过程基本相同,一般包括这样几个步骤:
1.用传感器感受各种物理量,并把他们转换为电信号;
2.通过A/D转换,模拟量的数据转变为数字量的数据;
3.数据的记录,打印输出或存入磁盘文件;
各种数据采集系统所用的数据采集程序有:

大型专用程序、固话的采集程序(小型专用系统)、利用软件工具用户自行编制的采集程序(组合式系统)


29.data model:数据模型

数据模型是显示世界数据特征的抽象,用于描述一组数据的盖面和定义。数据模型数受苦中数据的存储方式,是数据库系统的基础。在数据库中,数据的物理结构成为数据的存储结构,就是数据元素在计算机存储器中的表示及其配置;数据的逻辑结构则是指数据元素之间的逻辑关系,它是数据在用户或程序员面前的表现形式,数据的存储结构不一定与逻辑结构一致。


30.范式(数据库术语)
范式是符合某一种级别的关系模式的集合,关系数据库中的关系必须满足一定的要求,满足不同程度要求的为不同范式。

目前范式有:第一范式、第二范式、第三范式、BC范式、第四范式、第五范式。


31:数据压缩(data compression):
数据压缩是以及可能少的数码来表示信源发出的信号,较少容纳给定的消息集合或数据采样集合的信号空间。这里的信号空间,就是被压缩的对象,是指某信号集合所占的时域、空域和频域。信号空间的这几种形式是仙童冠梁的,存储空间的减少,意味着信号传输效率的提高,所占带宽的节省。只要采取某种方式来减少某个信号空间,就能够压缩数据。

数据压缩是信息论中的一个很重要的概念。从信息论的角度来讲,信源编码的一个最主要的目的就是要解决数据的压缩问题。这一点,反映在整个通信过程中。


32.数据恢复(data recovery)

数据恢复是指由于各种原因导致数据损失时,把保留在介质上的数据重新还原。及时数据被删除或硬盘出现故障,在介质没有严重受损的情况下,数据均有可能被无损恢复。格式化或误删除引起的数据损失情况,大部分数据未损坏。只要通过软件重新恢复连接环节,即可重读数据。如果硬盘因硬件损坏无法访问,只要更换发生故障的零件,即可恢复数据。但在介质严重受损或数据被覆盖时,数据极难恢复。


33.数据集成(data integtation)

数据集成就是讲若干个分散的数据源中的数据、逻辑的或物理的集成到一个同意的数据集合中。数据集成的核心任务是要讲互联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关系如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。实现数据集成的系统成为数据集成系统。他为用户提供统一的数据源访问接口,执行用户对数据源的访问请求。


34.数据迁移(data migration)

数据迁移是数据系统整合中保证系统平滑升级和更新的关键部分。在信息化建设过程中,随着技术的发展,原有的信息系统不断被功能更强大的新系统所取代,从两层结构到三层结构,从C/S到B/S 。在新旧系统的切换过程中,必然要面临一个数据迁移的问题。


35.数据源(data element)

数据元即数据元素,是通过定义、标识、表示和允许值等一系列属性描述的数据单元,在一定语境下,构建一个语义正确、独立且无I仪的特定概念语义的信息单元。数据元可理解为数据的基本单元,将若干具有相关性的疏远按一定次序组成一个整体结构即数据模型。


36.数据冗余(data redundancy)

数据冗余是指同一个数据在系统中多次重复出现。在文件系统中,由于文件之间没有联系,有时一个数据在多文件中出现;而数据库系统则克服了文件系统的这种缺陷,但仍然存在数据冗余问题。消除数据冗余的目的是为了避免更新时可能出现的问题,以便保持数据的一致性。


37.数据抽取

数据抽取是从数据源总抽取数据的过程。数据抽取是指从源数据源系统抽取目的数据源系统需要的数据。实际应用中个,多采用关系数据库。


38.数据标准化(data standardization)

数据标准化是指研究、制定 和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程


39.数据备份(data backup)
数据备份是把文件或数据库从原来的存储地方复制到其他地方的活动,其目的是为了在这杯发生故障或其他威胁数据安全的灾害时保护数据,将数据遭受破坏的程度见到最小。取回原先备份文件的过程叫做数据恢复
1.完全备份(Full backup)
这种备份策略优点是当发生数据丢失的灾难时,可以徐苏恢复丢失的数据。
不足:每天对整个系统进行完全备份,造成备份的数据大量重复。对于业务繁忙、备份时间有限的用户,选择这种策略不明智
2.增量备份(Incremental Backup)
先进行一次完全备份,接下来对当前新的或被修改过的数据进行备份,节省磁盘空间,缩短备份时间;缺点是当灾难发生时,数据的恢复比较麻烦,备份的可靠性很差
3.差分备份(Differential Backup)

先进行系统完全备份,接下来将当天所有与备份不同的数据备份到磁盘上。避免了以上两种侧罗的缺陷,有具有其所有优点。首先,它无需每天对系统做完全备份,因此节省时间和磁盘空间。其次,灾难恢复也很方便,一旦发生问题,用户只需要使用完全备份和发生问题前一天的备份就可以将系统恢复。


40.贪心算法(Greedy algorithm)
贪心算法是指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的仅仅是在某种意义上的局域最优解。

贪心算法不是对所有的问题都能得到整体最优解,关键是贪心策略的选择,选择贪心策略必须具备无后效性,即某个状态以前的过程不会影响以后的状态,只与当前状态有关。


41.分治法(Divide and Conquer)

在计算机科学中分治法是一种很重要的算法,分而治之。就是把复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题。知道最后子问题可以简单的直接求解。原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础(排序算法、傅里叶变换)


42.动态规划(Dynamic programming)

动态规划是运筹学的一个分支,是求解决策过程最优化的数学方法。把多阶段过程转化为一系列单阶段问题,利用各阶段间的关系,逐个求解。


43.迭代法(Iterative Method)

迭代法也称辗转法,是一种不断用变量的旧值递推心智的过程。迭代分为精确迭代和金丝迭代。"二分法"和"牛顿迭代法"属于近似迭代法。迭代算法是计算机解决问题的基本方法。利用计算机运速块,适合做重复操作特点,让计算机对一组指定重复执行。在每次执行时,都从变量的原值推出它的新值


44.分支界限法(branch and bound method)
是用途十分广泛的算法,运用这种算法的技巧性很强,不同类型的问题解法也不同。

基本思想:对有约束条件的最优化问题的所有可行解空间进行搜索。该算法在具体执行时,把全部可行的解空间不断分割为越来越小的子集(分支),并为每个子集内的解的值计算一个下界或上界(定界).在每次分支后,对凡是界限超出已知可行解值那些子集不再做进一步分支。这样,解的许多子集就可以不予考虑了,从而缩小搜索范围。这一过程直到进行到找到可行解为止,该可行解的值不大于任何子集的界限。因此这种算法一般可以求得最优解。


45.割圆术(cyclotomic method)
用圆内接正多边形的面积去无限逼近圆面积并以此求取圆周率的方法

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

其他文章