大数据相关术语(2)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 27.LDB(local DataBase):本地数据库本地数据库是指驻留于运行客户应用程序的机器上的数据库。本地数据库提供最快的相应时间。因为在客户端没有网络传输。 本地数据库位于本地磁盘或局域网上。如果有几个用户同时访问数据库,本地数据库采取攘于文件的锁定策略。因此本地数据库叫基于文件的数据库。典型的有Paradox、dBasep、FoxPro、Access。 28.DAQ(d
27.LDB(local DataBase):本地数据库
本地数据库是指驻留于运行客户应用程序的机器上的数据库。本地数据库提供最快的相应时间。因为在客户端没有网络传输。

本地数据库位于本地磁盘或局域网上。如果有几个用户同时访问数据库,本地数据库采取攘于文件的锁定策略。因此本地数据库叫基于文件的数据库。典型的有Paradox、dBasep、FoxPro、Access。


28.DAQ(data Acquisition):数据采集
数据采集是指将被测对象的各种参量通过各种传感器做适当转换后,在经过信号调理、采样、量化、编码、传输等步骤传递到控制器的过程。
各类数据采集系统的数据采集过程基本相同,一般包括这样几个步骤:
1.用传感器感受各种物理量,并把他们转换为电信号;
2.通过A/D转换,模拟量的数据转变为数字量的数据;
3.数据的记录,打印输出或存入磁盘文件;
各种数据采集系统所用的数据采集程序有:

大型专用程序、固话的采集程序(小型专用系统)、利用软件工具用户自行编制的采集程序(组合式系统)


29.data model:数据模型

数据模型是显示世界数据特征的抽象,用于描述一组数据的盖面和定义。数据模型数受苦中数据的存储方式,是数据库系统的基础。在数据库中,数据的物理结构成为数据的存储结构,就是数据元素在计算机存储器中的表示及其配置;数据的逻辑结构则是指数据元素之间的逻辑关系,它是数据在用户或程序员面前的表现形式,数据的存储结构不一定与逻辑结构一致。


30.范式(数据库术语)
范式是符合某一种级别的关系模式的集合,关系数据库中的关系必须满足一定的要求,满足不同程度要求的为不同范式。

目前范式有:第一范式、第二范式、第三范式、BC范式、第四范式、第五范式。


31:数据压缩(data compression):
数据压缩是以及可能少的数码来表示信源发出的信号,较少容纳给定的消息集合或数据采样集合的信号空间。这里的信号空间,就是被压缩的对象,是指某信号集合所占的时域、空域和频域。信号空间的这几种形式是仙童冠梁的,存储空间的减少,意味着信号传输效率的提高,所占带宽的节省。只要采取某种方式来减少某个信号空间,就能够压缩数据。

数据压缩是信息论中的一个很重要的概念。从信息论的角度来讲,信源编码的一个最主要的目的就是要解决数据的压缩问题。这一点,反映在整个通信过程中。


32.数据恢复(data recovery)

数据恢复是指由于各种原因导致数据损失时,把保留在介质上的数据重新还原。及时数据被删除或硬盘出现故障,在介质没有严重受损的情况下,数据均有可能被无损恢复。格式化或误删除引起的数据损失情况,大部分数据未损坏。只要通过软件重新恢复连接环节,即可重读数据。如果硬盘因硬件损坏无法访问,只要更换发生故障的零件,即可恢复数据。但在介质严重受损或数据被覆盖时,数据极难恢复。


33.数据集成(data integtation)

数据集成就是讲若干个分散的数据源中的数据、逻辑的或物理的集成到一个同意的数据集合中。数据集成的核心任务是要讲互联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关系如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。实现数据集成的系统成为数据集成系统。他为用户提供统一的数据源访问接口,执行用户对数据源的访问请求。


34.数据迁移(data migration)

数据迁移是数据系统整合中保证系统平滑升级和更新的关键部分。在信息化建设过程中,随着技术的发展,原有的信息系统不断被功能更强大的新系统所取代,从两层结构到三层结构,从C/S到B/S 。在新旧系统的切换过程中,必然要面临一个数据迁移的问题。


35.数据源(data element)

数据元即数据元素,是通过定义、标识、表示和允许值等一系列属性描述的数据单元,在一定语境下,构建一个语义正确、独立且无I仪的特定概念语义的信息单元。数据元可理解为数据的基本单元,将若干具有相关性的疏远按一定次序组成一个整体结构即数据模型。


36.数据冗余(data redundancy)

数据冗余是指同一个数据在系统中多次重复出现。在文件系统中,由于文件之间没有联系,有时一个数据在多文件中出现;而数据库系统则克服了文件系统的这种缺陷,但仍然存在数据冗余问题。消除数据冗余的目的是为了避免更新时可能出现的问题,以便保持数据的一致性。


37.数据抽取

数据抽取是从数据源总抽取数据的过程。数据抽取是指从源数据源系统抽取目的数据源系统需要的数据。实际应用中个,多采用关系数据库。


38.数据标准化(data standardization)

数据标准化是指研究、制定 和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程


39.数据备份(data backup)
数据备份是把文件或数据库从原来的存储地方复制到其他地方的活动,其目的是为了在这杯发生故障或其他威胁数据安全的灾害时保护数据,将数据遭受破坏的程度见到最小。取回原先备份文件的过程叫做数据恢复
1.完全备份(Full backup)
这种备份策略优点是当发生数据丢失的灾难时,可以徐苏恢复丢失的数据。
不足:每天对整个系统进行完全备份,造成备份的数据大量重复。对于业务繁忙、备份时间有限的用户,选择这种策略不明智
2.增量备份(Incremental Backup)
先进行一次完全备份,接下来对当前新的或被修改过的数据进行备份,节省磁盘空间,缩短备份时间;缺点是当灾难发生时,数据的恢复比较麻烦,备份的可靠性很差
3.差分备份(Differential Backup)

先进行系统完全备份,接下来将当天所有与备份不同的数据备份到磁盘上。避免了以上两种侧罗的缺陷,有具有其所有优点。首先,它无需每天对系统做完全备份,因此节省时间和磁盘空间。其次,灾难恢复也很方便,一旦发生问题,用户只需要使用完全备份和发生问题前一天的备份就可以将系统恢复。


40.贪心算法(Greedy algorithm)
贪心算法是指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的仅仅是在某种意义上的局域最优解。

贪心算法不是对所有的问题都能得到整体最优解,关键是贪心策略的选择,选择贪心策略必须具备无后效性,即某个状态以前的过程不会影响以后的状态,只与当前状态有关。


41.分治法(Divide and Conquer)

在计算机科学中分治法是一种很重要的算法,分而治之。就是把复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题。知道最后子问题可以简单的直接求解。原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础(排序算法、傅里叶变换)


42.动态规划(Dynamic programming)

动态规划是运筹学的一个分支,是求解决策过程最优化的数学方法。把多阶段过程转化为一系列单阶段问题,利用各阶段间的关系,逐个求解。


43.迭代法(Iterative Method)

迭代法也称辗转法,是一种不断用变量的旧值递推心智的过程。迭代分为精确迭代和金丝迭代。"二分法"和"牛顿迭代法"属于近似迭代法。迭代算法是计算机解决问题的基本方法。利用计算机运速块,适合做重复操作特点,让计算机对一组指定重复执行。在每次执行时,都从变量的原值推出它的新值


44.分支界限法(branch and bound method)
是用途十分广泛的算法,运用这种算法的技巧性很强,不同类型的问题解法也不同。

基本思想:对有约束条件的最优化问题的所有可行解空间进行搜索。该算法在具体执行时,把全部可行的解空间不断分割为越来越小的子集(分支),并为每个子集内的解的值计算一个下界或上界(定界).在每次分支后,对凡是界限超出已知可行解值那些子集不再做进一步分支。这样,解的许多子集就可以不予考虑了,从而缩小搜索范围。这一过程直到进行到找到可行解为止,该可行解的值不大于任何子集的界限。因此这种算法一般可以求得最优解。


45.割圆术(cyclotomic method)
用圆内接正多边形的面积去无限逼近圆面积并以此求取圆周率的方法
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
存储 分布式计算 数据可视化
大数据概念与术语简介
大数据概念与术语简介
103 2
|
机器学习/深度学习 SQL 存储
【大数据技术】75个每个人都应该知道的大数据术语
【大数据技术】75个每个人都应该知道的大数据术语
|
机器学习/深度学习 SQL 存储
75个每个人都应该知道的大数据术语
75个每个人都应该知道的大数据术语
|
机器学习/深度学习 SQL 存储
大数据小白如何入门?大数据领域75个核心术语讲解全盘奉上
  本文约8420字,建议阅读17分钟。本文介绍Ramesh Dontha 在 DataConomy 上连发两篇文章,扼要而全面地介绍了关于大数据的 75 个核心术语。   近日,Ramesh Dontha 在 DataConomy 上连发两篇文章,扼要而全面地介绍了关于大数据的 75 个核心术语,这不仅是大数据初学者很好的入门资料,对于高阶从业人员也可以起到查漏补缺的作用。本文分为上篇(25 个术语)和下篇(50 个术语)。   如果你刚接触大数据,你可能会觉得这个领域很难以理解,无从下手。不过,你可以从下面这份包含了 25 个大数据术语的清单入手,那么我们开始吧。   算法(Algo
503 0
|
机器学习/深度学习 SQL 存储
|
存储 传感器 SQL
大数据初学者入门指南,及需要知道的51个大数据术语
  数据对企业和组织非常重要-比我们意识到的还要重要。它可以影响公司的行动计划,并可以用来预测增长和成功。   什么是大数据?   大数据是从各种来源收集和分析信息。它有两种类型:结构化和非结构化。结构化数据包括SQL数据库,而非结构化数据包括文档文件和来自传感器的原始流数据。   业界从三个主要方面描述大数据:   数量:企业可以有多个数据来源。当今的技术使企业能够存储比以往更多的数据。速度:实际上,数据以惊人的速度-实时或尽可能接近实时。速度还描述了如何快速处理和分析数据。种类:除了进入系统的数据量和速度外,它还具有不同的格式。从商业销售记录到数据库信息,全都是大数据。   公司
376 0
|
存储 算法 大数据
每个人都应该知道的25个大数据术语
如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象、老板、家人或者任何一个人带来深刻的印象。 让我们开始吧: 1.算法。“算法”如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行。
42801 4