• 关于

    离线计算什么意思

    的搜索结果

问题

推荐引擎的离线算法和在线算法初探

福利达人 2019-12-01 21:21:15 2707 浏览量 回答数 0

回答

大数据就是多,就是多。原来的设备存不下、算不动。 ——啪菠萝·毕加索 大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。—— Schönberger 顾名思义“大数据”,从字面意思来理解就是“大量的数据”。 从技术的的角度来解释,大数据就是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 IBM提出大数据具有5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 我们所谈论的大数据实际上更多是从应用的层面,比如某公司搜集、整理了大量的用户行为信息,然后通过数据分析手段对这些信息进行分析从而得出对公司有利用价值的结果。 比如:头条的推荐机制,就是建立在对海量用户的阅读信息的搜集、分析之上。这就是大数据在现实中具体体现。 那Hadoop又是什么?它和大数据又有什么联系呢? Hadoop是一个对海量数据进行处理的分布式系统架构,可以理解为Hadoop就是一个对大量的数据进行分析的工具,和其他组件搭配使用,来完成对大量数据的收集、存储和计算。 Hadoop框架最核心的设计就是:HDFS 和 MapReduce。 HDFS为海量的数据提供了存储;MapReduce为海量的数据提供了计算。 一套完整的Hadoop大数据生态系统基本包含这些组件。 HDFS:Hadoop分布式文件系统,专门存储超大数据文件,为整个Hadoop生态圈提供了基础的存储服务。 MapReduce:分布式离线计算框架,用来处理大量的已经存储在本地的离线数据。 Storm:分布式实时计算,主要特点是实时性,用来处理实时产生的数据。 ZooKeeper:用于Hadoop的分布式协调服务。Hadoop的许多组件依赖于Zookeeper,它运行在计算机集群上面,用于管理Hadoop操作。 HBase:是一个建立在HDFS之上,面向列的NoSQL数据库,用于快速读/写大量数据。 Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表。 Sqoop:是一个连接工具,用于在关系数据库、数据仓库和Hadoop之间转移数据。 Pig:它是MapReduce编程的复杂性的抽象。Pig平台包括运行环境和用于分析Hadoop数据集的脚本语言(Pig Latin)。

1748847708358317 2019-12-02 03:11:07 0 浏览量 回答数 0

问题

个推推送Android问题检测 - 安卓报错

montos 2020-06-01 12:47:32 0 浏览量 回答数 1

阿里云试用中心,为您提供0门槛上云实践机会!

0元试用32+款产品,最高免费12个月!拨打95187-1,咨询专业上云建议!

问题

个推推送Android问题检测 :配置报错 

kun坤 2020-05-31 21:38:58 1 浏览量 回答数 1

回答

于是回归到PostgreSql 你直接说hadoop不如PG不就行了,还打那么多字 你这一秒钟几十万上下的,打这么多字,怎么也损失了好几个亿了 ######回复 @快速开发师 : 你的意思是说我儿子只配跟门外汉交流?放屁,我儿子是专家。######对于我这样一个门外汉来说,他这样说我更容易理解,未尝不可######哈哈~~我曰。请先去了解大数据生态再来说...你咋啥都能二个凡是 我也是醉了~~######儿啊,你又调皮了######你这个名字够狠######那用什么处理?###### 楼主对hadoop的了解还停留在1版本上。现在2版本是YARN构架,是一个资源分配,调度系统。计算模型也不限于map-reduce,正是因为这个开放性的特点,更多的计算模式被引入了进来,玩法也更多了,离线(map-reduce),准实时(hive),实时(spark)都有对应产品,而且也得到了业界的认可。所以现在提到hadoop,并不是分布式文件的流读取,离线map-reduce。而是整个hadoop生态圈。 ######你先了解一下hadoop和spark吧,并不是你说的那么简单。绝大部分情况,大数据的实时性都不是太高,不然你能想到每秒几个G的数据,或者一下就能分析出用户的某种行为?###### 引用来自“BoXuan”的评论你先了解一下hadoop和spark吧,并不是你说的那么简单。绝大部分情况,大数据的实时性都不是太高,不然你能想到每秒几个G的数据,或者一下就能分析出用户的某种行为? 去了解一下streaming 吧 主流的公司 都不用Hadoop 包括阿里######回复 @BoXuan : 可以滚得远点了######还有你说的streaming这只是一种数据传输方式,底层实现应该也就是socket tcp实现,难道有什么其它神奇之处?######阿里首先用的hadoop,后面才用的spark,目前开源界处理大数据的基本就这两款,spark作为后起之秀,肯定在某些方面优于hadoop的,不过你说的hadoop没有主流公司用,我就不敢苟同了,多查查资料,不要可能就是你自己说的“懒人”才好###### 回复 @BoXuan :  你用菊花说话的吗?  https://www.aliyun.com/product/odps 你们这些嘴里hadoop的,没有一个不是乱七八糟 ######回复 @BoXuan : 你可以滚了,我已经给出阿里的解决方案了。######我看过一个阿里技术大佬有关spark的文章,他们是hadoop和spark都用的。回复你这个的重点是要说明你能不要说脏话吗?人品能不能上升一点?######哈,hadoop都玩出生态了。不过确实可以。但hadoop的生态和大数据没毛线关系吧。喜欢聊大数据的,我倒是很愿意探讨一下。不过希望确实是在讨论大数据的实际问题。######每天被人骂SB,是怎样的体验?

kun坤 2020-06-08 11:16:21 0 浏览量 回答数 0

回答

Re【机场停机位资源分配优化】 1.航班数据里面只有699条,不是700条 => 700是笔误,应该是699。 2.202个停机坪,150个可以使用的意思是,最终结果里面最多出现150个停机坪吧. =>150是笔误,应该是202。 3.航班数据里面并没有出港航班号,不知道是不是我的数据是旧的,最后修改日期是9/27日的。 (计算结果需要出港航班号) =〉不需要出港航班号,输入输出都请忽略。 4.能否提供离线的检查程序,不知道自己的结果是否符合题目要求。 =〉准备中。 5.停机坪会有无限制的滑行道,这样的话,这个时候是不是可以使用任何一条滑行道(包括架空的滑行道吗?例如根本不存在的滑行道,由于结果输出里面不要求输出滑行道编号,无限制的情况,评测系统无法确定具体滑行道的) =〉无限制表示  滑行道这个约束条件可以忽略,任意时间都可以滑入滑出不影响其他飞机。 6.进出港总人数 这个指标有何用?计算近远的? =〉进出港总人数是冗余字段,请忽略。 7.进港时间大于出港时间的航班是否可以不进行计算 =〉是的。 8.无法安排的航班是否不进行输出 =〉是的。 9.如果滑行道发生冲突,但是滑行道的权重(1)小于是否能安排航班的权重(3),是否就意味着即使滑行道冲突,也强行安排航班,来获得比较高的分数呢 =〉滑到冲突本来就不算大问题,冲突了可以后延几分钟再起飞或降落。 10.关于评分系统 如果存在滑行道冲突的时候,由于滑行道冲突权重为1,能否安排停机坪的权重为3,即使1次冲突造成了2个航班的问题,那么,在权重的作用下,强行安排还是比较划算的,这样的话,滑行道冲突不是就被忽视了吗 =〉滑道冲突本来就不算大问题,冲突了可以后延几分钟。 11.CSV答案文件。是否需要表头,日期格式是什么样子的,yyyy-mm-dd hh:mm:ss? =〉不需要表头,日期格式和输入格式相同。 ------------------------- Re【机场停机位资源分配优化】 不需要表头哦

惊弓 2019-12-02 01:52:10 0 浏览量 回答数 0

问题

【精品问答】大数据计算技术1000问

问问小秘 2019-12-01 21:57:13 6895 浏览量 回答数 2

问题

个推推送Android问题检测:报错

kun坤 2020-06-13 23:53:00 0 浏览量 回答数 1

问题

【精品问答】python技术1000问(2)

问问小秘 2019-12-01 22:03:02 3129 浏览量 回答数 1
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板