大家好,我这么在处理数据时遇到一个问题:
有一张表,每天会产生800万行日志,我现在将这张表每半小时读取一次,将日志表中缺少的字段补全后存入另外一张表,现在存在的问题是 日志中的数据有丢失的情况
分析后发现丢失数据的原因有如下几个:
1.采集过程中数据量太大,读取oracle中数据时,报错快照过久,导致数据读取不完就丢失了。
2.传输过程中采用udp协议,在传输过程中丢失。
请问,这种情况下,大数据如何进行数据稽核?
之前还未接触过数据仓库,不知道上面说的这种情况是否属于ETL的数据清洗、加载过程?能否通过ETL工具完成?
大家都来发表发表意见,oracle有什么好的解决办法,hbase有什么号的办法?
不清楚你的需求。。。
试试队列。。。
哈哈 也不知道你能看明白不
###### 1.采集过程中数据量太大,读取oracle中数据时,报错快照过久,导致数据读取不完就丢失了。
批量提交, 使用直接路径/*+ append */插入, 如果数据不是很重要的话,可以把表设置为nologging
2.传输过程中采用udp协议,在传输过程中丢失。
换成tcp协议
1、什么是“报错快照过久”?
2、udp的上层协议没有保证数据完整性的机制吗?
######http://www.oschina.net/p/apache+flume 然后做日志分析
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。