开发者社区> 问答> 正文

百万行数据如何进行稽核?报错

大家好,我这么在处理数据时遇到一个问题:

有一张表,每天会产生800万行日志,我现在将这张表每半小时读取一次,将日志表中缺少的字段补全后存入另外一张表,现在存在的问题是 日志中的数据有丢失的情况

分析后发现丢失数据的原因有如下几个:

    1.采集过程中数据量太大,读取oracle中数据时,报错快照过久,导致数据读取不完就丢失了。

    2.传输过程中采用udp协议,在传输过程中丢失。

请问,这种情况下,大数据如何进行数据稽核?

之前还未接触过数据仓库,不知道上面说的这种情况是否属于ETL的数据清洗、加载过程?能否通过ETL工具完成?

大家都来发表发表意见,oracle有什么好的解决办法,hbase有什么号的办法?


展开
收起
爱吃鱼的程序员 2020-06-20 19:41:35 587 0
1 条回答
写回答
取消 提交回答
  • https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

    不清楚你的需求。。。

    试试队列。。。

    哈哈也不知道你能看明白不

    1.采集过程中数据量太大,读取oracle中数据时,报错快照过久,导致数据读取不完就丢失了。
    批量提交,使用直接路径/*+append*/插入,如果数据不是很重要的话,可以把表设置为nologging

    2.传输过程中采用udp协议,在传输过程中丢失。
    换成tcp协议

    1、什么是“ 报错快照过久”?

    2、udp的上层协议没有保证数据完整性的机制吗?

    http://www.oschina.net/p/apache+flume然后做日志分析

    2020-06-20 19:41:51
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
腾讯TB级别的海量日志监控平台 立即下载
双11万亿流量下的分布式缓存--Tiar技术揭秘 立即下载
QQ 空间百亿级流量的社交广告系统海量实践 立即下载