关于大规模录入的数据流转

简介:

因为要双次录入,双次一致才入正式库。经过试点区数据录入的教训,决定改进一下数据在库中的流转,A与B在 Table_T 录完后,若对比相同,选其中一条数据进入 Table_M ,同时将 A与B 的数据从Table_T 中移出,原样转入 Back_TableT,复核员在 Table_M 中进行复核,如数据没问题时,再转移进 Table_F 。  这样就有了4种同构表。  临时表、中间表、备份表、正式表。

      试点区数据时,因为程序的不完善,丢失了约2%的数据,还错位了一些数据,这次把所有的录入都原样保管,应该在程序出了问题时,仍能补救。如果在二个月后发现某项数据一直是错误的,会造成重大损失;
    还有,这样转移的考虑是,我们对于大数据的处理十分缺乏经验,这样把集中操作分散开来,同时的一种操作也不过在一张几万行记录的表里,应该不会随时间对实时录入速度产生越来越严重的影响。
   哪位朋友进行过大数据量或普查性质的表单实时录入软件,和俺联系了:)
本文转自   wenyan  51CTO博客,原文链接:http://blog.51cto.com/wenyan/10129
相关文章
|
8月前
|
消息中间件 存储 NoSQL
离线与实时数据开发方案
离线与实时数据开发方案
138 0
|
7月前
|
数据采集 存储 数据挖掘
基于 StarRocks 的风控实时特征探索和实践
【6月更文挑战第9天】StarRocks 是一款高性能分析型数据库,适用于风控实时特征处理,提供快速数据分析,助力企业高效准确的风控决策。通过建立适合的数据模型,收集整合实时特征数据,并利用 StarRocks 的实时加载与查询功能,企业能实时计算风险指标。同时,确保数据准确性、一致性和完整性,以及进行性能优化,是实现高效风控的关键。随着业务发展,持续优化 StarRocks 应用将帮助企业应对复杂风险挑战,推动健康发展。
149 8
|
canal SQL 弹性计算
实时数据及离线数据上云方案
本实验通过使用CANAL、DataHub、DataWorks、MaxCompute服务,实现数据上云,解决了数据孤岛问题,同时把数据迁移到云计算平台,对后续数据的计算和应用提供了第一步开山之路。
|
存储 自然语言处理 文字识别
非结构化数据怎么治理?
非结构化数据怎么治理?
带你读《全链路数据治理-全域数据集成》之14:11. 附表:离线同步支持的数据源与对应的能力
带你读《全链路数据治理-全域数据集成》之14:11. 附表:离线同步支持的数据源与对应的能力
153 0
带你读《全链路数据治理-全域数据集成》之8:5. 附表:实时同步支持的数据源与对应的能力
带你读《全链路数据治理-全域数据集成》之8:5. 附表:实时同步支持的数据源与对应的能力
135 0
|
SQL 监控 DataWorks
带你读《全链路数据治理-全域数据集成》之7:4. 实时同步附加能力
带你读《全链路数据治理-全域数据集成》之7:4. 实时同步附加能力
203 0
|
关系型数据库 调度 数据库
带你读《全链路数据治理-全域数据集成》之13:10. 离线同步附加能力
带你读《全链路数据治理-全域数据集成》之13:10. 离线同步附加能力
168 0
|
弹性计算 DataWorks 数据库
带你读《全链路数据治理-全域数据集成》之4:1. 实时同步功能概述
带你读《全链路数据治理-全域数据集成》之4:1. 实时同步功能概述
247 0
|
数据采集 弹性计算 数据库
带你读《全链路数据治理-全域数据集成》之9:6. 离线同步功能概述
带你读《全链路数据治理-全域数据集成》之9:6. 离线同步功能概述
202 0

热门文章

最新文章