开发者社区> 问答> 正文

请教一个关于海量数据的大文件统计问题

有一个大文件 20多G 里面一行一行的(csv格式,逗号隔开的那种)都是订单信息 主要的有用户id 商户id 还有就是订单id 需要求出的就是求出“每个商户”“每天的累计支付用户”和“每天的新增支付用户数”
PS:
最好能贴出代码,
最好可以用C或C++,php也ok,
还有就是内存不是很大 需要考虑内存原因
我需要求出的“累计支付用户”和“新增支付用户数”的uid是需要去除重复的
最终的展现效果类似于这种

展开
收起
a123456678 2016-03-20 10:22:09 2149 0
1 条回答
写回答
取消 提交回答
  • 如果windows平台,用内存映射最快,当然用随机读取也行。
    linux平台,用随机读取文件统计吧

    2019-07-17 19:08:50
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
交易风控数据的海量存储与多种离线计算处理 立即下载
交易风控数据的海量存储于实时访问 立即下载
基于HBase的海量数据查询与检索解析_游骐_202105_v3 立即下载