开发者社区> 问答> 正文

求高性能csv文件存取解决方案:报错

需求描述:类似数据仓库项目,大量csv文件每个小文件(<10M),但是文件数量非常多,所以总数据量很大(TB级)需要快速存取文件并可以读取其中的内容,这些csv文件是从其它数据源抽取过来的,因为怕性能差所以不想存到库里

     请问各位大侠,有啥合适的解决方案没有?多谢

展开
收起
kun坤 2020-06-06 16:16:09 501 0
1 条回答
写回答
取消 提交回答
  • 放ssd 上
    ######这样不能说什么优化吧,要么就根据行为进行优化,比如一段时间内 某几个文件的访问量最大,数据读写最频繁,那就在一段时间内不重复的打开这个文件,文件打开后缓存起来。可以参考操作系统里面的内存置换算法LRU,,我也没头绪了。######

    TB级很多么?

    我们光文件就有10亿多个,每个文件大小在300M到2G之间

    做存储升级的时候,通过光纤拷贝到新的存储系统,花了大约三个月时间

    ######请问您的系统是如何实现快速存取历史数据的?谢谢######

    ssd是啥?对不起我是新手,

    多谢明月兄的回答:可能我上面描述地有点儿乱,我重新说:

    其实就是有大量csv文件,每个文件的文件名都不同,而且还是按照日期分别存放到不同的目录,而且是不断有新目录和新csv文件进来,

    问题如何快速访问已经存在的csv文件中的内容,不需要更新只要取到数据就行,自己写程序倒是可以访问,如果有比较成熟的解决方案或开源框架就比较好了,

     

    opal 兄:你们是如何快速访问历史数据的?
    ######放到HDFS中,读取用MAP/REDUCE做,非常适合。######回复 @PaulWong : 非常感谢######官方那个WORDCOUNT那个例子就是最简单的了。 主要过程: 搭建HADOOP在本机的伪分布式环境,需要LINUX系统 跑通WORDCOUNT例子 搭建本机的开发环境,主要是WINDOWS,写一个MAP/REDUCE JOB,通过ECLIPSE分派到远程HADOOP中运行######感谢PaulWong,我查了查资料,大概看懂意思,不过还是搞不出东西来, 请问您有更详细的资料或java语言的demo吗?非常感谢
    2020-06-06 16:16:15
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
大批量处理excel文件到ODPS中方案 立即下载
深入解析数据存储技术原理及发展演进—数据存储技术概述 立即下载
MongoDB 应用数据平台助力快速构建您的应用 立即下载