求高性能csv文件存取解决方案：报错

放ssd 上
######这样不能说什么优化吧，要么就根据行为进行优化，比如一段时间内某几个文件的访问量最大，数据读写最频繁，那就在一段时间内不重复的打开这个文件，文件打开后缓存起来。可以参考操作系统里面的内存置换算法LRU，，我也没头绪了。######

TB级很多么？

我们光文件就有10亿多个，每个文件大小在300M到2G之间

做存储升级的时候，通过光纤拷贝到新的存储系统，花了大约三个月时间

######请问您的系统是如何实现快速存取历史数据的？谢谢######

ssd是啥？对不起我是新手，

多谢明月兄的回答：可能我上面描述地有点儿乱，我重新说：

其实就是有大量csv文件,每个文件的文件名都不同，而且还是按照日期分别存放到不同的目录，而且是不断有新目录和新csv文件进来，

问题如何快速访问已经存在的csv文件中的内容，不需要更新只要取到数据就行，自己写程序倒是可以访问，如果有比较成熟的解决方案或开源框架就比较好了，

opal 兄：你们是如何快速访问历史数据的？

######放到HDFS中，读取用MAP/REDUCE做，非常适合。######回复 @PaulWong : 非常感谢######官方那个WORDCOUNT那个例子就是最简单的了。主要过程：搭建HADOOP在本机的伪分布式环境，需要LINUX系统跑通WORDCOUNT例子搭建本机的开发环境，主要是WINDOWS，写一个MAP/REDUCE JOB，通过ECLIPSE分派到远程HADOOP中运行######感谢PaulWong，我查了查资料，大概看懂意思，不过还是搞不出东西来，请问您有更详细的资料或java语言的demo吗？非常感谢

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

求高性能csv文件存取解决方案：报错