需求描述:类似数据仓库项目,大量csv文件每个小文件(<10M),但是文件数量非常多,所以总数据量很大(TB级)需要快速存取文件并可以读取其中的内容,这些csv文件是从其它数据源抽取过来的,因为怕性能差所以不想存到库里
请问各位大侠,有啥合适的解决方案没有?多谢
放ssd 上
######这样不能说什么优化吧,要么就根据行为进行优化,比如一段时间内 某几个文件的访问量最大,数据读写最频繁,那就在一段时间内不重复的打开这个文件,文件打开后缓存起来。可以参考操作系统里面的内存置换算法LRU,,我也没头绪了。######
TB级很多么?
我们光文件就有10亿多个,每个文件大小在300M到2G之间
做存储升级的时候,通过光纤拷贝到新的存储系统,花了大约三个月时间
######请问您的系统是如何实现快速存取历史数据的?谢谢######ssd是啥?对不起我是新手,
多谢明月兄的回答:可能我上面描述地有点儿乱,我重新说:
其实就是有大量csv文件,每个文件的文件名都不同,而且还是按照日期分别存放到不同的目录,而且是不断有新目录和新csv文件进来,
问题如何快速访问已经存在的csv文件中的内容,不需要更新只要取到数据就行,自己写程序倒是可以访问,如果有比较成熟的解决方案或开源框架就比较好了,
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。