文档备案控制台

开发者社区问答正文

一道经典面试题：报错

要求完成文件读取，过滤，列印操作。
有一大小为1GB的源文件mail.log中记录以下格式的数据，将其中信箱为@sina.com的地址筛选出来。
要求程序占用的内存不能超过512MB，代码尽可能高效，在最短时间完成运算。
实际代码或伪代码或者写明思路都可以
July@sina.com.cn
Cross@hotmial.com
dana@gmail.com
mike@sina.com
jones@163.com

展开

收起

kun坤 2020-06-07 22:32:46 487 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

kun坤

直接用命令行不？:)

grep "sina.com$" mail.log

######
看清楚 1G容量大小。
######
BufferedReader bf=xxxx;

while ((line = bf.readLine()) != null){
//直接处理一行的内容line，也可以一次读取100行或1000行再处理
}

这样行不？
######
问题是打开的时候本身就会很慢...
######
先做文件切割，切小点，文件多点

然后分段读如内存

摘出符合条件的存入新文件

新文件中排序，剔除重复的

-------------------------

是这个思路么？
######

引用来自#6楼“Aeolus”的帖子

先做文件切割，切小点，文件多点

然后分段读如内存

摘出符合条件的存入新文件

新文件中排序，剔除重复的

-------------------------

是这个思路么？

文件切割过程不占用内存?
######
至少要分两次读取，最好分3~4次为好。。。
######

引用来自#5楼“苏元元”的帖子

问题是打开的时候本身就会很慢...

打开不会很慢，fopen操作，打开1K的文件和打开16G的文件，速度几乎没有差别。
######
MappedByteBuffer 分段读取，一次100M。
######

引用来自#10楼“穿衣服比较麻烦”的帖子

MappedByteBuffer 分段读取，一次100M。

正解

2020-06-07 22:32:51

赞同展开评论

问答标签：

面试报错

问答地址：

开发者社区 > 云计算 > 问答

相关问答

一个面试题，jquery里有一段这样的代码，请简化它。热：报错

526

0

0

android开发人员如何编写自己的面试简历：报错

823

1

0

有一道Java面试题能不能帮我看看?：报错

524

1

0

遇到的一个面试题不会做，哪位大神写一下。：报错

523

1

0

想问问面试的时候问，大流量，高并发，该怎么答是好？：报错

794

1

0

今天面试问HashMap用来装大数据，没有HashTable合适：报错

995

1

0

面试题，头大不知道该怎么办。热：报错

910

1

0

上周一去一家公司面试碰到的一些题目热：报错

744

0

0

今天遇到的一个面试题，我比较没思路，大家帮忙看看帮忙给个思路或代码：报错

714

1

0

项目经理面试题：报错

781

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

需要支持自定义Kimi k3 API

我购买了pro+套餐，在vs code中使用提示限额，需要怎么处理？

WordPress站点怎么进行速度优化？

阿里云CDN如何加速配置？

Qodework cn 能不能提供一个 API 接口？

还有其他疑问?