问一道airbnb的面试题

原帖地址:mitbbs

关于下面贴的这道面试题
当文件巨大,所有unique的单词不足以装到内存里面,
如果分batch来处理,在merge的时候,内存也还是装不下,怎么办?
如果要实现external merge sort, 感觉 复杂度就上来了
请问还有什么更好的办法吗?

====== 面试题 ======
coding第一面让我实现一个词频统计,但是测试文件巨大,读啊读的不同的词就超了内
存了。结果面试官提醒我要注意存中间结果,所以是读一批,统计一批,然后写回文件
,然后反复这样做最终得到最后结果。