2014年10月15日星期三

阅收藏:超酷算法:基数估计

程序员 写道 "假设你有一个很大的数据集,非常非常大,以至于不能全部存入内存。这个数据集中有重复的数据,你想找出有多少重复的数据,但数据并没有排序,由于数据量太大所以排序是不切实际的。你如何来估计数据集中含有多少无重复的数据呢?这在许多应用中是很有用的,比如数据库中的计划查询:最好的查询计划不仅仅取决于总共有多少数据,它也取决于它含有多少无重复的数据。如何解决?且看 Nick Johnson 的这篇讲解基数估计算法的文章(译文)。 "















via Solidot

没有评论: