不存在的空间: 阅收藏：超酷算法：基数估计

2014年10月15日星期三

阅收藏：超酷算法：基数估计

程序员写道 "假设你有一个很大的数据集，非常非常大，以至于不能全部存入内存。这个数据集中有重复的数据，你想找出有多少重复的数据，但数据并没有排序，由于数据量太大所以排序是不切实际的。你如何来估计数据集中含有多少无重复的数据呢？这在许多应用中是很有用的，比如数据库中的计划查询：最好的查询计划不仅仅取决于总共有多少数据，它也取决于它含有多少无重复的数据。如何解决？且看 Nick Johnson 的这篇讲解基数估计算法的文章（译文）。 "

via Solidot

没有评论:

发表评论