2010年2月10日星期三

The limitation of the sampling algorithm: a simple case

一个不能用采样算法的问题的例子
网站某天有N个request,每个request都包含一个session_id,现在希望统计y=平均每个session有几次request。若M为distinct的session的个数(通常M<N),则y=N/M。
现在从N个request中随机取n个,记这其中distinct的session的个数为m,令随机变量X=n/m,则EX!=y
反例:当n=1时,m恒=1,X恒=1。
问题:是否存在一个采样算法,使得算法的输出是y的无偏、相合估计?

没有评论: