2009年3月19日星期四

Netflix数据集的一些统计特征(2)

很多网站的流量在一周之内变化的趋势类似,那就是工作日流量多,周末流量少。Netflix数据集也如此。无论是训练集还是测试集,评分日期的一周分布中,周六周日两天加起来不到20%,而周一周二尤其多,加起来超过了35%,说明人们上班的时候很闲可以上网,或者晚上喜欢放松看看电影,而周末则外出休闲去鸟。

另一个发现,是训练集和测试集的某些边缘分布很不同(测试集包括probe set和quiz set,分布相同)。
1、训练集的用户分布不均匀,少数用户非常活跃,10%最活跃的用户评分点占了所有测试集评分点的43.6%,而测试集的用户分布是均匀的,几乎所有用户被测试的概率相同,除了极少数最不活跃的用户。说明Netflix对所有用户一视同仁,不活跃的用户被认为与活跃的用户有相同的消费的能力。
2、测试集比训练集的时间更集中于离现在较近的时刻,测试集中最后一周的评分点占了20.4%,而训练集中最后一周的评分点仅占了1.5%。说明要求模型有一定预测的能力,尤其是预测当下用户偏好,而不是猜测用户过去偏好的能力,因为前者是有价值的。

1 条评论:

xlvector 说...

周末的效应应该有用,这点我没有想到,我准备应用一下这个特征。