2009年5月11日星期一

Principle of Shrink Method in collaborative filtering

Scalable Collaborative Filtering with Jointly Derived Neighborhood InterpolationWeights等很多篇流行的协同过滤算法的文献中,都提到了Shrink技巧。

 

Shrink技巧的理论基础是高斯假设下的贝叶斯参数估计,这部分内容是经典的,可以在贝叶斯方法、模式分类等的领域相关教科书中找到。我们将假设和推导过程整理、重述如下:

假设我们要估计参数,视为随机变量,关于的先验知识是它服从正态分布,即其概率密度函数为:

的一组观测值视为独立同分布的样本,其总体为随机变量,满足条件正态分布。我们关心的是,有了一组观测后,我们应该如何用的信息修正先验知识。为此,计算后验概率密度函数:




其中c为归一化系数,倒数第二步将其整理为
的二次型,是为了将其凑成正态密度函数的形式。上式告诉我们服从正态分布,记为,则

将上面两个式子中
二项式对应项系数相等,得到下面两个方程:


从中很容易反解出我们关心的


从中可以得到两点结论:

1、后验期望总可以表示成样本均值和先验期望的凸组合;

2、当观测足够多,即n充分大时,趋向于0,即我们确信
非常接近其期望。而收敛到样本均值



中取



即得到文献中的Shrink技巧的实用形式:

没有评论: