2012年12月1日星期六

推荐系统论坛2012参后感

今天全是干货。
Facebook开篇就提到做unified organic and sponsored recommendation。这恰恰是session亮点和我一直以来的梦想:将广告和推荐结合起来。从某种角度上说,内容推荐是Facebook自己作为广告商的广告,目的是让用户在Facebook上更活跃。基于此,他们建立了统一的优化目标,而不是向淘宝那样广告部和推荐部掐架。
给定用户和上下文:
max predicted CTR * (ad bid + p * click value)
predicted CTR是用户在当前上下文点击被推荐对象的概率。
ad bid是广告投标价格。
p是神奇的pacing parameter,通过一个负反馈系统在线动态调整。
click value是点击被推荐对象对Facebook的价值,反映了Facebook的长期利益。计算方法大致是推荐对象给用户在当前上下文带来的相对边际收益。比如给一个只有2个好友的用户推荐一个好友的相对边际收益是50%,给一个有1000个好友的用户推荐一个好友的相对边际收益是0.1%。
假设Facebook的Inventory也就是右侧栏广告位要被Facebook用于投资,短线投资回报快风险小,也就是卖给广告商在这里打广告,但是要牺牲长远利益即用户体验,长线投资回报慢风险高,也就是内容推荐。所谓Facebook决策者的投资组合,就是设定一个threshold三七开还是二八开,当organic spend > total spend * threshold 时,p减小,反之增加。这样就可以让投资比例稳定在设定值上了。这里非常天才的一点在于,p无需人工设定,系统可以自己收敛到一个稳定值,同时完成量纲转化,鬼知道click value是个什么物理量,和ad bid怎么比。
另外,关于如何向广告商收费。为了防止广告商和广告系统无聊地在线博弈,Facebook采用了符合经济学原理的方式:在Facebook投放广告的价格等于Facebook投放他的机会成本,也就是说,因为投放了你,系统受到多大损失。实现的时候,相当于系统处理两个recommandation request,第一个是有你的情况下,计算按照上述算法推荐的投资组合的收益,第二个request假装没有你,计算投资组合的收益,两者求差,就是机会成本。好像有一套叫VCG的理论支撑这个拍卖模型。
一个好的广告,不仅有ad bid带来的短期价值,还有click value带来的长期价值。好的生态是用户在Facebook上和广告商互动生产内容。

模型:Logistic Regression,理由,大量feature,在线更新。牺牲准确性,应对快速变化,因为需要推荐的对象类型五花八门层出不穷,例如照片,游戏应用等等。
几个特别好用的feature
上次点击这种类型推荐对象的时间到现在的时间间隔。刚点过一段时间不会再点了,但是过一段时间还有可能点。Bucket feature。
上下文类型,比如在照片页面推荐照片,就比较好。

基础设施:hive, scribe,不同的索引用不同的硬件,小一点的用memcached,大一点的用flash disk。
一些数字:
在线更新model时间间隔:30分钟。带来收益约3%。
每个user有billion量级的待推荐对象。
统一organic recommand和sponsored recommand之后,user活跃度上升10%,广告收益也上升10%。

Hulu
在视频里面放弃一些广告位,推荐内容。
推荐相关度直接弹窗问用户,CTR不靠谱。
当全站使用推荐系统时,它将影响用户行为习惯,从而反过来影响自身。就好像成为一个隐函数。不再是y=f(x),而是g(x,y)=0

腾讯
模糊集从公理出发三步就能推出悖论。

百度
技术悲观主义。





没有评论: