2012年8月14日星期二

KDD 2012 笔记1

很高兴可以用上班时间参加KDD的会议。读研的时候总幻想可以参加这样的会议,可是参加的却是华人数学家大会,各种代数拓扑神马的在他们看来和HTML5一样令人兴奋。
然而我觉得,数学家很难创造什么,他们更多的是发现。构造性的证明总被认为是好的。然而构造性的证明能证明的,往往是不太具有基础的重要性的命题。
构造性的证明,具有积极的建设性,这个和知识发现的工作是相通的。
工作之后第一份工作是程序员,参加的是敏捷开发大会之类的,很文科。所以今天参加KDD会议,很高兴。
---
Bootstrap for big data
把样本空间n切分成大小为b(n)=n^0.6的若干小空间,分别Bootstrap,将结果平均以得到总体的估计。好处是可以并行化。
Matrix completion
将矩阵按列切分,每个分块分别分解,得到总体的近似。
Chinese restaurant process
---
Twitter
典型的用户行为包括hashtag和retweet
twitter用户创造了大量新词汇
不用负样本训练模型
用户贡献了大量标签数据
用户的徽章和行为如何互相解释
7M的用户,只有31个徽章
实验在75K用户上进行,采了300K行为
10%的数据藏起来,做真值
将关键词聚类,得到标签云,有时候很有意思,有时候很不靠谱
可以通过用户行为反过来预测用户的人口统计学信息
用户的行为频率越高,反映的偏好越明确,但是有一个临界值,再多就没有偏好了,成了平均脸。是条抛物线
---
Yahoo
给定一些实体,找到给定用户最感兴趣的实体。
平均每件商品的评论数:Amazon 30K,Yelp 3K(这么多?!)
Ranking based on coverage
真值:Rank review by helpfulness rate by user
每个用户由他的评论在lable上加分,比如David=java(4) algorithm(6)
相机的评论有几个方面:续航能力、便携性等
评论说的全面,说的别人没说过,分就高。稀缺性作为评判的指标。
cover score,一个实例在coverage指标上的边际贡献。
---
效用函数
推荐相关新闻的数量,和用户满意度的关系是亚线性的。
好的推荐系统应该在相关性和多样性之间平衡,比如推荐前面几条推荐和用户兴趣相关的,后面几条推荐五花八门的,扩大用户视野。
当然每个用户效用曲线形状不一样,有的用户就只喜欢看和自己兴趣相关的新闻,给他推荐别的就是浪费。
作者找出了一个方法估计每个用户的效用曲线。
---
播放列表推荐
曲目的元数据很重要
曲目编排的顺序很重要
---
社交计算
例子:每个人是图上的一个点,给定有限种颜色。请选一种颜色画在你的点上,如果和你相邻的点颜色都不相同,你就赢了。
民主选举中的投票
---
编写好的教科书
一本教科书不好的一个特征,就是在解释一个概念之前,就使用它。称之为理解灾难。
作者设计了一个工具,找到一本教科书中,那些章节具有最多的理解灾难,那些概念带来最多的理解灾难。帮助出书者改进教科书。
工具还考虑了如何处理书中对外部概念的引用。好的教科书应该尽量少引用外部概念。
---
把破坏市场经济秩序的坏人揪出来
通过证券交易记录,发现联手操盘的一小撮人。
定义了一种特别的自相关系数。
在用户行为建模方面:如果一个人的意图不能自洽,就不要将他的行为用于构建物品之间关联。
---
推荐系统攻击
一些人想推广商品A,选定一些流行的商品B,注册大量马甲,给B打5分,再给A打5分,然后再假装给不相关的一些物品打2或3分。
根据一般的推荐算法,当普通人浏览B的页面时,系统会推荐A。攻击者就阴谋得逞了。
作者发明了一套算法,把这种人干掉。结果显著提升了user based CF的准确性。
真值:Amazon专家标注的攻击者
Amazon将攻击者分为三类:从来不买东西的蓄意破坏者(删id)、全职写手(显著降低言论的权重)、兼职写软文的(适当降低言论的权重)
---
HP电力管理
在写字楼里,如何安排电路开关和电表?
安装的多了,控制粒度细了,但是费料。
装的少了,控制得不够细,可能造成浪费,有故障电器不能将破坏控制在局部。
---
Twitter抽取突发事件
很多突发事件是从microblog上报道的,如何抽取?
定义了三元组:对象、时间、类型
类型是可枚举的,分类器学出来的
---
如何建立功能和蛋白质之间的联系,构建了二分图,多标签分类模型
---
文本分类
有一个未经检验的假设:被lable的样本和总体同分布。
---
实体匹配
一个Yahoo的Researcher讲,他上来很沮丧地说
这篇Paper的联合作者还有3个人,可是他们现在分别去了facebook, twitter和google,what a shame
如何将internet上重复的entity识别出来?
再给定准确率下界的约束下,最大化召回率。
通过拉格朗日松弛,将问题转化为无约束优化问题。



一天听下来,非常疲惫。感觉也就听懂了2%,对5%的未知事物感兴趣想去进一步了解,剩下的93%既不知所云,也没兴趣。

2 条评论:

Zhiquan Liu 说...

Twitter抽取突发事件
这个是什么论文?

Zhiquan Liu 说...

Twitter抽取突发事件
这个是哪一篇论文讲的?