2007年12月4日星期二

[笔记]豆瓣校园宣讲会

宣讲会上透露了不少信息,以下是断章取义。

一、概述
远景:帮助每个人发现最适合自己的未知事物。
用户群:中高端,千万人。不包括在网吧用QQ的。
盈利模式:和电子商务(当当、卓越等)分帐。未来要定向投放广告。
前辈:学亚马逊做推荐,现在GR也有推荐。推荐引擎在工业界和学术界都很领先。
核心:阿北,老板,搞物理的,洪强宇,技术,精仪的,王守�,算法,自动化的,搞TSP出身的。
创业精神:对风险的态度显著区别于IBM。
团队:纵向划分,每个人看一个产品,从最后台的SQL到最前台的HTML。scrum.sprint每周迭代。
有钱:不再找风投的话,而且没有意外扩张的话,豆瓣现有的钱还够折腾四五年。
有人:20人精英团队,技术7,算法3,运营5,产品3,营销2。其中6人来自清华。年龄平均27.2,中位数25。明年要翻番到40人。

二、技术
技术:前瞻性,第一个版本零访问的时候就能支持百万级了。
硬件:15台服务器全部自己攒,用指环王人物命名,数据挖掘有专用服务器,5台支撑起5M的PV
开发:python=很算法,为了性能一些挖掘算法用C实现,分布式:Web服务,缓存memcache,DB=mysql,存储。容器=lighttpd。搜索引擎=xapian。应用框架=quixote。
后台:大量脚本,monitor和spider。

三、算法
海量数据:十万电影,百万书,千万RSS,亿URL。
实验场:数据挖掘应用于社会化过滤器,协同过滤,聚类,关联规则,机器学习,文本挖掘,教科书上见得到的都有实验,此外最强的一点是利用社会网络进行挖掘,效果显著。
数据挖掘效果评估:不用学术界常用的指标hit rate而是用户反馈。
algorithm should facilitate rather than replace social processes

四、杂项
社会化:豆瓣的社会化网络是实用主义的,不构滥交友,也不复制真实关系,而是按兴趣把人们聚在一起。
开放:即将开放更多API,是Atom格式。暂时不打算开放数据,因为现在只有五千万,不够多?和netflix还比不了。

五、进去之后什么样儿
工作:每周40个小时。一三五要到公司,上午10点到下午6点。其他时间可以在家上班。要上班是为了保证足够的沟通时间。
讨论会:叫做Hall of fire,也是典出指环王。
腐败:每周有一笔钱必须一起糟掉。

六、怎么进
加入豆瓣意味着:高风险高回报机会。
待遇:比不过Google,但是相当有竞争力。(都说自己的待遇有竞争力)
简历:非常看重对open sourse的贡献。
面试:行业证书起副作用,看能力。问你以前做的事过程中,表现出你的聪明之处。问你一道编程题,考你逻辑思维能力。

没有评论: