早期的搜索
引擎技术是基于
传统的信息采集模型,依靠词频来排序。Google(谷歌)通过引入Pagerank机制,引发了搜索引擎的变革:一个网页如果被多个重要页面引用,那么它在搜索结果中将有较高排名。但是,至今仍没有搜索引擎能够真正地将个人偏好引入到排名体系中。为了将用户使用习惯引入排名标准,下一代搜索引擎必须研究、学习每位用户的真实信息,将这些信息转化为可扫描的模型,并利用这些信息来协助搜索。不幸的是,个性化搜索面临至少两大技术上的挑战:首先,个人资料经常缺失或准确性较低;其次,相对于互联网中的信息,收集到的用户信息太少了,以至于我们无法有效地处理数据。也正是因为这些原因,个性化搜索已经被讨论了很多年,但至今仍未见到一个卓有成效的解决方案。
有趣的是,近年来,“上网社交”成为互联网发展的又一热潮,这一变化给个性化搜索带来新的曙光。用户们不仅可以上网查找信息,而且也会在不同程度上参与网络社交活动(打牌、聊天、购物或者约会等等)。我们可以通过他们的行为很好地了解用户。
与天涯合作的谷歌社区产品上线,使谷歌向建立支持个性化服务的下一代互联网搜索迈出了的重要一步。作为重点研究方向之一,我们已经研发了几个并行算法来发掘海量的数据,以及在保护隐私的前提下,检测垃圾信息。当然,虽然这些优点无法立刻在我们的社区产品中得到体现,但是我们的平行算法将很快在根据用户匹配个性化的搜索结果方面发挥强大威力。