2007年8月1日星期三

假象热门效应的破灭--基于长尾理论的个性化推荐/过滤系统

目前的信息推荐/过滤系统主要有以下三种形式:1、digg模式的基于热门效应的推荐系统。2、基于搜索的关键词过滤系统。3、基于个人喜好及关注领域的人肉推荐/过滤系统。三者各有优缺点,但可以说这三者自身都存在一些不可克服的缺陷,必将只是处于过渡期的应用。如希望获得更大的发展,只有通过与其它推荐/过滤系统进行结合方有可能。

digg模式的推荐系统的着眼点在于热门效应,当使用人数达到一定数量时,digg模式的推荐质量的确可以达到一个较高的水平。然而digg模式也存在着许多缺陷使其的发展受到很大限制。其中一个缺陷我已在对Google Reader的期待中进行过叙述,就是所有基于热门效应的应用所面临的共有的缺陷,推荐的内容由于是热门内容,所以当使用时间达到一定程度后,大多数的推荐内容均已处于阅读覆盖范围,推荐的作用越来越少。并且由于目前尚缺乏一个有效的内容过滤系统,最终会造成通过推荐系统获得的价值相比起浪费在过滤重复阅读内容的时间的价值要小,最终不得不放弃这一推荐模式。

此外,digg模式的另一个缺陷就是很容易造成一种假象热门效应。之所以会造成这种缺陷的主要原因在于digg系统无法实现精确无误的分类/标签造成的。目前的digg系统的分类/标签基本是依靠用户自行进行标识,但我们可以发现这样一种情况,某些分类的内容由于阅读用户的基数大,自然潜在的推荐用户的绝对数量要多于其它一些冷门分类。因此在某个冷门分类中的最热门内容都有可能在绝对推荐数量上还比不上某些热门分类中的一般内容。而由于Digg这类推荐模式是基于热门效应的推荐系统,因此十分看重推荐数量,但又因为各种原因,而没有一个完善的针对不同分类的不同加权的算法,对所有分类的推荐数量的加权都是一样的。

这就导致了一个假象热门效应的产生。推荐系统的热门内容被某个或某几个热门分类所占据,而其它冷门分类的热门内容无法得到应有的关注。这就会造成人们希望将冷门内容分类/标签在一个热门分类/标签中,从而使分类/标签系统失去应有的作用。如果说要举一个有代表性的实例那就是抓虾的热文,热文中的文章基本都被某几类分类的文章所占据,冷门内容基本上不能获得多少关注的机会。而且由于抓虾的热文没有一个分类/标签系统,在热文初期由于抓虾用户类型单一还不会很明显,但由于用户数量的增加,目前这种情况就有点像分类/标签混乱之后的Digg推荐模式。

digg模式的第三个缺陷同样是由于基于热门效应而产生的。由于世界上不存在两个完全相同的人,每个人都或多或少地会偏离主流,因此digg模式的推荐系统无法做到精确的用户定位,用户还是必须通过较为低效率的人肉过滤方式来对推荐的文章进行二次过滤。并且由于推荐的内容是主流内容,无法发掘到不同用户由于不同的个性所关注的一些冷门内容,推荐的覆盖率还不够高。

关键词过滤系统的缺陷则在于受目前搜索算法的限制,过滤受到关键词的限制。如果无法提供完善的关键词搭配组合就无法实现一个较好的过滤效果,过粗则仍需要花费大量时间进行低效率的二次过滤工作,而过细则容易漏过一些有用的文章造成过滤效果不佳。此外要实现一个较好的关键词过滤效果首先需要有足够的优秀信息源的支持,而从目前来看,过滤信息源的工作主要还是依靠人肉过滤系统,因此受到的局限很大。

至于人肉推荐/过滤系统的局限就更加明显了。每个人的推荐/过滤准则受其自身的兴趣爱好以及所关注的领域等原因所局限,你无法找到一个和你有着相同兴趣爱好以及关注相同领域的人来为你进行信息推荐/过滤。即使是同一类的用户也会因为各种原因造成推荐/过滤的内容不符合你的要求,而同样无法进行精确的用户定位,仍然需要进行二次过滤工作。并且由于每个人的阅读量的限制,就算是Keso也最多只能每天读1500个Feed的内容,信息源的不足导致过滤的范围受到局限。而如果希望通过多个用户的信息推荐/过滤来进行解决的话则需要花费大量的时间来过滤重复内容和不符要求的内容,效率可想而知。

所以我认为能在最大限度上来解决信息过载的信息推荐/过滤系统,只有基于长尾理论的个性化推荐/过滤系统。而要打造这么一个推荐/过滤系统需要拥有一个庞大的用户数据库,利用这些用户数据进行用户行为分析来生成一份用户的档案,根据这个档案中的信息来进行推荐和过滤工作。而在我看来这一基于长尾理论的个性化推荐/过滤系统的应用载体必然是Feed阅读器。由于互联网的出现,信息的供应空前充足,并且人们对信息需求的空前庞大,目前的信息载体中只有Feed能满足人们的巨大的信息需求。由于Feed与生俱来的实效性以及可用于快速大量信息源的特性,这必然成为下一代的信息载体。所以我认为目前最有可能也是少有的几个有能力打造这一推荐系统的公司就是Google。

Google提供的互联网服务基本可以覆盖了目前一个用户在互联网上的主要应用。而值得庆幸的是Google用户的忠诚度相比其它公司的用户要高不少,因此用户中的忠实用户比例比起一般的公司要高。这使得Google掌握了足够多的这些用户的数据,这是基于长尾理论的个性化推荐/过滤系统的基础。尽管所有提供在线Feed阅读器服务的公司都可以进行用户行为分析,但仅仅通过用户在在线Feed阅读器中的行为分析,无法利用这些数据生成一份准确的用户档案。因此无法进行精确的用户定位,而如果无法做到这一点,那这个推荐/过滤系统就无法发挥应有的作用。因此符合开发门槛要求的只有极少的几个公司。而这其中只有Google开发了在线Feed阅读器服务,并且占据了极大的市场份额,因此Google同时也具备了关键的阅读器用户数据的要求。

如果能根据用户数据进行多角度的精确的用户行为分析,并且结合用户群体等特性进行结合,最终得出一份有效的用户档案。那这一推荐/过滤系统将能使信息推荐/过滤效果和效率达到一个前所未有的高度。不仅推荐/过滤的信息将符合用户的需求,并且将拓展用户的阅读视角。根据用户的数据分析,也许能帮助用户发现一些用户自己都不知道的自己潜在的阅读需求。真正在信息过载的时代取得一个较好的信息获取效果。一个完善的信息推荐/过滤系统是推动人们对信息的处理方式进行一次大幅度革新的关键。本文或许可以算是我这样一个处于信息过载时代的人,对未来信息处理方式的憧憬?不过在这个系统出现之前,还是先练就解决信息过载的神功来提高人肉的信息过滤效率更加实际一些。

PS:祝我们伟大的中国解放军和Nings MM生日快乐。

版权声明:本作品作者为IwfWcf,首发于IwfWcf's Blog,转载请遵循知识共享署名-非商业性使用-相同方式共享 3.0 许可协议并以超链接形式注明出处。

2 条评论:

葬月 说...

iwfwcf的逻辑理论很强

涤生 说...

也有同感,很深刻!