2012年2月1日星期三

Google Related Links 探究

感谢读者 kuber 的投递。

昨天在blog上介绍了Google Related Links, 当时试了一下, 感觉相关性不错, 而且不象是完全根据标题推荐的. 我说"结果应该不仅仅是根据标题, 而是根据正文内容算出来的", clickstone留言说"没有用正文". xlvector  告诉我说他测试下来相关性不是很好. 好奇心起, 仔细探究探究这个Related Links..

1. 在相关文章下面有Related Searches by Google, 点击第一个后进入google 的站内搜索(就是'site'开关). 打开'百宝箱', 选'最新结果', 相关文章基本上就是第一页的内容;

2. 填写一个有中英文的文章标题, 如"英特尔正调查苹果iPhone与PC资料同步化失败问题" (自己随便google 出来的), 分别选中文英文, 得出的关键字不一样, 如中文结果是"苹果", 英文是"iphone", 产生的相关文章也随之变化了.

3. 为了验证计算和正文是否相关, 做了一个暴力测试:

Demo页面上需要填写三个字段: Page URL, Page Title , 网站的Domain和语言. 如果这三个字段填写的是完全不相关的信息会怎么样? 我的填写的是:

Page URL: http://ent.163.com/09/1104/06/5N8NJQ6L000300B1.html (注:文章的内容是关于李安的新片)

Page Title:《魔兽世界》与中国互联网的“官家主义”-车走-搜狐博客

Domain  : www.feedzshare.com

Lanuage: Chinese

提交后居然也有结果, 而且基本上都是和"魔兽世界"相关的:

related-links-test

我的猜测(wild guess)是:

1. 基本过程是, 根据title得出关键字, 然后根据最重要的关键字(第一个?)做站内搜索, , 根据用户输入的page url 把本文排除掉产生结果;

2. 重要关键字, 应该不是简单的分词, 上面的测试可以看出来.  排在后面的关键字用到了google 搜索建议;

3. 同时'语言'选项可以限制关键字的产生, 跟结果语言无关.

一些想法:

  • 如果仅仅是做站内相关文章, 其实只要一个输入Page URL就够了, 其他的象标题,域,语言都可以据此找到(head里面都有, 而且google的数据库不至于没有吧);
  • Related Links 是google 几项技术的包装. 但经过包装后能产生非常有用的产品(功能?). 如果google不仅仅是发布一个js的gadget, 而是发布个数据api, 相信能激发出更多有创意的meshup.
  • 目前在技术上可以做到站外的相关文章. 比如说一个oepn social 的插件host在其他站点, 根据文章标题, 找到feedzshare 上的相关文章.

报告完毕,休息,休息,就到这里吧. :-)

kuber@FeedzShare

没有评论:

发表评论