摘要载入中…    请稍等…















内容载入中…    请稍等…

百度:技术与人工、谁排第一?

2009-1-6 11:26:24   来源:  

   

 ·百度知道、贴吧核心解密 ·三维全息显示技术开发成功

《21世纪》:刚才提到相关性、超链分析、反作弊,结合起来形成了你们的核心价值吗?

刘建国:是但如何调节这些东西,各家都不一样。超链分析是共用的。大家都在用。没有一个公司去公布搜索技术,因为这是一个商业秘密。我们是经过5年多积累才出来这样好的结果。这些都是核心技术,一定得积累。

《21世纪》:共享的经验有哪些?

刘建国:各个公司不一样,不能公布细节。

《21世纪》:你们重要在分析用户还是客户?

刘建国:重要的是分析网页,网页与网页之间的分析。WEB的方式,是由HTML组成的。网页与网页之间的是URL,最大好处是网页与网页之间可以用超链来指,叫HYPERLINK,指向另外一个网页是做什么的。比如“中国人民银行”会指向很多东西,每个都是链。他们指向他,LINK有一个叫评价,U1对 U2的评价。第一是指向,第二是评价。这是一个网页,“中国人民银行”就是超链,他指向另外一个——有说明中国银行是做什么的,指向后,另一个是指向的 U2,另外还有U3。很相关的排前面,找到最权威的。最后综合加权,中国人民银行大,其他商业银行小,那么就加权,算出来结果谁排前面。

《21世纪》:你们做这些,有没有编辑?

刘建国:有的网站有,我们没有,但我们有人工。网站不需要编辑,我们是靠技术,要把这些东西都拿过来。刚才说的抓取、分析是否相关,生成抓取的排名。抓取要分析,之后建立索引,把内容到URL的一个检索,之后提供服务。抓取,分析、检索、服务四个环节。

《21世纪》:你们的技术部门是按四个环节来分的?

刘建国:我们有很多组,做不同工作。

《21世纪》:你们的生产环节与通常的产品定义不一样。

刘建国:是有些怪。比如说我们是如何攻关:要分析、提出问题,每个部门都提,李彦宏也会参与。

《21世纪》:你们最近提过什么问题?

刘建国:我还不想透露太多的细节,比如抓取。我最近要提出一个问题:网站的覆盖率。要研究中国所有的网站。我们平常与Google比较,我们来看交集,相同的内容是多少?各自抓多少?我们发现交集不多,我们独自的较多,这是所有搜索的共性。我提出说,要去调研,为什么会有这种差距,这种差别是如何产生的,没抓的是什么特性?Google抓的是什么特性?Google是海外的吗?这都是一种猜想。我们要去调查,然后去做方案,方案再讨论是不是可行。这样持续不断地做,技术的含量很高。效果都是很客观的,都是真刀真枪的。

《21世纪》:技术队伍如何分工?

刘建国:除了研发还有测试的,另外还有运营的,给我们提供服务是在中国电信或网通,另外要管机器,硬盘坏了,负责换,系统要上线,数据有哪些问题,都得分析。研发、运营、测试还有客服(有面向用户及企业的)。有问题可以直接发到电子邮件,我们暂时没有呼叫中心。为用户解决问题,先整理一些问题,再传到其他部门。

《21世纪》:你们的产品,是以什么形态呈现出来的?

刘建国:网页、MP3、“知道”等等,每个频道都是一个产品。

《21世纪》:光靠技术行不行?还是需要编辑?

刘建国:主要靠技术,这么大量信息处理,靠人工不行。有人工,也是IT辅助下的人工。

《21世纪》:专业性的频道,比如百度传情、影视频道,百度“知道”,也是技术生产出来的?

刘建国:这是搜索“人脑”,技术生成就行了。

《21世纪》:你们作为纯技术派的人,认为百度在技术上与微软、Google竞争,真得那么轻松吗?

刘建国:我认为百度这么多年为何能成功一个主要的原因,就是我们的专注,只做搜索,中文搜索。对于要赶超的人,第一是专注,要超越自我。我们在不同的场合说过,我们的对手是我们自己,不是其他的人。我们能否保持旺盛的斗志,我们在艰难岁月里保持的那些东西能否保留下来,我们每个人是不是都很进取、协作。这是决定我们最关键的东西。此外还要继续招优秀的人。
 [1]