百度搜索引擎工作原理(第二期)

当我们在搜索框里输入关键词时,只经过几毫秒时间就可以出现我们想要的内容,背后的工作原理及流程是怎么运算的。

百度搜索引擎工作原理要经过四个过程:抓取、过滤、建立索引和输出结果。才可以出现我们想要的内容。

百度搜索引擎工作原理(第二期)

 

抓取:

Baiduspider或称百度蜘蛛,当我们网站有新内容时Baiduspider就会访问该新页面链接并抓取,如果知识兔你的网站没有设置外部链接时,Baiduspider是无法访问和抓取的。对已经抓取过的内容,搜索引擎会对页面进行记录,并对页面的重要程度安排抓取频次更新。(当抓取来的新页面会放在临时的引擎数据库中)

过滤:

不是所有的抓取过来的新页面都是对用户意义,比如欺骗下载,欺骗页面,垃圾页面,空页面,死链接等,这样的页面是没有价值的,这个时候就会过渡掉,把剩下对用户有价值的页面的放到引擎数据库中。

建立索引:

抓取回来的页面会逐一进行标记和识别并将这些标记进行储存为结构化的数据,比如网页的tagtitle、metadescripiton、网页外链及描述、抓取记录。同时,也会将网页中的关键词信息进行识别和储存,知识兔以便与用户搜索的内容进行匹配。

输出结果

当用户输入的关键词,搜索引擎会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展现给用户。

总结:只有了解了搜索引擎工作原理后,我们才能更好的优化网站,用户对什么内容有需求,我们要怎么满足用户的需求。而不是用了自己而做出一些垃圾内容。

下载体验

请输入密码查看下载!

如何免费获取密码?

点击下载

评论