百度搜索引擎工作原理浅析

之所以要写百度搜索引擎优化的相关内容主要是那天听了某位同学的话比较有感触,她说的第一句是“蚊子再小也是块肉”,第二句话是“它山之石可以攻玉”!Jack老师的这个教程网站一开始的初衷是讲外贸建站和谷歌SEO优化,但考虑到国内的同学们的产品供应链上下游都集中在国内,所以就想到了来讲一讲中文内容社区最大的搜索引擎—百度的相关SEO优化内容。

 

虽然我也一直在不断吐槽百度的各种糟点,但不可否认的是百度是当下而且在往后相当长的一段时间内都会担当起中文内容搜索领英的龙头老大,这不仅仅是它本身因素决定的,更多的是整个搜索生态环境和特定的高层战略意识形态所决定的!有时候吐槽百度,可能并不是因为它不够好,而是用过谷歌等更好的搜索引擎之后,对比之下才发现,百度搜索引擎要走的路还很长。这就好比是你去大城市尝过大厨的手艺之后会回家说母亲烧的家常菜不香,但事实上家常菜才是最养胃的!言归正传,我们来讲百度搜索引擎的基本原理和工作流程。

一.百度搜索引擎工作原理

我们首先引用百度对其自身工作原理的官方描述:

互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做 “spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider 等。

 

上面这段话,简单的概括就是说,百度派出了蜘蛛通过超链接的形式抓取新内容!这句话看起来很简单,但是背后却包含了包括链接存储系统、链接选取系统、dns 解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统等多个环境并发交互运作的一个整体过程。也就是说百度本身并不生产内容而是做内容的搬运工(咦,怎么和农夫山泉大自然的搬运工套路这么相似?!类似的还有马云的淘宝,王兴的美团…有钱人的脑子思考模式都差不多的吗?)

 

需要注意的是互联网上的很多信息都是不太健康的,所以百度搜索引擎在抓取和处理这些内容的时候就会开始引入一系列处理机制,接下来我们就看看有哪些处理机制会影响百度蜘蛛对内容的抓取

 

1.内容抓取过程不能影响内容本身

我们知道不管是人还是搜索引擎的蜘蛛在访问某一个页面的时候都需要消耗一定的该网站带宽,这里你可以将访问该网站的路径理解成一条公路,小网站一般是双车道,正常情况下车辆通行无阻,如果蜘蛛频繁的访问该网站,等于说路上的车变多了,那就会造成道路堵塞进而影响网站的正常访问。当然了你也可以在自己网站的robots.txt文件中写入相应的代码,以控制搜索引擎的抓取频次间隔。

 

2.对内容抓取的结果反馈代码

相信很多同学对404这个数字不会太陌生,这个404就是表示该抓取的内容页面url下没有找到任何信息,也就是说抓取蜘蛛吃了个闭门羹,这自然会引起蜘蛛的不爽,所以会在索引库中删除该页面的url。甚至可能在短期内再次发现这条url也不一定会去爬取内容。(这和追女孩子差不多,约会的时候如果男孩子敢飞鸽子就要有做好单身的打算,这是多么痛的领悟!!!)除了404之外,我们可能还遇到过301,403,503等错误代码,除了200是ok的,其他都是多多少少有问题,这些代码反馈可以在自己网站的站长中心能够看到,希望及时进行更改。

 

3.不同网站区别对待,网站也有三六九等之分

人人平等这句话用在网站上是不适用的!百度搜索引擎也是看人下菜,对于高质量,快速访问且更新频率很快的网站,它去爬取的次数和频率就比普通网站要高的多。这其中会涉及到深度优先遍历策略、宽度优先遍历策略、pr 优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。这些策略看起来很高深,但落实到相关的网页内容中,可以简单形象的概括为网站内容要深刻具体,内容要新鲜不要老生常谈,此外用外链的形式形成其他站点对自己站点的信任和权重支持。

 

4.新生孤立内容的提交与发现

很多时候站长们只注重自身网站的优化而不去做外部的资源引导,这就会造成一种现象叫做“内容孤岛”。也就是说该网站没有任何外界的链接引入导致百度抓取蜘蛛并不知道你这个网站的存在,从而不会将该网站内容编辑入它的内容索引库中,这样即使你的网站内容做的再优秀,也不可能获得关键词的自然搜索排名,别人也不知道你的网站存在。为了解决这种“内容孤岛”,建议各站长通过百度平台站长中心进行内容提交,或者用其他相关工具进行内容提交,主动告诉谷歌蜘蛛,大爷,我这有好货,来逛逛吧,包你喜欢!

 

5.对于抓取规则作弊的相关处罚

但凡有规则就会有作弊的存在,自古如此!为了尽可能的让大部分网站内容抓取获得相应的平衡性,百度也做出了很多的对应策略来进行保证。这样就保证了并不是某个页面url提交的频率越高,该页面被抓取和获得排名的机会就越大。很多文不对题或者页面质量低下的网站,百度都会对其站点内容的抓取过程进行限制。有使用过百度站长中心的同学都知道,一开始每天的站点url链接提交数量只有10条的配额,今天的配额用完之后就需要到第二天才能进行下一次的资源提交。但是如果百度认为你的页面质量内容都非常不错,他会对你有待,提升你每日的内容提交配额,这等于变相的鼓励你做更好的内容,当然这个配额不是提升之后就不会变动,如果你自己作死,那么配额还是会下降到每天10条的初始状态!

 

二.百度搜索引擎抓取内容异常的相关原因


百度搜索引擎对某个站点内容抓取并不总是一帆风顺,一旦遇到问题就会造成内容抓取异常的情况。这是为什么呢?明明自己的网站内容做的很优秀,也及时通知了百度蜘蛛来“做客”,却得到这个客人的满腔怒火?

1.资源提交和抓取时间的错位

要知道百度不是你的亲儿子,你提交资源的时候只是通知它,“嗨,大爷,咱们这有好货”,等这个大爷知道了你的意思,它可能并不会马上来逛你家,可能这时候有另外一家社会名流也对它说了这句话。百度毫不犹豫的把你的请求搁置在了一边,先去社会名流家做客了,等做完了客你满心欢喜的希望这下总该到你家来坐坐了吧。忽然这时候又一家顶级富豪请百度蜘蛛去喝杯82年的拉菲,好嘛,你的期待又一次失望到底。等到哪天百度蜘蛛终于有空来你的网站,发现你的网站可能缺少维护又或者被人毒打了长的和猪刚鬣一样,它就会想搞了半天你居然给我看这么个垃圾内容,果断差评!你的出头之日就遥遥无期了!

 

2.主机服务商和网络服务商的不稳定

这部分的原因是你不可控的,主机服务商一般会定时检修而且绝大部分集中在午夜12点左右,如果刚好这时候百度蜘蛛来你网站结果关门了,你除了尴尬而又不失礼貌的笑笑,一点办法都没有。网络服务商也是差不多的原因,只不过具体的报错原因不一样这里就不展开讨论了。所以建议同学们还是找相对靠谱的服务商吧,多花不了几个钱,就当是做慈善给服务商一点小费呢?!

 

3.url变更造成死链

这个也很好理解,同一个页面你更改了固定链接url,等于说原先的百度蜘蛛访问路径没有了。你提交给百度搜索引擎的是“方案A:从 广东到湖南再到北京”,结果线路更改了,变成“方案B:从广东到浙江再到北京”。百度蜘蛛还是先从广州上车到了湖南,到湖南之后发现没有车了到不了目的地北京了,所以就很不开心,给你的这个url来了个404.

 

三.页面内容的重要性判断

在前面的内容中Jack老师有提到过,你的邀请函给百度搜索引擎之后,它并不会like到你网站上来看看,因为你的身份还不够重要,你需要的就是不断提高自己是社会地位。那么百度搜索引擎是基于什么样的因素来考评一个网站的重要性的呢?

 

1.网站内容对用户有价值

不管是百度也好,谷歌也罢,他们的初始核心都是为了给搜索用户提供最优的解决方案额最有价值的页面内容。(虽然百度和谷歌都有广告,但这是搜索引擎生存下去的一个重要方式,只不过百度搜索引擎的吃相比谷歌搜索引擎难看一些)。所以你的建站出发点要和搜索引擎的出发点相互吻合。有的同学可能会反驳我,Jack老师我见过很多垃圾内容的站点也能获得很好的自然搜索排名!确实是这样,很多利用黑帽手法的优化人员确实能够让垃圾站点也能够短期内快速排名,但是一旦排名算法变动,这样的垃圾网站又有几个能够安稳不动呢?!

 

2.外部链接的推波助澜和权重传导

江湖新人总是希望江湖名宿能够给自己多多提携,在江湖上传播一下自己的好名声。网站优化也是如此,这也是为什么有人愿意出高价买高质量高权重网站的外链的根本原因 !这些高质量的外链让百度搜索引擎认为,这个新网站能够得到高权重老网站的认可,自然是有其优秀之处。在某些情况下可以适当的给这个网站一些流量和扶持,让更多的搜索用户来这个网站看看,是不是真的有干货能够传递给搜索用户更有价值的东西。如果是的,那么排名就会有更进一步的提升!所以同学们明白了吧,一个人的拼搏努力还是需要强有力背景人物的信任背书!

 

四.百度内容索引库的层级之分

 

1.页面内容时效性对索引库分层归类的影响

百度搜索引擎蜘蛛去你的网站之后就要去抓取网站的页面内容了,抓取回去之后会有个内容分析的过程,因为内容本身质量有高低,所以百度也会针对这些不同质量的内容分门归类。所以内容索引库也就有了三六九等之分。但是请同学们注意,一个网站的页面内容在归类为某一层次的索引库之后并不是一层不变的。我举个例子:假设,我在2015年的时候写了一篇名为《2015年最新百度搜索引擎工作流程浅析》;等到2020年我又重新写了一篇名为《2020年最新百度搜索引擎工作流程浅析》。从内容和时效性上来讲,后面这篇显然更加时候当前搜索用户的需求,所以很可能,2020年写的这篇文章会取代2015年那篇文章在索引库中的位置了。

 

2.页面内容的专业性和宽范围的比较

诚然百度喜欢全面详细的高质量页面内容,但是快节奏的现代社会生活让搜索用户不喜欢于长篇大论。所以有针对性的,专业问题解决方案成为了谷歌搜索引擎的新宠!这样的页面内容往往专业性非常高,其作者本身都有可能是某个领域内的专家或者权威,提出的方案和操作都具有极强的适用性。但这不是同学们为自己写简短页面内容的懒惰借口。因为这些专家和权威本身就具有一定的权威属性并被百度搜索引擎所认可,而这恰恰是你们所欠缺的。所以Jack老师的建议是,同学们写原创文章的时候,切入点要小,不要求大求全,内容尽可能专业可操作化。

 

五.百度搜索引擎的具体工作流程

一个完整的搜索引擎应该包括抓取、存储、页面分析、索引、检索等几个主要过程。在上面部分的内容中,我们基本上将蜘蛛抓取,页面内容存储,页面内容分析,内容分层索引等几个环节讲清楚了,现在我们来重点讲一讲百度搜索引擎的检索过程,或者你可以简单的理解为这就是百度的排名和内容输出过程。(虽然两者有一定的差别,但是差别不大,这样比较容易让小白同学接受和理解)。

 

我们回想一下某个百度用户在使用百度搜索引擎时候的情景:一般情况下,他会用某个关键词或者某个疑问句来进行内容查找自己想要寻找的内容。但是这个关键词和疑问句在网络中可能存在数以亿计的相关网页内容,而百度搜索引擎给出的结果是毫秒级的,是什么样的力量能够让百度搜索引擎这么快就给出搜索用户所需要的结果呢?答案就是—切词倒排索引!

 

1.切词倒排索引的基本过程

在百度搜索引擎蜘蛛爬取网站基本内容之后,会进入到页面内容分析的过程。这个过程就是对页面内容的源代码进行分析标记和整理。比方说我们经常讲的优化三要素:标题、关键词和元描述。那么搜索引擎就会主动去找这三个元素的标记符号:

………………………

当然了还存在其他的一些标记内容,比如content、link、author等等,这部分内容构建了整个页面内容的整体框架,谷歌就是根据这些标记来理解页面内容或者说类分类识别页面内容。

在标记完成这些相关内容之后,百度搜索引擎还会同时做一个叫做切词理解的操作,包括切词、分词、同义词转换、同义词替换,语义、词性等过程。需要注意的是,不同语言的切词理解过程是有一些差别的,汉语和英语的这个切词过程差距就很明显。

 

2.根据切词内容相交性原则进行资源入库准备

我们来举个例子,某个客户搜索的关键词是“如何在一个月内减肥10斤”,切完词之后,这句搜索词就变成了“如何—在—一个–月—内—减肥–10—斤”(这是模拟切词过程,不准确,仅供演示);那么每个切词就会对应一个二进制编码,然后百度搜索引擎就去自己的索引库中找寻相关包含这些二进制编码的文档,可能有些是部分包含,有些是完全包含,再加上其他的一些过滤机制(比方说排除黄赌毒内容)和排名机制(比方说tf-idf算法、网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等)将最终的结果呈现到搜索用户的面前。

 

这里要提一下百度的两个重要算法,石榴算法和绿萝算法。前者是打击低质量页面内容的,后者是打击外链违规操作的算法。因为文章篇幅的关系,本章内容不对上述两个百度算法进行讲解。

好了,以上就是本章关于百度搜索引擎工作原理浅析的全部内容,如何还有不理解的地方,没关系,解决方案如下:

点击此处,查看更多外贸建站和谷歌SEO优化免费教程

或者点击此处查看百度官方对这方面内容的相关解释

QQ:3233269705

QQ群:645296397

微信公众号:

微信公众号二维码