谷歌搜索算法 浅析
谷歌之所以能成为全球范围内最大的搜索引擎服务商,这和 谷歌搜索算法 是有莫大的关系的。在全球范围内,谷歌对外宣称始终是一个原则—在最短的时间内给用户最准确的内容!听起来这是一句很简单的话,但这背后需要付出的努力和各种配套服务将会是海量般的资金、人力、资源等各方面的投入!那么我们今天就来简单讲讲这句话背后究竟包含了哪些不为人知的内容。
谷歌搜索算法的工作方式:
当你在用chrome浏览器搜索的时候,谷歌搜索算法会进行5个环节的渐进式操作步骤,分别是:
1.分析关键词或者句子的搜索意图
2.在谷歌内容索引库中找到相关匹配的内容网页
3.将查找到的相关网页根据算法进行排名
4.将这些排名好的网页在搜索结果中自然展示
5.其他的一些影响排名的相关因素
这5个工作方式是循序渐进的,每一个操作环节的正确运行必须依赖上一操作的正确结果输出,如果任何一个环节出现了判断不准确或者说是算法不精准,那么最终的结果就会和我们真正想要的结果匹配性很差,用户就会感觉这谷歌提供的是什么狗屁玩意?但多年来的数据显示表面,谷歌的自然搜索结果依然是市面上所有搜索引擎中最受欢迎和认可的。下面我们就来逐一的了解一下上述5个环节的相关操作方式。
分析关键词或者句子的搜索意图
作为内容交互界面,谷歌搜索引擎的前端就是chrome首页的主搜框(随着技术的进步,移动端的语言输入搜索等正悄然的改变搜索方式和结果的呈现,这里先不展开讨论,重点讲PC端的搜索行为)。
相信大家对这个界面都非常的熟悉,它的作用就像哆啦A梦一样,会给你各种想要的东西!当我们需要搜索某个东西的时候,它就要首先对我们的输入文字(可能是单个字,可能是词语,可能是短句,可能是完整的长句,也可能是一些约定俗成的字母进行分析)进行判断。为了更好的说明这个判断的过程,我们来一个实操讲解,假设我们要输入这样一段话—“哄女孩的最好办法”
当输入第一个字“哄”的时候,因为谷歌搜索引擎还没法理解我们是否只输入这一个字还是说后续有更多的输入内容,所以它就在下拉框中提升了目前热度最高的和最具关联性的相近内容。
仔细看Jack老师标注的1.2.3.4.5这几个地方.很显然“哄睡故事”在现阶段的谷歌搜索数据中是最受欢迎也就是说点击率和页面停留时间平均值最高的关联词汇。再看排名第二的“哄睡”,显然这个词汇是以哄这个单字为词根的所有词汇中关联度最强的词语。因为有了“哄睡”这个最关联的词根,就涉及到了哄睡的相关事务方面,因为哄睡涉及到的很可能是家长对小朋友的交互,所有日常生活中“哄睡神器”这个词汇的搜索量和真实需求量也非常大,足以让这个词排到了第三高位!剩下的4和5以及其他下拉框中的其他词汇排名就很容易分析了(这里不再赘述).
需要指出的是:某个词汇的 下拉搜索框关联字词排名并不具有代表性,只对当前搜索条件下的排名负责,其他的字词搜索有其独特的下拉内容推荐方式!甚至,当你点击其中的任何一个推荐词汇之后,第二次再重新打开搜索页面输入字根“哄”,出现的搜索结果和第一次的也不会完全一样!
我们继续,当我输入第二个字的时候,下拉框又给我推送了相关短语(注意,这次没有单字推荐了,全部是短语和句子)。我们仔细看,在所有的推荐短句中,出现了两个渐进式内容词根,换句话说就是两部分内容组成了一个短句。而且很大部分是集成了上一个图片中我们提到的单字“哄”的下拉推荐内容。
比方说第一个短句“哄女朋友睡觉故事”就是由第一部分内容“哄女朋友”和第二部分内容“哄睡故事”组成。其中的第二部分内容就是完整继承了第一个字根的下拉推荐关键词中排名第一的相关内容。而第一部分内容“哄朋友”则是自动关联生成的内容。这两部分关联内容共同组成了“哄女朋友睡觉故事”这一个完整的下拉关联短句提示排名第一的内容。我们继续往下看
当我们输入第三个字的时候,突然发现这时候下拉框中没有出现相关的推荐内容了。这又是怎么回事呢?很多打字快的同学可能并不会太去关注这个问题,哪怕是想起这个问题也不太会去深入思考。谷歌是时刻在超高速运行的搜索引擎,每一个你输入的内容都会在各种算法的作用下高速匹配你想要的内容。所以才有了前两次的下拉框相关内容推荐。但是我们输入第三个字的时候出现了两种因素导致它暂停给我们提供下拉框推荐内容。
第一个因素是:连续两次的下拉框推荐内容都没有采纳,因为这两次没有采纳的拒绝动作让谷歌算法知道,当前所推荐的内容并不能很好的满足该搜索用户的搜索意图,所以不妨停下来先等等看看该用户接下来会继续输入什么字或者词根
第二个因素是:这三个字已经构成了一个小短语,动词是“哄”,名词是“女孩”,在逻辑上已经构成了一个完整的短语。那么谷歌的在自己的索引库中已经准备好了所有包含这个短语的网页内容(注意这个时候仅仅是找到了内容,但是并没有进行相关性排名),如果这时候你按回车键,它分分钟就把相关内容根据一系列算法进行排名然后展现在你面前。只不过谷歌想再等等看,看看你还有没有继续输入的意思。如果有,那么它会继续变更将要呈现的内容!
让我们继续,我们接着输入后面的字词,这时候我们会发现后续的任何一个字和词语输入到搜索框中,并不会再见到下拉框的推荐内容。这又是为什么呢?还是上面提到的两个暂停提示意思吗?显然不是!
第四个字是“的”,在中文里面,它的作用是助词,也就是说这个词本身没有含义,起到的是衔接的作用。再结合前面的三个字—“哄女孩”,谷歌的逻辑算法就会去判断,大概率下该搜索用户还会继续输入后续内容,后面可能会是“哄女孩的神器”,“哄女孩的办法”,“哄女孩的小技巧”……等等。所以谷歌这小机灵鬼就想再等等,等这个搜索用户后续的文字输入,等接收到输入的文字后再去自己的索引数据库中找到最合适的内容提供给该用户。
因为我们的最终目标是“哄女孩的最好办法”,那么接下来就是“最好”两个字,这两个字是形容词,对应英文中是best,对搜索结果有没有影响?有影响!影响大不大?有点大,但不如最后的“办法”这两个字!所以这句话的骨架核心内容是“哄女孩办法”.接下来我们看一下骨架核心内容和完整搜索意图所对应的自然搜索结果有什么不一样。
基本上的排名和内容都差不多,这个结果也印证了前面Jack老师说的谷歌对自然排名的结果是基于逐步的或者说是循序渐进的搜索字词输入判断。虽然我水平有限不能准确的告诉你这背后具体有多少种谷歌算法参与了该过程,每一种算法具体叫什么名字,算法对排名结果的具体影响大小,但是这个逻辑很重要,特别是对于我们的外贸网站想做Goolge SEO优化的同学!有些人会问,那Jack老师你刚才演示的是中文,我们是做外贸网站涉及到的网页文字是英语或者其他小语种,会不会也适用同一套搜索意图判断算法?答案是肯定的(很遗憾的是我始终未能找到这个官方的回复)!所以想有好的排名,先从这一步逻辑理解开始吧。
在谷歌内容索引库中找到相关匹配的内容网页
这个环节是谷歌搜索引擎运算的第二个步骤,在上面的第一步骤中,Jack老师略微的提到了一点,但是讲的不太详细,接下来我们就好好的来聊一聊这个过程。
互联网上每天都在产生海量的数据,这些数据哪怕没有主动提交给谷歌,但也有可能因为各种原因被谷歌蜘蛛所爬取,进而被收录到谷歌的内容索引库中。有些同学可能不理解,为什么自己在没有主动提交的情况下,谷歌还会抓取自己网页内容?我举个简单的例子:
比方说你创作了一个页面,内容是家乡的风采,但是没有通知谷歌来抓取,这时候假设有个人也写了一篇和你类似的文章并做了锚文本跳转到你的这个页面,这个锚文本就成立你这样页面的一条外链,当谷歌蜘蛛爬取那个人的网页的时候会顺这着这个外链爬到你的网站,然后再抓取你的网页内容。(除非谁你在自己的网站robots文件中,限定了内容爬取权限为禁止任何爬取!)
当谷歌蜘蛛抓取到这些页面内容之后,就要对这些内容进行粗加工了,这个过程好比是图书馆进了一大批各类书籍,有小说,有文献,有县志,有画册等等,谷歌根据其独特的分类索引算法,将各种内容进行归类。所以我们去图书馆的时候,找某类书籍的时候只要找相关的类目标签或者字母标号就能快速找到我们自己想要的书籍了。
那么谷歌是根据哪些具体的算法来进行内容判断的呢?说实话我也不是非常清楚,因为这个是谷歌搜索引擎的核心重点,谷歌以前现在并且将来都不会公布,这是人家的命根子!但有些约定俗成或者半官方公开的算法大体上还是能够说一说的。
1.网页的TDK分析判断:TDK是网页标题,关键词,元描述这三样东西的简称。做谷歌SEO优化的同学都知道这三者对一个网页的排名有多重要!但也不是说反复的添加以及各种恶意作弊的手段来增加这些TDK就能够获得更好的自然搜索排名的(因为这涉及到一个作弊处罚的机制)
2.关键词与内容紧密度的判定:这里就需要提到一个TF-IDF的算法了,具体的内容可以参考Jack老师的这篇文章《浅谈 TF-IDF 对关键词排名的影响》,TF-IDF是参考的两部分关键词密度,一个是页面内关键词谜底,另外一个是页面外所有相同关键词相关自然搜索排名内容页面的资源数量和密度,这个东西设计到的算法不是一两句话能讲的明白,同学们还是去看我的专篇吧
3.此外,相关的网页评论也会对搜索结果的排名产生影响。大体上来说,正向的评论能够引起谷歌搜索引擎正向的排名提升,但也不是说百分百的都是这样,谷歌对这种评论也会有相关的算法进行多维度处理。
4.图片ALT属性等侧面内容因素的潜在相关性证明:虽然谷歌的字词短句和意思分析功能已经很厉害很智能化,但有些时候也会因为一些高超的作弊手段而产生误判。图片ALT等的说明更加能够佐证关键词和图片乃至整篇文章的内容紧密度。比方说我们这片文章放了一些谷歌算法的图片,alt写的就是“谷歌搜索算法浅析”,那么正向权重评价的分值就会更高一些。
通过上述的4个小点,我们大体的能够了解到,谷歌搜索算法是多维度,多对象的对页面内容分析判断,并进行内容归类,以等待相关搜索用户在查找该关键词或关键句子的时候进行快速提取!
将查找到的相关网页根据算法进行排名
在查找到所有和该搜索用户提交的关键词想关联的内容之后,谷歌搜索引擎需要做的就是如何将这些所有内容按照实用性原则进行自然排列,也就是我们经常说的关键词排名运算!这个过程也会涉及到很多排名因素,Jack老师才疏学浅,只能简单的讲几个比较重要的排名因素。
排名因素一:EAT原则
EAT原则指的是内容的专业性、权威性、可信赖性三者的简称。很多时候我们会发现知乎的内容会排的很靠前,这是因为相对来说知乎上的文章相对专业和靠谱,但是如果在某个垂直领域,比方说计算机技术方面的文章,那么显然CSDN社区更加专业。所以如果当你搜索某个具体的专业性计算机类问题的时候,CSDN社区的文章往往会比知乎的排名更高一些。
排名因素二:时效性原则
在绝大部分的搜索需求中,搜索用户需要的都是即时性或者说近期的内容来满足他们当前的某个问题解决需求。在相同的条件下,假设A/B两篇文章都是讲如何做高质量的外链方法。内容差不多的情况下,其中A文章标题写的是《2010年最新外链建设技巧》,而B文章写的是《2020年最新外链建设技巧》。那么很显然,B文章获得更高排名的机会要比A文章更多一些!
排名因素三:外界情况对页面权重的影响
在之前的文章中,JACK老师有提到过,外链的作用除了导流之外,还有权重传导的作用。特别是那些和你当前页面内容高度相关,而且带有dofollow属性的高权重高域名得分的外链源网站。这些外链相当于给谷歌搜索引擎一个信号:这个小兄弟写的文章非常好值得信赖,我用自己的名誉为他担保!当你的网站页面有众多这样的外链之后,你的网站想排名较低都很困难,这有点类似盛名之下其实难副的味道!
排名因素四:页面的良好用户体验
既然谷歌的排名出发点是给搜索用户最实用的内容,那么良好的页面体验感就显得非常重要了。比方说图片和文字的搭配,文字和段落的可读性情况(因为今天主要讲的是PC端的情况,不涉及到移动端,所以这里不提AMP和移动端友好),文章的结构层次,页面内容吸引搜索用户在当前页面的停留时间等等。这些小细节很容易被大家所忽略,但往往是这些小细节决定了你的文章是否能够排名靠前!
在综合了上述因素(还有很多是我们未知但确实真实存在的排名因素)之后,谷歌搜索引擎就在自己的索引数据库中将所有的内容进行了排名,这个环节才算真正完成!
将这些排名好的网页在搜索结果中自然展示
现在主流的谷歌SEO行业对这个过程有两种截然不同的说法,
说法一:所有的排名结果在上面的步骤中操作完成,这个步骤仅仅是在谷歌搜索页面前端进行展示。
说法二:在上一步骤的排名结果之后,还会进行一次结果排名,才会将最终排名结果呈现在搜索用户面前。
哪一种说法比较正确?我不知道,谷歌官方没有正面的回应过,但我个人更偏向于第二种说法,为什么?同学们有兴趣的可以看看这里的文章《谷歌搜索工作方式》
按照它这种说法,那么某种程度上和我们刚才讲的第三个搜索步骤是有点略微冲突的!原则上我们认为第三步事实上已经在结合搜索用户的相关信息(除提交给谷歌搜索引擎的信息外的自身因素,包括页面cookie,谷歌账号,历史搜索记录等等),进行了原始索引数据库排名内容的删减和排序。
但从整个宏观的角度来看,这两种说法并没有太大的区别,为什么这么说?我打个比方
我们去吃包子的时候,感觉包子的味道很好,那么这个味道好是指单纯的包子馅味道好还是面皮和包子馅混合的味道好?前者是讲两个步骤合并一起,后者是将两个步骤分开讨论。
在经历以上四个步骤的分析,判断,检索,删除,归类,排名,呈现等动作之后,谷歌浏览器才会在前端展示给你它所认为的对你最有价值的SERP。虽然这个过程可能只需要持续零点几秒的时间,感觉是一瞬间的事情,但详细的讲解下来就形成了Jack老师的这一整篇文章。
最后再补充说一点其他外界的一些会影响到排名的因素。这些因素和排名的页面内容本身并没有特别大的相关性,但往往和搜索用户本身有一定关联!
影响因素一:用户的地理位置
比方说我在谷歌浏览器主搜框中输入“公园”两个字,这时候你会看到出现这样一个结果
这里显示的全部是美国的公园,我们先不急着讨论,先看另外一张图片
为什么同样的搜索关键词,在间隔了十几秒时间后,出现了完全不同的显示结果?那是因为我切换了网络节点,谷歌搜索引擎根据我的IP地址,自动识别我当前是在哪个国家和地区,然后推荐给我最近最好的公园地址。所以ip地址的变化是搜索用户本身发生的变量和内容页面没有关系!
影响因素二:搜索用户对谷歌浏览器的设置
如上图所示,当我们点击上面的设置按钮之后,会出现一个下拉框内容选项,包括:搜索设置、语言设置、启用安全搜索功能、隐藏私人搜索结果、高级搜索等相关功能设置变更选项。因为这部分内容不是我们今天探讨的重点所以不做过多讨论。有兴趣的同学可以自己去手动调试一下,看看改变相关的设置会对谷歌搜索结果有什么不一样的影响!
影响因素三:近期的搜索行为对当前搜索结果的影响
虽然你不知道或者不在意,但谷歌搜索引擎确确实实在谷歌浏览器的作用下记录着你的搜索行为习惯和搜索历史记录。(需要注意谷歌搜索引擎和谷歌浏览器是不一样的两个东西,要注意区分!)
还记得我们最开头的那个—“哄女孩的最好办法”案例吗?当我在输入第一个“哄”字的时候,出现了一个 结果是“哄睡神器”。我一个不小心误点了它,结果当我重新退出再次输入关键词“哄”之后,下拉菜单内容中排名第一的就不是自然情况下的“哄睡故事”,而变成了“哄睡神器”了!这种微小的搜索结果改变充分证明了谷歌浏览器在记录我们的每一处搜索行为习惯和历史记录。这些东西看起来不起眼,但是对谷歌自然搜索排名还是有一定的影响的。
好了,以上就是本章关于 谷歌搜索算法 浅析的相关内容,文章废话有点多,希望同学们能够耐心看完,因为成功的魔鬼隐藏在容易被忽视的细节中!如果还有不理解的地方,没关系,解决方案如下:
QQ:3233269705
QQ群:645296397
微信公众号: