浅谈 TF-IDF 对关键词排名的影响
浅谈 TF-IDF 对关键词排名的影响
TF-IDF作为谷歌搜索引擎对关键词抓紧排名的一种算法已经被使用了很多年,但是相对来说因为其较偏重于计算性,能够真正被广告谷歌SEO优化人员或者站长掌握的还是非常少。
很多人甚至连听都没有听过这种关键词指标算法,有些人就算是听过也不会进行关键词的TF-IDF计算处理,更别提如何运用TF-IDF来进行外贸建站的关键词排布和填充,从而获得更好的谷歌自然搜索排名。那么今天Jack老师就和同学们一起来简单的分析并且实操讲解如何将TF-IDF运用到我们的谷歌SEO优化工作中。
一.TF-IDF的概念
TF-IDF分为两大部分内容,包括TF(术语频率)和IDF(反向文档频率).它的全称是term frequency–inverse document frequency.我们先来说说第一部分TF(term frequency),这个术语频率指的是单篇文章或者单个页面中的某个关键词占当前文章或者当前页面所有总词汇的比率。比方说有一篇写保温杯的文章,关键词为“insulated water bottle”,该关键词一共有56个,而这篇文章总的单词数量有2588个,那么这片文章中关键词“insulated water bottle”的TF值就是:56/2588=0.0216.这一部分内容很容易理解,那么我们升级一下难度,来了解一下难一点的IDF的计算和概念
IDF指的是含有该关键词的文档数量占谷歌数据库中所有文档数量百分比的倒数,将该值再次取对数就得到最终的IDF数值结果。这个数值的最终结果取决于含有该关键词的中文档数量的大小,因为它在计算公式中作为分母存在。对初等数学有点概念的同学都知道,分母越小,分子越大,这个值就越大。这意味着什么呢?含有目标关键词的该类文档在谷歌数据库总量中越少,那么我们就更容易获得排名。这就好比我们获得世界首富或者说中国首富的头衔太难,但是获得村里首富的机会还是比较容易的!
二.TF-IDF的示例演算
假设我们写了一篇关于保温杯的文章,其中有个关键词叫“保温杯的功能”,这里分中英文两种情况讨论。在很早之前谷歌对中文的关键词TF算法是单个字进行占比加权计算的,但是这里面会遇到一个很大的问题就是中文的词语连贯性。如果在以前,那么在拆分一句中文句子的时候应该是“保”、“温”、“杯”、“的”、“功”、“能”,然后再单独对这五个字的TF值进行计算。但是后面谷歌发现这样不仅连文章的核心内容无法正常判断还严重的消耗它的算法资源,于是谷歌重新调整了对中文内容的算法,首先对句子预判分割,然后再对词语进行TF权重计算,这时候就变成了“保温杯”+“的”+“功能”三个部分的TF权重值的总和。在经过一段时间之后,谷歌又发现,因为中文博大精深,很多词汇其实可以很简略的表达,所以类似“的”,“地”,“吗”等助词对核心意思的表达没有太大的帮助。但是在FT-IDF算法中,因为是按单个关键词占比整篇文章的关键词数量进行计算的,而像“的”这种助词出现的频率也比较高,严重的影响了TF-IDF算法对最终排名结果的准确性,所以谷歌在接下来的日子里又重新调整了对中文的TF-IDF算法,把这些助词的TF权重值取消了。明白了这个概念之后,同理的在英文文档中,谷歌也对应的删除了“a”、“an”、“the”等冠词的TF-IDF权重值。
1.TF的权重计算方法
还是刚才那个保温杯的例子,我们假设“保温杯的功能”这个关键词中,“保温杯”的出现次数是16次,“功能”的出现次数是9次,而这篇文章总的关键词数量是2168个,那么可以得到“保温杯”的TF值是:16/2168=0.0074;“功能”的TF值是9/2168=0.0042
2.IDF的权重计算方法
首先找出含有关键词“保温杯的功能”的所有谷歌文档数量为19,700,000个,假设谷歌文档总数量是1000亿,那么该关键词的IDF取值将分为两个步骤进行。首先将总文档数量除以当前查询到的含有该关键词的总文档数量:1000亿/0.197亿=5076.1421;第二步取这个值的对数:log(5076.1421)=3.7055337711
3.TF-IDF的权重计算方法
有了TF和IDF两个数值之后,我们只需要简短的算术计算将两个数值相乘即可,该关键词“保温杯的功能”最终的TF-IDF的计算结果是:0.0042*3.7055337711=0.0156
三.相关的TF-IDF工具介绍
这里放两个国外的免费FT-IDF检测工具吧,好不好用我说了不算,同学们自己去研究,有对比才能有优劣
第一个是,seobility
第二个是:Tfidftool
四.TF-IDF算法对谷歌SEO优化的意义
通过上文中的算法示例分析,外贸可以知道TF-IDF中后半部分的IDF权重值是不能由我们的意志进行改编的,它的权重值仅取决于含有某个关键词的文档数量和谷歌总文档数量。所以我们也没有必要去对这部分多操心什么。但是在前半部分的TF权重值中,我们必须而且是要引起重视的是,关键词的数量在全文中的占比,如何提供这个占比就是一个仁者见仁智者见智的过程。不要试图去堆砌关键词,这是谷歌极度不爽的一个行为。所以不要去挑战它的执法力度!我们可以尝试将文章篇幅延长的手法,来提高某个关键词在文章中的占比权重,这也是为什么谷歌乐于给较多字数内容又精彩的页面更好的排名的原因之一。但是谷歌始终是机器不是人类没有感情色彩,所以长篇幅文章之所以能够排名靠前的根本原因还是TF-IDF算法的表象体现!
好了,以上就是本章关于TF-IDF对关键词排名的影响的全部内容,如果还有不理解的地方,没关系,解决方案如下:
QQ:3233269705
QQ群:645296397
微信公众号: