采用tf-idf和vector Space的内容创作

网创网 • 2024年5月4日 22:44:29 • 用户投稿 • 阅读 53

我在内容创作时采用的基于tf-idf算法和vector Space模型而采用关键词密度和分别策略。一般而言，该关键词策略对谷歌有非常好的效果

在关键词分布策略的排名方面，除了站外的锚链接促进排名以外，剩余比较重要的因素就是网站内部中的密度和分布策略了。

在之前的《tf-idf算法在seo中的衍生应用》一文章中，谈到一个与密度和词频有关的算法，叫做tf-idf。很多朋友说这篇文章依然比较深，不知道如何入手。这里我们结合该一下vector Space Model模型，用实战来讲解关键词分布策略，由于Vector Space Model的复杂性，我对该模型就不做额外的介绍了，有兴趣的朋友可以自己查询。

同时为了方便我的博友查询词的权重情况，我做了一个excel表格，可以下载后自行更改查询关键词权重，找到最佳密度策略。

这里我们首先设定几个条件：

1.实战针对谷歌，因为谷歌对锚链接给予的权重比较低，方便我们做测试。

2.实战采用的“关键词分布策略”这个长尾和本页面做为案例

3.实战对比的网页是：www.***.cc/blog/lanzhouseo/keywords-fenbu/ 。该网页目前在谷歌中排名第三在不对两个网页进行任何外链促进排名的情况下，看最终排名结果（实际中上面网页中的内容已经被转发多次，积累了一定的页面权重）

4.Google的总收录量为100亿

一、分词

我们首先将该长尾区分为“关键词”、“分布”和“策略”三个词。搜索引擎中的分词方式可能与我们实际主观理解的不同。但为了讲解这个理念和进行这个实战，我们暂且将该长尾分为以上三个词。

分词后我们查询竞争对手的网页，得到词频数分别为：

关键词：40次

分布：16次

策略：5次

（注：这里推荐使用《Lynx浏览器在线版》先对页面进行html到文本的转换，然后使用ctrl+f进行查找即可方便的查询多个关键词的词频）。

二、计算权重

结合tf-idf算法我们分析出：这里我们得到了竞争对手在以上长尾中的权重总得分，为3.2286。接下来我们要对我们的关键词密度做一个优化处理。

这里我帮大家做了一个excel表格，大家可以下载。表格分上下两部分，上面部分可以填入竞争对手的情况，下面部分可以输入自己网站的情况。然后将总分值进行对比，找到符合自己网站的最佳关键词密度。

这里我略过算法部分，直接出结论：“关键词”、“分布”、“策略”这三个词，每个词出现14次，或一起出现14次，是最优密度，权重得分为4.0126，如果再多，就会出现权重下降的情况。（其实按照算法，如果一起作为一个短语出现，即使只同时出现1次，也是同样的得分。但往往我们在网页内容创作时无法做到同时出现，所以要分别计算关键词权重以及他们的总权重）。

下载：词权重查询表

三、分布

关于基于算法的策略，我们首先应该确定有几个地方必须出现：

* 标题（完全匹配出现）

* 描述（匹配出现）

* 正文第一段落（最好完全匹配出现）

* 正文最后段落

其次我们应该确定还有些地方应该出现：

* 正文自然分布（可以不完全匹配）

* 图片alt描述（完全匹配出现）

由于我是一边写作一边进行测试，现在查询了一下次数，已经全部超标。于是回头修改一下。其他朋友可以确定自己需要在文章中出现的次数，然后再进行写作，这样会容易和简单一些。

最后值得注意的一点就是，在密度方面我们要掌握好词频的上限。一般来说掌握在15次以下为佳。再多有堆砌作弊的嫌疑。

以上就是我在内容创作时采用的基于tf-idf算法和vector Space模型而采用关键词密度和分别策略。一般而言，该关键词策略对谷歌有非常好的效果（比如假象做为竞争对手的那个页面，已经排在第三）。而对于百度来讲，更注重关键词的锚文本外链。但无论如何，我们要先赢在基础和细节上。SEO本来就是一项关乎于网站细节的工作。

本文来自投稿，不代表【痞子匠】观点，发布者：【网创网】

本文地址：https://www.pizijiang.com/tougao/104767.html ，如若转载，请注明出处！

举报投诉邮箱：253000106@qq.com