谷歌搜索大量文件泄露,揭露排名算法内部工作原理

大量泄露的谷歌文件让我们前所未有地了解了谷歌搜索的内部情况,并揭示了谷歌用于对内容进行排名的一些重要的元素。3月 13 日,一个名为 yoshi-code-bot 的自动机器人在 Github 上发布了数千份文档,这些文档似乎来自 Google 的内部内容 API 仓库。本月早些时候,这些文档与 SparkToro 联合​​创始人 Rand Fishkin 分享。

我们已经了解了 Google 的排名算法是如何工作的,这对于能够理解这一切意味着什么的 SEO 来说是无价的。2023 年,我们通过一次泄密史无前例地了解了 Yandex 搜索排名因素,这是当年大的新闻之一。

这次 Google 文件泄露事件?这很可能成为 SEO 和 Google 搜索历史上大的新闻之一。

  • 当前:文档表明此信息截至三月是准确的。
  • 排名特征: API 文档中包含 2,596 个模块,以及 14,014 个属性。
  • 加权:文档并未具体说明任何排名特征是如何加权的,只是说它们存在。
  • Twiddlers:根据 King 的说法,这些是重新排名功能,“可以调整文档的信息检索分数或更改文档的排名”。
  • 降级:内容可能因多种原因而被降级,例如:
    • 链接与目标网站不匹配。
    • SERP 信号表明用户不满意。
    • 产品评论。
    • 地点。
    • 精确匹配域名。
  • 更改历史记录: Google 似乎会保留其曾经编入索引的每个页面的每个版本的副本。这意味着 Google 可以“记住”对页面所做的每个更改。但是,Google 在分析链接时仅使用 URL 的最后 20 次更改。

链接很重要。我知道这很令人震惊。文档显示,链接多样性和相关性仍然是关键。而且 PageRank 在 Google 的排名功能中仍然非常活跃。网站主页的 PageRank 是每个文档的考量因素。

  • 这并不能证明 Google 发言人撒谎,称链接不是“排名前 3 的因素”或链接对排名的影响较小。两件事可以同时成立。同样,我们不知道这些特征的权重是多少。

成功的点击很重要。这不应该令人震惊,但如果您想获得良好的排名,您需要根据文档不断创建出色的内容和用户体验。Google 使用各种测量方法,包括 badClicksgoodClickslastLongestClicksunsquashedClicks

此外,较长的文档可能会被截断,而较短的内容则会根据原创性获得分数(从 0 到 512)。Your Money Your Life 内容(例如健康和新闻)也会获得分数。

这一切意味着什么?金认为:

  • “如果你想继续排名,你需要使用更广泛的查询来推动更多 成功 点击,并获得更多链接多样性。从概念上讲,这是有道理的,因为非常强大的内容可以做到这一点。专注于吸引更多合格的流量以获得更好的用户体验将向 Google 发出信号,表明你的网页值得排名。”

美国对谷歌反垄断案的文件和证词证实,谷歌利用点击次数进行排名,尤其是其 Navboost 系统,这是谷歌用于排名的“重要信号之一”。

品牌很重要。Fishkin最大的收获是什么?品牌比什么都重要:

  • “如果我能为那些寻求大幅提高自然搜索排名和流量的营销人员提供一条普遍的建议,那就是:‘在谷歌搜索之外的领域,打造一个知名、受欢迎、知名度高的品牌。’”

实体很重要。Google 存储与内容相关的作者信息,并尝试确定实体是否是该文档的作者。

SiteAuthority: Google 使用一种叫做“siteAuthority”的东西。

  • 谷歌告诉我们,在 2011 年熊猫更新发布后,就存在类似的事情,并公开表示“网站部分区域的低质量内容可能会影响网站整体的排名”。
  • 然而,此后几年,谷歌一直否认拥有网站权威评分。

Chrome 数据。名为ChromeInTotal的模块表明 Google 使用其 Chrome 浏览器的数据进行排名。

白名单。几个模块表明 Google 将某些与选举和 COVID 相关的域列入白名单 – isElectionAuthorityisCovidLocalAuthority。尽管我们早就知道,当“特定算法无意中影响网站”时,Google(和 Bing)会提供“例外列表”。

小型网站。另一个功能是smallPersonalSite – 适用于小型个人网站或博客。King 推测 Google 可以通过 Twiddler 提升或降低此类网站的排名。然而,这仍是一个悬而未决的问题。同样,我们不确定这些功能的权重有多大。

其他有趣的发现。根据谷歌的内部文件:

  • 新鲜度很重要——Google 会查看署名文章中的日期(bylineDate)、URL(syntacticDate)和页面内容(semanticDate)。
  • 为了确定某个文档是否是网站的核心主题,Google 会对页面和网站进行矢量化,然后将页面嵌入 ( siteRadius ) 与网站嵌入 ( siteFocusScore ) 进行比较。
  • Google 存储域名注册信息 ( RegistrationInfo )。
  • 页面标题仍然很重要。Google 有一项名为titlematchScore的功能,据信可以衡量页面标题与查询的匹配程度。
  • Google 测量文档中术语的平均加权字体大小(avgTermWeight)和锚文本。

总结

澄清一下:关于这些文档是“泄露”还是“发现”存在一些争议。我听说这些内部文档很可能是在代码审查中意外包含的,并从 Google 的内部代码库中实时推送,然后才被发现。

来源网络

滚动到顶部
联系我们扫描二维码添加微信 关闭