Google RankBrain 算法于2015年4月上线,但直到2015年10月通过彭博新闻报道才被引入世界。这是本文当时对RankBrain的描述:

Google RankBrain算法的完整指南-聚企网络科技

“ RankBrain使用人工智能将大量书面语言嵌入计算机可以理解的数学实体(称为向量)中。如果RankBrain看到不熟悉的单词或短语,则机器可以猜测哪些单词或短语可能具有相似的含义,并相应地过滤结果,从而使其更有效地处理前所未有的搜索查询。”

RankBrain是Google在搜索结果中使用的唯一实时人工智能(AI)。虽然Google使用机器学习来教授算法,但并没有在野外使用AI,这是有充分理由的。如果搜索失败,Google的工程师将不知道如何解决它。

但是,RankBrain用于对实时搜索结果进行排序,以帮助用户最适合其搜索查询。

RankBrain作为排名信号

RankBrain被称为Google第三重要的排名信号 (在内容和链接之后)。

但是RankBrain 真的是一个“排名信号”吗?

并不是的。至少不以我们认为传统排名信号的方式。

RankBrain是一种处理搜索查询的方法,可以推断出Google未知查询的“最佳匹配”。

Google每天处理的查询中约有15%是新查询,也就是说,以前没有人使用这些确切的词进行过搜索。

怎么会有这么多未知查询?缠绕大脑是一个很难的概念。

但是,如果您考虑一下我们谈论一个人,一个地方或事物的所有不同方式,您会很快发现,即使有一个简单的问题,也可能有数百万种方式提出。随着智能手机在语音到文本上的表现越来越好,而仅语音的设备进入家庭,这将有可能甚至呈指数级增长。

因此,用最简单的术语来说,RankBrain是一种处理算法,它在不确定该查询“意味着”什么时,使用机器学习将最匹配的查询带回您的查询。

起初,RankBrain仅出现在少数Google查询中(约15%)。但是,随着时间的流逝,它已经扩展并涉及几乎所有输入到Google的查询。

话虽如此,如果Google确信查询意味着RankBrain的影响很小。只有当Google不确定查询的含义时,RankBrain才会为您提供帮助。

Google“知道”查询集意味着什么?

当Google推出Hummingbird并从“字符串到事物”转变时,它通过使用页面内和页面外因素,从将匹配项推断为您的搜索查询,而通过播种种子来理解人,地方和事物之间的关系。具有已知关系的算法。

首先,这部分是由名为Freebase的数据库确定的。然后Google使用了WikiData。现在,他们大部分时间使用数据馈送的机器学习。

这是如何运作的?

这意味着,您不是从优化信号(例如入站链接锚文本和H1标签)中确定关于“红苹果”的文章而是关于“红苹果”的信息,而是已经知道,一个红苹果是一种圆形的可食用水果,其颜色被称为“红色”。 。

数据库告诉Google,这个字符串实际上是一个叫做“红苹果”的东西。然后,Google可以撤回“红苹果”一词的所有最佳匹配结果。

但是,也许您的意思是“红苹果”,就像在“红苹果计算机”中一样。如果Google不确定您是在说“苹果水果”还是“苹果计算机”,它可能会在查询集中抛出一些替代结果。

因此,您可能会得到8个与水果相关的结果和2个与计算机相关的结果,而不是10个与水果相关的结果,反之亦然。

这就是Google RankBrain最基本的工作方式。

RankBrain何时会严重影响查询结果?

RankBrain会影响所有语言和所有国家/地区的查询。

当查询唯一且未知时,RankBrain最常出现在“播放”中。

例如,在宣布RankBrain之前,我写了一篇文章,讲述我在自己的Google搜索中观察到的事情。

它始于当我在加利福尼亚干旱期间搜寻内华达州的水权信息时。(我们与他们共享一条河)。当我查看克拉克县或拉斯维加斯的水权时,谷歌上有很多与此主题相关的信息。但是,当我搜索Mesquite NV的水权(位于北面90英里的城镇)时,我找回了水权部门,却没有得到与水权相关的任何内容。取而代之的是,我在豆科灌木树,豆科灌木木材,豆科灌木烧烤薯条等页面上找到页面。

当时我不知道它叫什么,只是它存在。但是,这就是我们现在所知道的,RankBrain完全发挥作用的结果。

为什么?因为Google不知道“事物或地方”豆科灌木林与“事物”水权之间的关系,所以它发回了结果的“厨房汇”。

“最佳猜测”厨房水槽的想法是,随着时间的流逝,Google将了解与该查询最匹配的内容。

如果您已经进行了足够长的搜索,您可能会记得何时进行搜索,而Google会向您显示该搜索在搜索中实际使用的单词(尽管您输入了什么内容)。这是RankBrain的前身。

Google RankBrain不是什么

到现在为止,我们已经用一般的,非特定的,外行的术语讨论了RankBrain。

那么幕后到底发生了什么呢?

RankBrain不是自然语言处理器,也称为NLP。

NLP是搜索的圣杯,计算机可以在其中分解完整的句子并从用户的句子结构和语言学角度了解用户的意图。

单词可以推断出其他单词的含义,并且NLP可以通过类似于人类的方式来理解语言,尽管它可以通过不同的过程进行。

尽管RankBrain向着这个最终目标迈进了一步,但RankBrain不能仅从语言基础上从搜索中推断出含义。

RankBrain需要一个关系数据库,以及类似查询之间的已知关系向量,以拉回最佳猜测。当无法理解查询时会进行推断,但是返回的结果仍基于该数据。

那么RankBrain实际上如何工作?

RankBrain使用了一系列基于人物,地点和事物(也称为实体)的数据库来播种算法及其机器学习过程。

然后使用数学公式将这些单词(查询)分解为单词向量,为这些单词提供“地址”。相似的词共享相似的“地址”。

Google处理未知查询时,会使用这些数学上映射的关系来假定最适合该查询,并返回多个相关结果。

随着时间的流逝,Google会根据用户互动和机器学习来优化结果,以改善用户搜索意图与Google返回的搜索结果之间的匹配度。

重要的是要注意,搜索引擎曾经扔掉的单词“ and”或“ the”不在RankBrain的分析中。RankBrain还可帮助更好地理解查询以提供最佳搜索结果,特别是对于面向否定的查询,例如使用诸如“不”或“不”之类的词的查询。

另外,如The Next Web所述:

“ RankBrain将搜索查询的文本内容转换为“单词向量”,也称为“分布式表示形式”,每个词在数学空间中都有唯一的坐标地址。在这个空间中彼此接近的向量对应于语言相似性。”

在数学级别上涉及的过程要多得多,但是在过程摘要级别上,它并不过分复杂。

单词进入。单词被分配一个数学地址。根据您的查询及其位于“最佳匹配”向量中的单词来检索单词。

这些词“解释”用于返回结果。

在幕后,数据被连续输入到机器学习过程中,以使下一次结果更加相关。

从表面上看很简单,但在微观上却非常复杂和困难。

您可以针对RankBrain进行优化吗?

Google的Gary Illyes告诉我们,只需编写自然的代码,就可以针对RankBrain进行优化:

“对RankBrain进行优化实际上非常容易,而且我们可能已经说了15年了,而且-建议是-用自然语言编写。尝试写听起来像人类的内容。如果您尝试像一台机器一样编写,那么RankBrain只会感到困惑,并且可能会将您推后退。

但是,如果您有内容网站,请尝试朗读一些文章或您撰写的任何内容,并询问人们听起来是否自然。如果听起来像是对话,如果听起来像我们在您的日常生活中会使用的自然语言,那么可以肯定的是,您已针对RankBrain进行了优化。如果不是这样,则说明您“未优化”。”

但是,如果您始终在编写优质的内容,那么您可能会问您还能做什么?有什么可以给你这个“优势”?您如何优化此“排名信号”。

这个问题的答案不是答案,而是另一个问题:

你为什么要尝试?

RankBrain对于某些独特的用例可能是有益的。但是,对于大多数网站而言,您将花费时间和精力尝试为Google未知的查询(这意味着没人在使用它)进行排名,这会花费在其他事情上。

因为您不仅要尝试针对很少有人使用的查询进行优化,而且它还在不断变化。

RankBrain结果旨在更改并带回更好的结果。因此,对其进行优化就好像一直试图达到一个移动的目标一样。