我发现,一个主要实体(例如个人或公司等顶级实体)可以分配给各种子实体(例如网站、内容或应用程序),这是 Cindy 贡献中最令人兴奋的推动力。这种方法也可以在 2013 年的 Google 专利《 基于节点独立性的链接数据库中的排名节点》中找到。它指出:
从多个节点中生成一个或多个关联节点簇,
其中,每个附属节点簇的附属节点是以下一个或多个:
以下专利插图更清楚地说明了其含义:
元素 415 和 410 表示 电报数据 不同节点(例如文档或网站)的集群。这些集群是基于节点之间的链接形成的,或者当节点明确处于同一组织或实体的控制之下时形成的。
换句话说, 当所有节点都由单个实体控制的可能性很高时,排名组件340可以确定应该对多个节点进行聚类。
对节点进行聚类的决定性标准可以是作者身份、图形结构、内容的相似性、手动指定的信息(例如元数据)。通过这种方式,可以将单个帖子和其他内容格式、域、应用程序等元素分配给公司或个人等实体。也可以提供 WHOIS 信息,但在 GDPR 下这不再那么容易。
由于实体在每个国家和每种语言 克里斯蒂娜阿拉贡 助理主管 中的含义几乎相同,因此基于实体的索引在效率方面具有很大的优势。狮子在英国和德国的含义相同。只有名称根据国语而不同。 Löwe(德语)、lion(英语)、leon(西班牙语)……在每个国家和每种语言中都有相同的含义。
这与意义有关,与语言无关。这将使谷歌更容易解释语言。一旦 Google 理解了实体背后的含义,它就能够用任何语言识别。
例如,对于知识图谱,无 台灣數據 论输入的是 lion、löwe 还是 leon,Google 都可以用相应的用户语言提供实体的描述。这是一个很大的优势,特别是在谷歌还没有涉足的语言领域。 Cindy 的文章中对此进行了一些有趣的测试。
对于图像搜索来说这也是一个很大的优势。这样,无论使用什么语言,Google 都可以针对搜索查询 löwe、lion、leon… 提供相同的图片选择。尤其是图像,图像来自德语、英语还是西班牙语网站通常并不重要。
但这显然还不起作用。这也可能是因为谷歌在图像识别方面的技术还没有达到他们所希望的那么先进。图像识别仍然过于依赖文本环境、标题和 alt 标签等信息。并且这些信息通常采用图像源的语言。
基于实体的索引的挑战
我认为我们只是慢慢地开始看到对 SERP 的影响,因为 Google 很难理解单个实体的含义。对实体的理解是根据相关性自上而下的。最相关的实体记录在 Wikidata 或 Wikipedia 中。
最大的任务是识别和验证那些鲜为人知的实体。看看接下来会发生什么将会很有趣。目前还不清楚谷歌会检查哪些标准来将实体纳入知识图谱。
根据我向 John Müller 提出的问题,应该会发生一些事情,或者他们正在研究一种更简单的方法来为每个人创建实体。