什么是基于实体的索引?

在我详细介绍专利中描述的围绕实体组织内容的过程之前,我想简单描述一下基于实体的索引实际上是什么。

在经典的信息检索或文档检索中,内容被分为主题簇,主要基于内容/文档中使用的术语等。对于与相应集群匹配的某些搜索查询,随后将考虑对文档语料库中总结的文档进行后续评分,从而得出排名。

在语义搜索中,实体位于组织结构层次的顶部。这种索引组织的一大优势是,Google 和其他语义搜索引擎不仅可以对属性和文档进行语义排序,还可以对所有相关实体周围的其他媒体内容(如图像、视频、音频等)进行语义排序。

这意味着,如果需要,可以向执行实体相关搜索查询的用户显示有关相关实体的附加内容。

实体相关媒体的组织流程

Google 专利“按类别组织 电报数据 内容呈现的方法、系统和媒体”描述了将内容或媒体分配给基于实体的索引中的类别的过程。

列出了以下步骤:

  1. 搜索引擎收到针对有关主要实体的内容页面的搜索查询。
  2. 根据用户的搜索行为确定第一组相关实体。
  3. 已确定了许多与主要实体相关的属性。
  4. 对于每一个属性,都会识别出第二组次要实体。
  5. 这些属性中的每一个都会根据相关实体集(根据用户的搜索行为识别)和该属性的第二组次要实体获得一个分数。评级分数表示搜索者对相应实体的内容感兴趣的概率。
  6. 搜索引擎根据每个用户的评分确定属性组的子集。
  7. 确定内容项组中的内容项子集。
  8. 内容元素显示在用户的设备上。

例如,可以通过视频标题或图 帕梅拉·佩纳 首席秘书 像周围的文本或 alt 属性中提到的实体将媒体内容分配给类别和/或实体。我们已经在 Google 图片搜索中发现了这样的分类

搜索引擎可以根据用户个人偏好的媒体内容和/或实体的总体受欢迎程度等来评估为特定主题或实体选择哪些内容元素或媒体类型。这与 Google 选择在知识面板中显示的属性值对的过程类似(请参阅文章Google 如何创建知识面板和知识卡?)。

使用知识图谱,该过程不仅允许将内 台灣數據 容分配给实体和/或类别,而且还允许与所有其他相关实体建立交叉连接。

除了一般信息外,还可以根据用户的搜索行为显示单独的媒体内容。这里,谷歌可以参考以下因素,例如:

  • 用户的搜索查询
  • 用户在同一会话中通常使用的内容
  • 其他类型的搜索行为

这也使得在 Google Discover 等推荐引擎中以用户特定的方式实现单独的输出成为可能。

应用示例

例如,如果主体实体是虚构人物,则内容集可能包括:

  • 描绘了虚构人物的电影。
  • 饰演虚构人物的演员。
  • 其他合适的特性。
  • 一组相关实体
    • 符合电影特点
    • 其中虚构的人物被描绘
    • 包含每部电影的名称。

然后可以使用它来识别与相关实体组中的实体相关的内容元素。

可能的内容元素和媒体格式

例如,在已知实体集合中的实体包括虚构人物出演的电影名称的情况下,内容项可能包括:

  • 电影片段
  • 电影配乐
  • 其他合适的内容元素
  • 搜索引擎可以识别与第一个实体相关的属性

例如,可以识别一组候选属性。可以根据每个属性与主实体的相关程度来确定候选属性集的子集,这取决于每个属性对搜索者的兴趣程度(参见上文)

返回頂端