语义理解是谷歌的目标

谷歌的主要目标之一一直是获得对搜索词和索引文档的语义理解,以便显示更相关的搜索结果。例如,当人们能够清楚地理解一个(搜索)问题及其包含的术语或清楚地识别其含义时,就存在语义理解。术语的歧义、先前未知的术解是谷歌语、不明确的表述、个人理解等通常会使清晰的解释变得困难。

所使用的词语、其顺序或主题、时间或地理背景有助于更好地理解。通过机器学习(例如 Rankbrain 所使用的机器学习),谷歌现在能够快速识别搜索查询和文档中的术语和实体,并使用聚类分析自动创建新的实体类型。为向量空间分析创建新的向量空间也更加容易。本系列的后续文章将对此进行更详细的介绍。

这确保了高水平的细节以及可扩展性和性能

统计数据与机器学习相结合解是谷歌,越来越多地导致语义解释变得非常接近对搜索查询和文档的语义理解。谷歌希望利用统计方法和机器学习“重新创建”语义搜索。

此外,当今谷歌搜索引擎的核心元素“知识图谱”是基于语义结构的。

谷歌的语义搜索之路

对于语义搜索,谷歌依赖于 知识图 电报筛查 和 2013 年推出的蜂鸟更新,从而开创了语义搜索。但谷歌对开发语义搜索引擎的兴趣可以追溯到十多年前。早在 2007 年,时任搜索和用户体验主管的玛丽莎·梅耶尔 (Marissa Mayer)在接受 IDG 新闻社采访时就说过这样的话:

“目前,谷歌在 关键词方面非常擅长 ,我们认为这个限制随着时间的推移应该能够得到克服。 人们应该能够提出问题,我们应该理解他们的含义,或者他们应该能够在概念层面上谈论事物。我们看到很多基于概念的问题——不是关于页面上会出现什么词语,而是更像是“这是关于什么的?”。很多人会将语义网之类的东西作为这个问题的可能的答案。

在同一个采访中,玛丽莎·梅耶尔也明确表示,语义本身并不是“完美搜索引擎”的基础。

“话虽如此,我认为最好的搜解是谷歌索算法是强力计算和纯粹的全面性以及定性人为因素的结合。 ”

但谷歌对语义的关注早在 2007 年 科昂特·史密斯 之前就已经显现出来。看看谷歌的专利搜索就知道了。自 2000 年以来,谷歌已经签署了多项与搜索查询和文档的语义分析相关的专利,例如 从搜索查询中识别语义单元(2000 年)或 基于文档中术语之间语义距离的文档排名(2004 年)。

可以假设,自从 1998 年成立以来, 谷歌就一直致力于开发受语义影响的搜索引擎 。

谷歌首次正式 宣布 使用类语义技术是在 2009 年。由于缺乏可扩展性,完全的语义搜索是不可能的。文档的语义分析会对  应用程序的可用性和速度产生负面影响。不可能实时提供搜索结果。

知识图谱作为语义数据库

2010 年,谷歌收购了知识数据库 Freebase,该 台灣數據 数据库允许以结构化方式存储有关实体的信息。我还喜欢将 Freebase 称为 Google 能够获得结构化数据初次体验的游乐场。与此同时,谷歌开发了自己的语义数据库——知识图谱。

2012 年,谷歌推出了知识图谱,其最初由 Freebase 等收集的数据提供支持。开放项目Freebase于2014年终止,并转移到封闭项目Wikidata,后者目前是知识图谱的重要信息来源。

除了维基数据,谷歌还从维基百科中央情报局世界概况、文档抓取和自然语言处理、 Google My Business授权数据中获取数据。但在另一篇文章中我们会更解是谷歌详细地讨论这一点。

返回頂端