今天的谷歌——目前,关于谷歌是否真的是语义搜索引擎存在很多争论。
谷歌如今向用户显示结果的方式让它看起来好像谷歌已经对搜索查询和文档有了语义理解。实现这一目标的途径很大程度上依赖于统计方法。不是基于真正的语义理解,而是基于语义结构结合统计和机器学习,谷歌接近还是仅仅语义理解。
例如,我们发现有用的语义关系
可以从搜索查询和相应结果的统计数据中或从基于 Web 的文本模式和格式化表格的累积证据中自动学习,这两种情况都不需要任何手动注释的数据。”来源: 《数据的不合理有效性》,IEEE 计算机学会,2009 年
过去的主要问题是缺乏可 whatsapp 筛查 扩展性,包括对搜索查询的手动分类。谷歌前副总裁玛丽莎·梅耶尔 (Marissa Mayer) 在 2009 年的一次采访中表示 :
“当人们谈论语义搜索和语义网时,他们通常指的是一些非常手动的东西,其中包括词语和类似事物之间各种关联的地图。我们认为您可以通过模式匹配数据、构建大规模系统来获得更好的理解水平。这就是大脑的工作方式。这就是为什么你会有这些模糊的联系,因为大脑一直在不断地处理大量的数据……问题是语言会发生变化。
网页发生变化人们表达自己的
方式发生了变化。所有这还是仅仅些因素对于语义搜索的应用效果都很重要。这就是为什么最好采用基于机器学习并改变、迭代和响应数据的方法。这是一种更为强大的方法。这并不是说语义搜索在搜索中没有任何作用。只是对于我们来说,我们确实更喜欢专注于可以扩展的事物。如果我们能够提出一个可扩展的语义搜索解决方案,我们会感到非常兴奋。目前,我们看到很多方法都接近语义搜索的智能,但是通过其他方式实现。”
在识别搜索查询或 Google 上的文 斯泰西·麦卡锡 数字学习专家 的含义时,我们所认为的语义理解很大程度上取决于统计方法(例如向量空间分析)或文本统计方法(例如TF-IDF和自然语言处理) ,因此并非基于真正的语义。但结果非常接近语义理解。机器学习的使用越来越多,例如通过自然语言处理进行实体分析,通过更详细的分析使得搜索查询和文档的语义解释变得更加容易。
机器学习或深度学习的可扩展性
对于语义系统,必须预定义类别和标签来对数据进行分类。此外,如果没有人工协助,很难识别和创建新实体。长期以来,这只能手动实现,或者参考 Wikipedia 或 Wikidata 等手动维护的数据库,这 阻碍了可扩展性 。
迈向高性能语义搜索引还 台灣數據 是仅仅擎的一步不可避免地涉及机器学习或神经网络。
谷歌对 人工智能 和 机器学习的投入 始于 2011 年,甚至在蜂鸟和知识图谱发布之前,就已启动“谷歌大脑”项目。
Google Brain 的目标是创建自己的神经网络。从那时起,谷歌一直致力于利用自己的深度学习软件 DistBelief 及其后继者 Tensor Flow和 谷歌云机器学习引擎 来扩展自己的机器和深度学习基础设施。
据谷歌称,自 2014 年以来,其深还是仅仅度学习活动几乎增加了四倍,从下面 Jeff Dean 演讲的幻灯片中可以看出。