当前位置:seo外包 > SEO技巧

简而言之,搜索引擎的粒度

分类:SEO技巧  发布时间: 2020-01-07 06:55:00

  在执行SEO的过程中,我们总是遇到各种各样的问题,特别是当您成为百度SEO公司时,我们需要深入研究相关的搜索算法,因此,当我们提供相关的优化策略时,可以定位而且我们知道想要排名更高,我们需要深刻理解页面要求和特定关键字之间的搜索原理,以下文章,是早期的百度专业文档,以供参考:

简而言之,搜索引擎的粒度 第1张

  一、前言

  传统搜索引擎的定义指的是一个特定的查询(Query),可以返回与其相关的文档(Document)集合的系统。百度丰富了这个定义,那是, 搜索引擎可以帮助人们更轻松地找到他们想要的东西。这里“需要”,比“文献资料”更广泛,更丰富例如, 有关天气的查询,直接返回天气预报窗口,而不是有关天气的文件; 关于迷你游戏的另一个查询直接返回此小游戏的Flash页面,而不是简单的介绍性文本。

  百度对Query有深刻的了解,它源于自然语言处理技术的巨大作用。对于搜索引擎,文本分割是最基本,最重要的自然语言问题之一、如今,让我们谈谈文本分割粒度和搜索引擎之间的关系。

  本文的后续各章安排如下:第二部分介绍什么是文本粒度,第三部分描述了搜索引擎的基本原理与文本分割粒度之间的关系。第四部分深入讨论了粒度的属性和检索相关性的计算。第5节摘要。

  二、文字粒度

  文字的粒度是多少?我们用什么来衡量文本的粒度?在回答这些问题之前,让我们首先看一下以下几组词:

  挥之不去 崎岖, 葡萄, 乒乓

  绿茶, 篮球, 红, 鼠标垫, 起重机

  打球 跳绳 烹饪, 攀登

  笔记本电脑, 高清机顶盒 IP电视

  但, 然后, 如果, 非常

  震惊每一步, 家庭的第n个力量 一个人的美妙

  百度在线网络技术(北京)有限公司, 有限公司, 清华大学

  张学友 川昭 工藤信一 列昂内尔·安德烈斯·梅西

  ……

  在这些词组中,粒度大,哪些尺寸较小?

  无论在传统语言学领域,仍然在自然语言处理领域,没有清晰准确的粒度定义。但就搜索引擎而言,我们也可以这样定义:粒度是对文本中包含的信息量的度量。文字包含很多信息,粒度大除此以外, 它很小。有了这个原则,我们可以轻松确定文本粒度的大小。喜欢“缠绵”,“崎岖”,“葡萄”这些字,尽管它由两个词组成,但只表达一种意思,这些单词的粒度很小。和“篮球”,“鼠标垫”换句话说由简单的单词组成,虽然只有一个意义,但也可以拆分如“篮”与“球”,“鼠”与“垫”。这样的话粒度稍大。和“笔记本电脑”,“高清机顶盒”这样的话粒度更大。

  专有名称是一种特殊的单词,尽管其中包含很多单词,但是它只表达一种意思,如“步步惊心”,“家庭第n个电源”这些电影和电视节目的名称,粒度非常小。组织名称 个人名字, 等等 是具有内部结构的专有名称,略大于影片名称的粒度。

  显而易见,当我们谈论文字粒度时,理想的方法是从语义的角度来看,合理的分析和判断。然而, 我们仅对上述粒度进行了定性分析,为粒度找到合适的度量单位和计算方法,这是百度人一直追求的目标。

  三、搜索引擎的基本原理以及词汇分割之间的关系

  3.1搜索引擎的基本原理

  文字检索系统这是实现搜索引擎的最简单方法。返回包含关键字的页面,满足用户检索需求。形式表达式具有一系列关键字集K,要求返回所有包含关键字D的文档,对于D中的任何d文件,包含K中的任何关键字k。

  通常, 我们使用倒排索引来实现此系统。所谓倒排索引,是索引关键字,记录包含此关键字的文档集合D。对于所请求的一组关键字,找出所有关键字对应的索引,然后与索引相交最后, 返回同时存在于所有索引中的文档。

  在百度上我们不仅允许用户输入关键字,您还可以输入一定长度内的任何文本。此时,我们需要对文本进行一些处理,分为一系列关键字,通过这种方式, 相应的文档可以从倒排索引中找到。

  那为什么要分割输入文本,如果您不进行细分,那会是什么问题?

  我们可以想像如果您不分割输入文字,直接使用输入文字进行匹配,会发生什么?首先,结果会很小因为它直接匹配所有文本,失去灵活性,结果非常严格必须完全匹配才能满足要求; 其次,系统性能会很差,由于您需要索引所有长度的文本,这是指数的,在实际系统中是不可能实现的。考虑另一个极端吗?我们将输入文本分成单个单词,结果是什么?我们得到了很多无关的页面,不仅浪费系统性能,这也给相关计算带来了巨大压力。

  所以,我们需要对文本进行适当的分割。

  3.2用户满意度和粒度之间的关系

  无论是创建反向索引还是处理输入文本,我们都需要对文本进行细分,剪出适当的关键字。为了使用户对查询结果感到满意,搜索引擎需要什么粒度?让我们首先来看以下示例:

  1.问:“北京地图”P1:“北京地图”P2:“北京市地图”

  2.问:“太多是神马的意思”,P:”答:上帝,我不能骑这匹猛马。B:太麻烦了!”

  3.问:“兽门”P:“野兽色情”

  4.Q1:“工业区”Q2:“公园”P:“工业园”

  5.问:“IP电视”P1:“IP电视的历史”P2:“电视销售…您的IP为xxx”

  注意:Q表示查询,P表示页面内容包含Q

  情况1.需要查询才能找到诸如P1和P2之类的结果,您必须同时剪切P1和P2“北京”这个词来了。案例2必须放”什么”切成一个字,除此以外, 与P无关的结果将被调用。案例3.不能输入Q“兽门“切成一个字,并且需要删除“兽”,否则将不会被召回”野兽色情”这个结果。在案例4中,正确“工业园”这样的页面必须同时切出“工业区”与“公园”这两个重叠的词,为了确保可以同时调用Q1和Q2.Case5与Case2类似,如果您将IP和电视分开,像P2这样不相关的结果将被调用。

  以上几种情况,基本上总结了搜索引擎对细分粒度的要求,我们可以从两个方面进行描述:1)影响回忆2)影响关联性

  从用户满意度的角度来看,讨论了搜索引擎与粒度之间的关系,当然,这是最基本的要求在第四部分中,我们将对文本的粒度进行更深入的分析。

  3.3搜索系统性能与粒度之间的关系

  明显,粒径越小召回次数越多,创建倒排索引时,索引长度越长; 粒度级别越高,索引数量越多。超过一个,很久它对搜索系统的性能进行了很好的测试。

  一般来说,大型搜索引擎的索引使用分布式系统。不同文本的索引,哈希算法“分配”到达某台机器。理论上,索引数量的增加,只会导致所需机器的增长,消耗对整体系统性能的影响相对较小。因此, 通用搜索引擎将从性价比角度考虑索引数量与机器数量之间的权衡。这是召回和硬件投资之间的折衷方案。粒度分析还有助于降低性价比。在粒度级别上,当粒径逐渐变小时,我们并不一定索引所有小颗粒词,但是选择“更容易回忆起相关结果”小颗粒的单词。词汇的性质决定了“更容易回忆起相关结果”?我们还将在第4节中进行讨论。

  四、深入分析粒度的性质

  我们在第三部分中反复提到:通常,粒径越大相关性越好,召回情况更糟; 粒径越小相关性越差,召回效果更好。在搜索引擎中,如果有妥协怎么办?基本原则是在可接受的系统性能的前提下,回忆尽可能多的有效结果,在计算相关性时,将最相关的放在首位。

  我们如何合理地降低粒度,提高有效召回率,您如何在顶部排名最好?这里涉及两个问题:紧凑性和重要性。

  由于粒度是衡量文本中包含的信息量的指标,那么紧密度是描述文本中包含的信息的紧密度的量。更流行,亲密性是人们表达和接受信息的稳定程度。对于稳定性有两种解释,首先,稳定性是相对于暂时的。一般来说,如果由于某些因素临时合并了这些信息,那很不稳定那不紧。例如, 许多具有动词-宾语结构的短语(“穿过马路”,“踢足球”),固定结构的词组(“红苹果”,“豪华车”)。第二、稳定性是相对于不固定顺序的。如果消息相同,内部子信息顺序可以互换,然后词汇是不稳定的那不紧。例如, 一些大词汇量“鼠标腕垫”,“手腕鼠标垫”。

  可以看出,根据词汇的紧密程度,结果中的表达式可以与查询表达式的一致性程度相关,作为计算相关性的一个因素。相同,我们还可以将紧密度用作减小粒度的基础之一、词汇越不紧密,我们有理由将其拆分为更小的粒度。

  短语的重要性实际上这是短语子组件的重要性,有很多定义。普遍接受的定义之一是其在短语完整含义中所占的百分比。一般来说,用积极的结构短语“正”这个部分比较重要如“绿茶”中间“茶”,但是也有例外如“珊瑚”中间“珊瑚”。一般来说, 主语-动词和动词-宾语短语,更重要的是如“打球”,“你说”。所以,短语的各个组成部分的重要性,不能仅靠语法来识别,应该根据各种因素来确定。

  假设词汇的各个组成部分都很重要,然后,它可以帮助判断降低词汇粒度后语义损失的风险程度(请注意,在这里使用“语义损失”,代替“逃逸”,想一想为什么)。这也回答了第四部分末尾的问题:语义损失越小,召回相关结果的可能性更大。

简而言之,搜索引擎的粒度 第2张

  五岁以下结束语

  本文介绍了搜索引擎中的粒度问题,它着重于搜索引擎和词组细分粒度之间的关系,并进一步探讨了短语的两个重要属性——亲密性和重要性。通过本文,读者应该能够大致了解搜索引擎中的各种粒度。当然,本文只是搜索引擎粒度的开始。如何合理地处理粒径以及在不同情况下使用哪种粒径,我们需要继续深入研究。