策略蜘蛛爬行抓取网站后,接下来就是预处理;什么是预处理

 二维码 33
发表时间:2020-01-12 22:40作者:家禾来源:家禾建站网址:https://www.duanjiahe.com/

预处理(索引)策略蜘蛛爬行抓取网站后,接下来就是预处理(索引)

蜘蛛抓取的原始页面不直接用于查询排名处理,而是先经过预处理,为查询关键词时的排名做准备。预处理主要包括内容处理、中文分词、去重、索引和用户体验判断等方面。

1、内容处理内容处理包括提取网页文本信息、特殊文件处理、消除噪声和去停止词四个方面。

搜索引擎以文字内容为基础,预处理首先要做的就是从蜘蛛抓取的HTML文件中去除标签、程序代码,提取出可以用于排名处理的页面文字内容。

特殊文件处理:搜索引擎可以抓取以文字为基础的多种文件类型,如WordWPS。XIS、TXT文件等,但是对这些文件的排名还是依据与之相关的文字内容。

噪声是指:页面中对页面主题没有贡献的内容,如导航条、广告等,这些内容对页面主题起分散作用。消除噪声的基本方法是根据HTML,标签对页面进行分块。

去停止词:无论是英文还是中文,都会有一些出现频率很高,对内容没有影响的助词、感叹词、副词或介词等,需要去掉这些停止词。

2、中文分词是中文搜索引擎特有的步骤。中文词与词之间没有分隔符,一个句子中的所有字和词都是连在一起的,搜索引擎需要分辨哪几个字组成一个词,哪些字本身就是一个词。

3、去重搜索引擎在进行索引前还需要识别和删除重复内容。

4、索引这里所说的索引是指倒排索引,是搜索引擎所使用的索引方式。

5、用户体验判断搜索引擎以用户体验为中心,网络用户的体验对搜索引擎的排名影响越来越大。搜索引擎根据正常用户体验反馈的信息来进行用户体验判断,增加浏览的舒适度。

排名工作流程与机制

经过搜索引擎爬行抓取和预处理以后,搜索引擎就准备好让用户查询搜索了。用户在搜索框输入搜索内容以后,排名程序调用预处理数据库,计算出排名并显示给用户,排名过程是与用户互动的。搜索结果页面显示给用户之前,还要经过排名计算,以优化显示结果。

1、搜索词处理搜索词处理包括中文分词(参考预处理,此处的分词是针对搜索查询词进行处理)、去停止词、指令处理(查询词完成分词以后,搜索引擎的默认处理方式是在关键词之间使用“与”逻辑)、拼写错误矫正、整合搜索触发

2、文件匹配文件匹配是指在搜索词处理以后,找出关键词的所有文件,一般使用倒排索引。

3、初始子集的选择因为搜索引擎找到的文件太多,对文件进行相关性计算所耗费的时间太长,所以完成搜索词处理和文件匹配后还是不能进行最终排序,需要根据其他特征(最重要的是网页权重)对显示结构进行优化。所以百度会显示前76页的搜索结果,对于更靠后的页面将不再显示,也不进行计算。

4、相关性计算计算相关性是排名过程中最重要的一步,了解搜索引擎如何计算相关性对开展SEO工作非常重要。影响相关性的主要因素包括关键词的常用程度、词频及密度、关键词位置及形式、关键词距离、链接分析及页面权重五个方面。

5、排名过滤及调整搜索引擎计算相关性后,大体排名就已经确定了,但可能还有一些过滤算法,对排名进行轻微调整,其中最主要的过滤是施加惩罚。一些有作弊嫌疑的页面,虽然按照正常的权重和相关性计算排到了前面,但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。

6、排名显示排名确定后,会出现搜索结果页面。

7、搜索缓存搜索引擎会把最常见的搜索词进行缓存,以节省搜索时间,提高搜索效率。

8、查询日志搜索引攀会把用户的IP地址、搜索的查询词、搜索时间,点击过的查询结果页面形成日志。用户可以对这种跟踪式的日志进行设置,以保护个人隐私。


文章分类: SEO优化
分享到:
微信扫一扫,关注家禾建站
ABUIABACGAAg3dnl8AUox63GlQMwggI4ggI