大连网站设计小编解析搜索引擎如何处理收集到的网页数据
发布时间:2018-09-30
我们都知道搜索引擎的作用,也都在使用搜索引擎进行日常的学习工作,不过大家有想过搜索引擎是如何处理我们提交的数据吗?在搜索引擎原理中,搜索引擎工作流程从大的方面有三点:数据采集、数据预处理、查询服务,这里大连网站设计小编和大家分享一下数据预处理。感兴趣的朋友可以来看看! 在我们所述的“数据预处理”就是主要包含四个方面:关键词提取,“镜像网页”以及“转载网页”的消除,链接分析和网页重要程度的计算。
关键词提取: 1)在每一章网页,包含了大量的和主题内容无关的内容,像版权说明等等,关键词提取的任务,就是要提取出网页源文件的内容部分所含的关键词。提取的方法:一般类似与切词,将内容切成多个词组成的数组,再取出“在”“的”等无意义的词组,确定终的关键词。 重复或转载网页的消除: 1)天网的2003统计发现:网页的平均重复率为4,到目前的2015年,这个数字肯定已经破10。对于网名来说,拥有了更多访问有用信息的机会,对搜索引擎来说,浪费了大量的搜集网页的时间,以及网络宽带资源。具体实现方法,以后再讲。 链接分析: 1)链接分析中有提到两个概念,词频(TF):该关键词在关键词提取之后的关键词集合中的出现频率; 2)搜索引擎可以通过HTML文本标签,来确定关键词的重要性;指向其他文件的链接,来判断 3)文件频率(DF):该关键词在所有文件中的出现频率,在所有文件中,该关键词在多少文件中出现; 网页重要程度的计算: 1)判定重要性的方法:人们通过参考文献重要性的评估方式,其核心就是–“被引用的多的就是重要的”。这种方式,恰好在HTML中超文本链接完美体现,谷歌的PR值(引用该页面的页面概述和引用该页面的页面重要程度)就是完美展现(博主联想:发外链就是该算法的完美体现)。(PageRank算法) 2)和先进点出现的不同的地方在于,某些页面是被大量的指向其他页面,某些页面被其他页面大量引用,形成对偶的关系,于是HITS算法出现。(HITS算法) 3)搜索引擎需要将用户索引的结果,以列表的形式,展示给客户,并且在展示中满足用户的搜索需求,因此“网页重要程度”的概念出现了。 如果你是正在做SEO优化,大连网站设计小编还是建议你多看看,我们的关键词和搜索引擎也有着密切的联系,不懂的地方欢迎大家踊跃给小编留意,小编很乐意为大家解惑!