齐宁:搜索引擎知识 网页查重技术
|
源代码网整理以下 对于搜索引擎来说,重复的网页内容是非常有害的。重复网页的存在意味着这些网页就要被搜索引擎多处理一次。更有害的是搜索引擎的索引制作中可能会在索引库里索引两份相同的网页。当有人查询时,在搜索结果中就会出现重复的网页链接。所以无论是从搜索体验还是系统效率检索质量来说这些重负网页都是有害处的。 源代码网整理以下 网页查重技术起源于复制检测技术,即判断一个文件内容是否存在抄袭、复制另外一个或多个文件的技术。 源代码网整理以下 1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具,寻找相似文件。1995年Stanford大学的Brin(Sergey Brin,Google创始人之一)和Garcia-Molina等人在“数字图书观”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995]。之后这种检测重复技术被应用到搜索引擎中,基本的核心技术既比较相似。 源代码网整理以下 网页和简单的文档不同,网页的特殊属性具有内容和格式等标记,因此在内容和格式上的相同相似构成了4种网页相似的类型。 源代码网整理以下实现方法: 源代码网整理以下网页查重,首先将网页整理成为一个具有标题和正文的文档,来方便查重。所以网页查重又叫“文档查重”。“文档查重”一般被分为三个步骤,一、特征抽取。二、相似度计算和评价。三、消重。 源代码网整理以下1.特征抽取 源代码网整理以下2.相似度计算和评价 源代码网整理以下Shingle算法是抽取多个特征进行比较,所以处理起来比较复杂一些,比较的方法是完全一致的Shingle个数。然后除以两个文档的Shingle总数减去一致的Shingle个数,这种方法计算出的数值为“Jaccard 系数”,它可以判断集合的相似度。Jaccard 系数的计算方法集合的交集除以集合的并集。 源代码网整理以下3.消重 源代码网整理以下 网页查重工作是系统中不可缺少的,删除了重复的页面,所以搜索引擎的其他环节也会减少很多不必要的麻烦,节省了索引存储空间、减少了查询成本、提高了PageRank计算效率。方便了搜索引擎用户。 源代码网整理以下本文首发 齐宁网络营销策划 www.qi-ning.com 转载请注明作者信息。谢谢! 源代码网供稿. |
