当相同或者相似度很高的文章出现在不同的网站上,权重高的网页会排名靠前,反之权重低的网页排名靠后甚至根本不收录,这就是去重的概念。索引: 经过文字提取,确定关键词,消噪,去重后,搜索引擎得到的就是独特的能反映页面主体内容的,以词为单位的内容。接下来搜索引擎索引程序会进行如下的操作。
提取关键词:按照分词程序分好的词,把页面转换为一个关键词组成的集合;记录每一个关键词在页面上的出现频率、出现次数、格式(比如关键词是否出现在标题、黑体、H 标签、锚文字等标签中)、位置(比如是否在页面第一段文字)等。
这样,每一个页面都可以记录为一连串关键词的集合。当用户在搜索引擎中输入关键词与本页匹配时,引擎会根据它的算法为你的页面进行排名处理,然后显示在搜索引擎中。
所以大家会经常看到某些网页的最下方,有人会故意放置很多的关键词,这是不但无益而且有害的。