当搜索引擎蜘蛛进入到一个网站(如果是一个单个的网页则不要管这一步)后,第一时间是查找网站根目录下的robots.txt文件,这个文件是向蜘蛛表明哪些网页它可以去,哪些网页是不需要它去收录的文件,它将严格依照这个文件的规定。
然后它会查找这个网站下的网站地图,即sitemap文件,看看如何去收录这个网站,那当然,你的网站中如果没有这两个文件,对搜索引擎将是不利的(如何制作这两个文件,在我们后面的SEO优化课程里将会有详细的讲解)。
当搜索引擎进入到网页后,会先查找网页的title和H1标签和keywords和description标签,所以我们要保证这四个标签的关键词的高度统一;提取文字。
搜索引擎的抓取是以文字内容为基础的,所以,从优化的角度出发,动画网站,Javascript 的代码,图片内容是不能被引擎抓取的,对优化网站是不利的。”提取文字”是指搜索引擎先从HTML 文件中去掉标签,程序,提取出可以用于页面排名处理的文字内容。