西安网站SEO优化公司-什么是搜索引擎爬虫?
2019-08-04 来自: 陕西印象信息技术有限公司 浏览次数:5002
搜索引擎的工作原理,讲求提高网站与其友好性,因此,在网站优化中,SEO的每一步操作,都与搜索引擎机制有着必然的联系。对新手来说,先要对其原理进行渗透,我们可以通过逆向推理获取我们先要知道的答案,至少我们要从原理出发,那么才知道我们所做的什么操作有什么样的意义。
一、什么是搜索引擎爬虫?
索引擎蜘蛛也称之为:页面爬虫,其目的:抓取各类网站的高质量内容进行展现,那么每个搜索引擎都有自己的爬虫,我们来进行相关的了解!
1. Baiduspider(百度蜘蛛)百度公司还有其它几个蜘蛛:Baiduspider-news(新闻)、Baiduspider-mobile(wap)、Baiduspider-image(图片)、Baiduspider-video(视频),站长经常见到的是Baiduspider和Baiduspider-image。
2. Googlebot(谷歌蜘蛛)还发现一个Googlebot-Mobile,看名字应该是抓取wap内容的。
3. 360Spider(360蜘蛛)它是一个很“勤奋抓爬”的蜘蛛。
4. Sogou News Spider(搜狗蜘蛛)
二、搜索引擎工作原理
SEO可以把其原理分为三个阶段:
1、爬行和抓取
2、预处理(建立索引)
3、输出结果
这里也就是说,当搜索引擎蜘蛛在抓取我们网站之后,是否给予展现,就需要进行预处理,决定页面是否进行展现,那么其中的影响因素有:
(1)文章质量度
(2)关键词布局
(3)蜘蛛抓取深度
(4)网站质量
(5)搜索引擎信任度
(6)网站层级
(7)URL设置是否规范
这里,并没有按照顺序为大家进行排列,但是也足以说明,影响页面是否被收录给予良好的展现,主要还是取决于站长自身对网站的整体感,以及对网站基础的设置等因素有***的关联。
三、蜘蛛爬行和抓取原理
还是要为大家对于蜘蛛抓取这个重要环节,进行一个详细的说明,毕竟这是站长做SEO优化,比较核心的部分,毕竟网站需要有***的展现量才能获取***的排名。
当搜索引擎通过蜘蛛发现链接时,根据网站的质量度决定蜘蛛抓取频次以及次数,然后蜘蛛便会去访问我们的网站,从而获取我们的HTML代码存入数据库之中。
1、那么Spider(蜘蛛)抓取网页的具体流程有哪些?
答:发现某一个链接 → 下载这一个网页 → 加入到临时库 → 提取网页中的链接 → 在下载网页 → 循环。
1)预处理(建立索引)
蜘蛛(***术语:索引程序)对抓取来的网页内容要进行关键词提取、生成倒排索引、页面PageRank值及TrustRank值计算、页面关键词相关性等处理,以备排名程序调用,这也是搜索引擎能在极短时间内返回搜索结果的关键,其中我们***关心的是PR值和相关性。
2)输出结果
用户输入关键词后,排名程序调用索引库数据,程序自动匹配关键词,然后按***规则生成搜索结果展示页面,这是因为前面的预处理,搜索引擎才能够在很短的时间内返回输出结果,这里特别要提醒一下,自然搜索排名和竞价推广排名是有区别的。