蜘蛛与淮北网络推广的关系
搜寻引擎蜘蛛的工作原理
想要做好淮北网络推广,就不能不从搜寻引擎原理开始,搜寻引擎主要是由网页自动索引程序+分词+索引+查询+用户体验几个机制组成。而最前端的索引工作就是我们常说的「搜寻引擎蜘蛛」的工作,蜘蛛主要负责页面的抓取制作成索引然后分词。简单来说,搜寻引擎蜘蛛就是,搜寻引擎派来抓取你网页资料回去的动作,至于后端的运算则跟蜘蛛完全无关。
蜘蛛沿着连结不断往下爬行
蜘蛛英文翻译成Web Spider,是一个很抽象的名字。深圳网络推广公司经常把网络比喻成一个蜘蛛网,那么Web Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网址与网址之间的连结来寻找网页,从网站某一个页面出发,读取网页内容,找到在网页中其它的网址往下爬行,不断循环下去,这也就是为什么外部连结的增加可以提高搜寻引擎收录速度的主要原因。
网站权重高低决定搜寻引擎收录或不收录
一个网站被搜寻引擎收录页面的多寡决定网站的权重高低,这成为seo排名人员非常重要的一个工作,接下来淮北网络推广就来看看搜寻引擎是怎么判断收录或是不收录。
对于任何一家搜寻引擎来说,要抓取网络上所有的网页几乎是不可能的事情,从目前公布的资料来看,搜寻引擎的龙头google也不过是抓取了整个网络世界40%的网页。无法完全抓取的主要原因有三个:
一、档案量太大:就目前大约已知全世界共有100亿个网页,总容量达到200000G的容量。
二、下载耗时:假设一台服务器每秒下载20K计算,需要340台机器24小时不断的下载一年,才可以把所有网页下载完毕。
三、完全搜录造成搜寻效率低下:由于资料量太大,在提供搜寻时也会有效率方面的问题。
由于以上原因,搜寻引擎蜘蛛只抓取重要的网页,而判定抓或不抓主要原因就在网站权重的判定,权重越高搜寻引擎蜘蛛就越常爬行。网站权重其中一个因素就是外部连结与内部连结的质量。
搜寻引擎蜘蛛在抓取网页的时候一般有两种方式:
广度优先:
网络蜘蛛会先抓取导览列所有网页,然后再选择其中的一个网页往下抓一整层,类似水平抓法。这是最常见的方式,主要对于新的网站或是权重较低的网站采取广度优先,因为这个方式可以让蜘蛛并行处理,提高抓取速度。
深度优先:
网络蜘蛛会从首页的第一个连结一个连结往下抓,抓到没有连结页面之后再回首页从第二个连结往下抓,类似垂直抓法。这个方法的优点在可以完整性的抓取一整个网站的资料,通常使用于权重较高内容较丰富的网站。
被爬行的连结上的关键字称为锚文字
蜘蛛会分析在这个连结上的文字即代表指向那个页面的主要内容,比如关键字是「网络营销」而当点击这个关键字之后到达的网页内容也必须是在谈网络营销相关内容的网页,当这机制形成的时候就会为「网络营销」这个关键字带来权重,相反地如果关键字跟指向内容毫无关系,那就不会取得权重分数,甚至不收录!
蜘蛛拜访网站时间长短,取决于网站权重高低
搜寻引擎蜘蛛给于同等级权重的网站收录时间是一样的,当拜访你的网站的时间假设是2分钟,蜘蛛在这两分钟内收录页面后,就会离开。这就衍生另一个问题就是虚拟主机的稳定性及网站结构的优化,虚拟主机反应速度慢当然蜘蛛爬行的速度就慢,网站结构导致蜘蛛无所适从,收录效率低自然收录的页面也就少。
网站资料更新的越快,蜘蛛来的越快
网络上一些网页是经常更新的,一些是一年半载都没有变化的,蜘蛛的特性就是你更新的速度越快蜘蛛就来的越频繁,来的越频繁收录的页面就越多。所以对于SEO优化我们要做的就是持续稳定的更新频率,收录的页面越多代表网站权重越高,网站权重高自然排名就高了。
外部连结来源越多,搜寻引擎也会来的越快,因此有人说pr值的高低等同于搜寻引擎的拜访速度,是有一定道理,但是目前无实际证据证明这个说法。