服务与支持 |咨询热线 0931-8733767
  • 金城在线
  • 公司简介
  • 发展历程
  • 企业文化
  • 售后服务
  • 工作机会
  • 联系我们

搜索引擎的页面收录

来源:发布时间:2018-4-28 9:37:57

搜索引擎最基础的工作就是页面收录,即网站页面被搜索引擎蜘蛛程序访问、抓取以及存储。搜索引擎的数据采集能力直接决定搜索引擎可提供的信息量及对互联网覆盖的范围,从而决定搜索引擎的质量。因此,搜索引擎总是想方设法地提高其数据采集能力。


(1)   页面收录流程:搜索引擎蜘蛛收录页面主要经过三个步骤:

第一步:搜索引擎蜘蛛程序发现网站,也就是说网站首先要存在,且能够被搜索引擎蜘蛛程序发现。比如方法数码的网站(www.fangfa.net)如果要被搜索引擎收录,首先要存在而且要有内容。

第二步:从 URL 列表出发如 www.fangfa.net,蜘蛛程序对页面进行抓取、存储,包含页面的 URL、最后修改时间、抓取时间等。

第三步:获取原始页面中的链接资源,并将链接资源的 URL 加入列表中,从而获取更多的 URL。提取 URL 包含两个内容:提取域名 URL 和提取内部 URL。域名 URL 即网站首页地址,如 http://www.fangfa.net(方法数码的网站);内部 URL 即网站内部各页面的地址,如http://www.fangfa.net/service.html(方法数码的产品列表)。

网站域名 URL 及页面 URL 只有被搜索引擎收录,才能够被用户搜索到,这也是搜索引擎优化的重要工作,下面是被搜索引擎快速收录可以采取的方法:

方法一:搜索引擎为网站提供了登录入口,供网站提交域名,例如 Google 的网站登录地址是 http://www.Google.com/addurl/,可在此提交自己的网站域名,对于提交的域名列表,搜索引擎会定期进行更新。

方法二:对网站进行外部链接建设,通过在其他网站页面上建立自身网站的链接,在很大程度上可以提高页面曝光率,增加页面被搜索引擎蜘蛛程序访问的几率,从而实现页面被快速收录。

方法三:给网站建立高质量网站内部链接,因为蜘蛛程序在爬行网站页面时会通过内部链接路径爬行到其他的页面上去,加速其他页面 URL 被收录。


(2)   页面收录方式:页面收录方式是指搜索引擎采取什么样的方式对网站进行抓取,从而实现抓取到更多的页面,找出更重要的信息页面。网站的结构不同,使用的抓取方式不同,均会影响搜索引擎在同样的时间内抓取的页面数量。因此,为了增加页面被抓取的数量,需要了解搜索引擎页面收录方式,从而有针对性地建立友好的网站结构,提升网站页面收录数量。

搜索引擎页面收录方式有三种,分别是:广度优先、深度优先及用户提交。

①广度优先:搜索引擎蜘蛛程序先把整个页面的链接全部抓取一次,然后再抓取下一个页面的全部链接。广度优先的页面收录方式,网站的首页首先被蜘蛛程序抓取,然后首页中的全部链接页面被蜘蛛程序抓取,接着蜘蛛程序抓取下一级页面中的所有链接页面,直至所有页面被抓取完毕,是一种由浅层次页面向深层次页面逐渐抓取的过程。

针对这种页面收录方式,进行搜索引擎优化时要注意两点:一方面,因为浅层次的页面首先被抓取,我们应该把网站中相对重要的内容放在层次较浅的页面上。例如:将网站的热门产品或者热门新闻放在网站首页上;另一方面,网页的链接层次不能太多,如果太多会导致收录很难,一般来说,页面采取三级链接比较合适。

②深度优先:搜索引擎蜘蛛程序先从浅层页面中某一链接开始抓取,顺着该链接往深层页面继续抓取,一直抓取到最底层页面,然后再返回开始的浅层页面,开始下一个链接的抓取。不同于广度优先页面抓取方式,深度优先是一种纵向页面抓取方式。抓取网站中深层次的、隐蔽的页面,深度优先的页面抓取方式可以很好的实现这一点。

③用户提交:为了抓取更多的网页,搜索引擎还允许网站管理员主动提交页面。

网站管理员只需把网站中页面的URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎即可通过该文件对网站中的页面进行抓取及更新。因此在进行搜索引擎优化时,我们可以将网站的链接制作成网站地图,从而实现网站页面地快速抓取。


(3)    如何避免重复性收录:搜索引擎蜘蛛程序更喜欢的是网站内容的原创性,因此对于原创性的内容会给予更高的权重,而对于复制或镜像的内容,会很少进行收录或拒绝收录。由于搜索引擎会给予原创内容更高的权重,所以进行搜索引擎优化时,要尊重原创,避免复制,因为对于搜索引擎和用户来讲,只有原创的、有价值的网页内容才是最受欢迎的。


(4)   重新访问收录:虽然搜索引擎已经收录了页面,但当页面进行更新时,搜索引擎蜘蛛就需要重新访问页面进行抓取,这个分为定期抓取和增量抓取。定期抓取也称为周期性抓取,即搜索引擎周期性地对网站中己收录的页面进行全面更新,更新周期会比较长,这就导致不能及时向用户反映更新期间页面的变化情况。增量抓取只针对某些重要页面,而非所有己收录的页面,这也是为什么搜索引擎对重要页面的更新周期会更短的原因。例如,内容经常更新的页面,搜索引擎也会经常对其进行更新,从而可以及时发现新内容、新链接,并删除不存在的信息。由于增量抓取是在原有页面的基础上进行的,因此会大大缩减搜索引擎的抓取时间,及时向用户展示页面中最新的内容。


在搜索引擎优化过程中,对网站进行稳定的、有计划的内容更新,可以增加蜘蛛程序访问网站的次数,增加页面的重要性及权重,提升网站排名。


相关文章
  • 预约专家

    为您提供一对一解决方案
    立即预约
  • 售前咨询

    周一至周五9:00——17:30
    立即咨询
  • 联系方式

    13919049954

    全国7×24小时热线服务
  • 免费报价

    专属专业顾问1对1报价
    免费报价