请选择 进入手机版 | 继续访问电脑版
您好,欢迎来到新创意SEO  

新创意SEO

 找回密码
 立即注册
新创意SEO 门户 查看主题

网络爬虫的知识

发布者: 经济好 | 发布时间: 2014-12-10 15:17| 查看数: 5887| 评论数: 0|帖子模式


1、爬虫概念
  网络爬虫(也叫网络蜘蛛),是一种自动获取网页内容的程序,爬虫抓取的网页将会被搜索引擎系统储存,进行一定的分析、过滤,并建立索引,以便之后的用户能够查询到这个页面。这个获取信息的程序就是爬虫。
  爬虫与搜索引擎的关系: 爬虫为搜索引擎收集内容,搜索引擎展示的内容大部分是爬虫收集的。
  2、爬虫分类
  根据搜索引擎来进行分类

  百度爬虫 Baiduspider

  谷歌爬虫 Googlebot

  soso爬虫 sosospider

  3、爬虫工作流程

  工作流程:爬虫通过漫游的形式进行抓取,爬虫爬到一个页面后,看到一个链接,然后顺着那个链接又爬到另外一个页面,爬虫是不停的从一个页面跳到另外一个页面的,它一边下载这个网页,网站访客QQ统计,www.qqtongji.com 一边在提取这个网页中的链接,那个页面上所有的链接都放在一个公用的“待抓取列表”里。而且爬虫有个特点,就是他在访问你网站之前,不去做判断你这个网页本身怎么样的,不对网页内容判断就抓取,但是会有优先级的划分,尽可能不抓重复的内容,尽量抓重要内容。搜索引擎同时会派出多个爬虫进行多线程的抓取,所有被爬虫抓取的网页将会被系统储存,进行一定的分析、过滤(去重),并建立索引,以便之后的查询和检索。

最新评论

回顶部