请选择 进入手机版 | 继续访问电脑版
您好,欢迎来到新创意SEO  

新创意SEO

 找回密码
 立即注册

原创展

网络爬虫的知识

查看: 3726|回复: 0
  • 60威望
  • 582积分
  • 114帖子
    • 等级 4SEO举人
    UID
    32544
    日志
    0
    精华
    0
    在线时间
    14 小时
    个人主页
    发表于 2014-12-10 15:17:06 |显示全部楼层
    马上注册,结交更多好友,享用更多功能,让你轻松玩转新创意SEO。 立即注册  已有账号?点击登录 您也可以直接QQ登录 微博登录关闭

    网络爬虫的知识 [复制链接]


    1、爬虫概念
      网络爬虫(也叫网络蜘蛛),是一种自动获取网页内容的程序,爬虫抓取的网页将会被搜索引擎系统储存,进行一定的分析、过滤,并建立索引,以便之后的用户能够查询到这个页面。这个获取信息的程序就是爬虫。
      爬虫与搜索引擎的关系: 爬虫为搜索引擎收集内容,搜索引擎展示的内容大部分是爬虫收集的。
      2、爬虫分类
      根据搜索引擎来进行分类

      百度爬虫 Baiduspider

      谷歌爬虫 Googlebot

      soso爬虫 sosospider

      3、爬虫工作流程

      工作流程:爬虫通过漫游的形式进行抓取,爬虫爬到一个页面后,看到一个链接,然后顺着那个链接又爬到另外一个页面,爬虫是不停的从一个页面跳到另外一个页面的,它一边下载这个网页,网站访客QQ统计,www.qqtongji.com 一边在提取这个网页中的链接,那个页面上所有的链接都放在一个公用的“待抓取列表”里。而且爬虫有个特点,就是他在访问你网站之前,不去做判断你这个网页本身怎么样的,不对网页内容判断就抓取,但是会有优先级的划分,尽可能不抓重复的内容,尽量抓重要内容。搜索引擎同时会派出多个爬虫进行多线程的抓取,所有被爬虫抓取的网页将会被系统储存,进行一定的分析、过滤(去重),并建立索引,以便之后的查询和检索。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    发帖时请遵守我国法律,网站会将有关你发帖内容、发帖时间以及你发帖时的IP地址的记录保留至少60天,并且只要接到合法请求,即会将这类信息提供给有关政府机构。
    回顶部