通用爬虫套路

通用爬虫套路

  • 准备url

    • 准备start url

      • 页码总数不确定,规律不明显
      • 通过代码提取下一页地址

        • xpath
        • 寻找url地址,部分参数在当前页面中,比如当前页码数和总页码数
    • 准备url list
      • 页码总数清楚
      • url 地址规律明显
  • 发送请求,获取响应
    • 添加随机user-agent,反反爬虫
    • 添加随机代理ip,反反爬虫
    • 在对方判断我们是爬虫之后应该添加更多的headers字段,包含cookie
    • cookie的处理可以使用session来解决
    • 准备一堆能用的cookie,组成cookie池。
      • 如果不登录
        • 准备刚刚开始能够成功请求的cookie,即接受对方网站设置在response的cookie
      • 如果登录
        • 准备多个账号
        • 使用程序获取每个账号的cookie
        • 之后请求登录之后才能访问的网站随机选择cookie
  • 提取数据
    • 确定数据的位置
      • 如果数据在当前的url地址中
        • 提取的是列表页中的数据
          • 直接请求列表页的url地址,不用进入详情页
        • 提取详情页的数据
          • 1.确定url
          • 2.发送请求
          • 3.提取数据
          • 4.返回
      • 如果数据不在当前的url地址中
        • 在其他响应中,寻找数据的位置
          • 在network中从上而下找
          • 使用chrome中的过滤条件,选择除了js,css, image之外的按钮
          • 使用chrome的serach all file,搜索数字和英文
    • 数据的提取
      • xpath,从html中提取整块的数据,先分组,之后每一组在提取
      • re,提取max_time,html等
      • json
  • 保存数据
    • 保存在本地json ,csv,text
    • 保存在数据库
煌金 wechat
扫描关注公众号,回复「1024」获取为你准备的特别推送~
  • 本文作者: 煌金 | 微信公众号【咸鱼学Python】
  • 本文链接: http://www.xianyucoder.cn/2018/09/01/tongyong-spider/
  • 版权声明: 本博客所有文章除特别声明外,均采用 许可协议。转载请注明出处!
  • 并保留本声明和上方二维码。感谢您的阅读和支持!