你所不知道的PHP——爬虫系列(一)

1
Want create site? Find Free WordPress Themes and plugins.

emm,php做爬虫好像也就几种方式,今天先介绍一种基础方式——curl


curl是利用URL语法在命令行方式下工作的开源文件传输工具。它被广泛应用在Unix、多种Linux发行版中,并且有DOSWin32、Win64下的移植版本。

  • 中文名
    curl
  • 外文名
    curl(CommandLine Uniform Resource Locator)
  • 类别
    用URL语法
  • 作用
  • 适用范围

    计算机


    以上摘自百度百科

  • 目标:https://names.igopaygo.com/credit-card爬取信用卡信息并保存卡号,CVV,有效期
  • 首先,对于任何一个curl句柄,我们都应该用curl_init()来初始化,just like this
  • 循环的话,是因为我想爬取100000×5张 smile
  • 我们先抓个包
  • 我们可以看到乱七八糟的头信息(基本无用)然后我们找到post包(请不要吐槽我的xp…)
  • 当看到csrf_token的时候小小的惊讶了一下,不过多试几次发现实际上是同一个口令,没有什么实际作用
  • 可以找到how_many是5,card_format和bin_check等等乱七八糟的参数都是0。
  • 用curl_setopt来设置curl的参数
  • 其中CURLOPT_URL是设置访问的URL,CURLOPT_RETURNTRANSFER 为TRUE 将curl_exec()获取的信息以字符串返回,而不是直接输出。CURLOPT_SSL_VERIFYPEER FALSE 禁止 cURL 验证对等证书(peer’s certificate)。要验证的交换证书可以在 CURLOPT_CAINFO 选项中设置,或在 CURLOPT_CAPATH中设置证书目录。(实际上只是https的常规操作)
  • 我们来加入参数
  • CURLOPT_POST设置为 TRUE 时会发送 POST 请求,类型为:application/x-www-form-urlencoded,是 HTML 表单提交时最常见的一种。
  • 下面的参数代表用data作为post数据
  • curl_exec用于执行curl请求
  • 然后我们来写入文件,然而返回的是一个html文档,所以我加了一个正则表达式匹配.然后写入文件
  • so,well done
Did you find apk for android? You can find new Free Android Games and apps.

关于作者

一条评论

  1. Pingback: 你所不知道的PHP——爬虫系列(一) – ITPCB

发表评论