Want create site? Find Free WordPress Themes and plugins.
emm,php做爬虫好像也就几种方式,今天先介绍一种基础方式——curl
-
中文名curl
-
外文名curl(CommandLine Uniform Resource Locator)
-
类别用URL语法
-
作用
-
适用范围
计算机
以上摘自百度百科
- 目标:https://names.igopaygo.com/credit-card爬取信用卡信息并保存卡号,CVV,有效期
- 首先,对于任何一个curl句柄,我们都应该用curl_init()来初始化,just like this
- 循环的话,是因为我想爬取100000×5张
- 我们先抓个包
- 我们可以看到乱七八糟的头信息(基本无用)然后我们找到post包(请不要吐槽我的xp…)
- 当看到csrf_token的时候小小的惊讶了一下,不过多试几次发现实际上是同一个口令,没有什么实际作用
- 可以找到how_many是5,card_format和bin_check等等乱七八糟的参数都是0。
- 用curl_setopt来设置curl的参数
- 其中CURLOPT_URL是设置访问的URL,CURLOPT_RETURNTRANSFER 为TRUE 将curl_exec()获取的信息以字符串返回,而不是直接输出。CURLOPT_SSL_VERIFYPEER FALSE 禁止 cURL 验证对等证书(peer’s certificate)。要验证的交换证书可以在 CURLOPT_CAINFO 选项中设置,或在 CURLOPT_CAPATH中设置证书目录。(实际上只是https的常规操作)
- 我们来加入参数
- CURLOPT_POST设置为 TRUE 时会发送 POST 请求,类型为:application/x-www-form-urlencoded,是 HTML 表单提交时最常见的一种。
- 下面的参数代表用data作为post数据
curl_exec用于执行curl请求- 然后我们来写入文件,然而返回的是一个html文档,所以我加了一个正则表达式匹配.然后写入文件
- so,well done
Did you find apk for android? You can find new Free Android Games and apps.
一条评论
Pingback: 你所不知道的PHP——爬虫系列(一) – ITPCB