ログインが必要なサイトでのスクレイピング
ログインが、うまくいかなくて嵌っている。
とりあえず自分の為に、メモ。
特徴としては下記。
・2回ログインがある
・cookieにセッションIDを持つ
・hiddenにログインの都度乱数が生成される
基本的な考え方について
基本はブラウザのリクエストヘッダと
PHPからのリクエストヘッダが合えばうまくいくという理屈で考えている。
ブラウザからのリクエストヘッダの確認の仕方
chromeでの確認方法は下記サイトを参照させてもらった。
http://marubon.info/method-confirm-http-header-2345/
1.chromeで下記にアクセス
chrome://net-internals/#events
2.「type:URL_REQUEST」で絞込み
方法
curlやfile_get_contentsで地道にやってく方法もある。