Python クローリング&スクレイピング Vol.4 – Pythonでオリジナルツール作ってみた

こんばんは!
T.R.Imaginationの北野です!

ついにできました!

試作品ではありますが、オリジナルツールが!

ebayのSold listingの検索結果から、詳細ページのリンク一覧を取得して、詳細ページから販売された商品の情報を取得するツール!

まだまだ改善の余地はありますが、とりあえず形になりました!

教科書(Python クローリング&スクレイピング)は次の内容を読み進めました。

  • 第3章 ライブラリによる高度なクローリング・スクレイピング
    • 3.3 データベースに保存する
      • 3.3.3 MongoDBへのデータの保存
    • 3.4 クローラーとURL
      • 3.4.1 パーマリンクとリンク構造のパターン
      • 3.4.2 再実行を考慮したデータの設計
    • 3.5 Pythonによるクローラーの作成
      • 3.5.1 一覧ページからパーマリンク一覧を抜き出す
      • 3.5.2 詳細ページからスクレイピングする
      • 3.5.3 詳細ページをクロールする
      • 3.5.4 スクレイピングしたデータを保存する
      • Beautiful Soupを使った場合のスクレイピング処理
    • 3.6 まとめ