Python クローリング&スクレイピング Vol.2 – Pythonでクローリング・スクレイピング

こんばんは!
T.R.Imaginationの北野です!

昨日に引き続き、今日も1日Pythonでスクレイピングの勉強を進めていました。

全7章の2章目を読んで、早くもPythonでのスクレイピングとファイル保存を体験できました!

教科書として購入した「Python クローリング&スクレイピング」のレベル感が丁度良く、楽しく進められています☆

次の内容を読み進めました。

  • 第2章 Pythonではじめるクローリング・スクレイピング
    • 2.1 Pythonを使うメリット
      • 2.1.1 言語自体の特性
      • 2.1.2 強力なサードパーティライブラリの存在
      • 2.1.3 スクレイピング後の処理との親和性
      • Pythonの実行速度
    • 2.2 Pythonのインストールと実行
      • 2.2.1 Python 2とPython 3
      • 2.2.2 パッケージマネージャーによるPython 3のインストール
      • 2.2.3 仮想環境(venv)の使用
      • 2.2.4 インタラクティブシェルの使用
    • 2.3 Pythonの基礎知識
      • 2.3.1 スクリプトファイルの実行と構成
      • 2.3.2 基本的なデータ構造
      • 2.3.3 制御構造と関数・クラス定義
      • 2.3.4 組み込み関数
      • 2.3.5 モジュール
      • 2.3.6 サードパーティライブラリのインストール
    • 2.4 Webページを取得する
      • 2.4.1 RequestsによるWebページの取得
      • 2.4.2 文字コードの扱い
    • 2.5 Webページからデータを抜き出す
      • 2.5.1 正規表現によるスクレイピング
      • 2.5.2 XPathとCSSセレクター
      • 2.5.3 lxmlによるスクレイピング
    • 2.6 データをファイルに保存する
      • 2.6.1 CSV形式での保存
      • 2.6.2 JSON形式での保存
    • 2.7 Pythonによるスクレイピングの流れ
    • 2.8 URLの基礎知識
      • 2.8.1 URLの構造
      • 2.8.2 絶対URLと相対URL
    • 2.9 まとめ

この本は、前提として他のプログラミング言語を経験している(プログラミングの基礎の知識はある)状態で読まないと、よくわからないかもしれないです。

逆に、プログラミング基礎を押さえていれば、必要なことが簡潔に書かれているので進めやすいと思います!

早くもスクレイピングしてデータ保存まで出来ました!

応用してオリジナルツールが作れるよう、ひとまず引き続きこの本を読み進めてみます!