こんばんは!
T.R.Imaginationの北野です!
昨日に引き続き、今日も1日Pythonでスクレイピングの勉強を進めていました。
全7章の2章目を読んで、早くもPythonでのスクレイピングとファイル保存を体験できました!
教科書として購入した「Python クローリング&スクレイピング」のレベル感が丁度良く、楽しく進められています☆
次の内容を読み進めました。
- 第2章 Pythonではじめるクローリング・スクレイピング
- 2.1 Pythonを使うメリット
- 2.1.1 言語自体の特性
- 2.1.2 強力なサードパーティライブラリの存在
- 2.1.3 スクレイピング後の処理との親和性
- Pythonの実行速度
- 2.2 Pythonのインストールと実行
- 2.2.1 Python 2とPython 3
- 2.2.2 パッケージマネージャーによるPython 3のインストール
- 2.2.3 仮想環境(venv)の使用
- 2.2.4 インタラクティブシェルの使用
- 2.3 Pythonの基礎知識
- 2.3.1 スクリプトファイルの実行と構成
- 2.3.2 基本的なデータ構造
- 2.3.3 制御構造と関数・クラス定義
- 2.3.4 組み込み関数
- 2.3.5 モジュール
- 2.3.6 サードパーティライブラリのインストール
- 2.4 Webページを取得する
- 2.4.1 RequestsによるWebページの取得
- 2.4.2 文字コードの扱い
- 2.5 Webページからデータを抜き出す
- 2.5.1 正規表現によるスクレイピング
- 2.5.2 XPathとCSSセレクター
- 2.5.3 lxmlによるスクレイピング
- 2.6 データをファイルに保存する
- 2.6.1 CSV形式での保存
- 2.6.2 JSON形式での保存
- 2.7 Pythonによるスクレイピングの流れ
- 2.8 URLの基礎知識
- 2.8.1 URLの構造
- 2.8.2 絶対URLと相対URL
- 2.9 まとめ
- 2.1 Pythonを使うメリット
この本は、前提として他のプログラミング言語を経験している(プログラミングの基礎の知識はある)状態で読まないと、よくわからないかもしれないです。
逆に、プログラミング基礎を押さえていれば、必要なことが簡潔に書かれているので進めやすいと思います!
早くもスクレイピングしてデータ保存まで出来ました!
応用してオリジナルツールが作れるよう、ひとまず引き続きこの本を読み進めてみます!