Puppeteerスクレイピング環境構築手順 - 自分ブログ

Puppeteerを使ったスクレイピングの学びポイント

Puppeteerを使ったスクレイピング環境構築と動作確認(詳細手順)

概要

この記事では、Puppeteerを使用したスクレイピング環境を構築し、動作確認を行う手順を解説します。特に初めての方でも理解しやすいよう、つまずいたポイントや解決方法を詳しく説明します。


1. 必要なツールと環境

1.1 インストールするもの

  • Node.js: JavaScriptランタイム。
  • npm: Node.jsに付属するパッケージマネージャー。
  • Puppeteer: Google Chromeを操作するためのライブラリ。
  • Chromeブラウザ: Puppeteerが操作するブラウザ。

1.2 作業環境


2. 初期設定手順

2.1 Node.jsのインストール

  1. Node.js公式サイトからLTSバージョンをダウンロードし、インストールします。
  2. インストール後、PowerShellで以下のコマンドを実行し、バージョン確認:
    node -v npm -v
    結果: バージョンが表示されれば成功。

2.2 Puppeteerのインストール

  1. プロジェクトディレクトリを作成します。
    mkdir "C:\Users\suui1\Document\Poject\java\bolt_scraper" cd "C:\Users\suui1\Document\Poject\java\bolt_scraper"
  2. Puppeteerをインストール:
    npm install puppeteer@latest
    注意点:
    • エラーが出た場合はキャッシュをクリア:
      npm cache clean --force

3. Puppeteerの動作確認

3.1 テストコード作成

  1. scraper_test.jsを作成し、以下のコードを記述:

    import puppeteer from 'puppeteer'; (async () => { const browser = await puppeteer.launch({ executablePath: 'C:\\Program Files\\Google\\Chrome\\Application\\chrome.exe', }); const page = await browser.newPage(); await page.goto('https://example.com'); console.log('Page title is:', await page.title()); await browser.close(); })();
  2. ファイルをプロジェクトディレクトリ内に保存:

    C:\Users\suui1\Document\Poject\java\bolt_scraper\scraper_test.js

3.2 スクリプト実行

  1. PowerShellで以下を実行:
    cd "C:\Users\suui1\Document\Poject\java\bolt_scraper" node scraper_test.js
  2. 期待される結果:
    csharp
    Page title is: Example Domain

つまずいたポイント:

  • requireが使えないエラー:ESモジュール環境下ではimportを使用。
  • scraper_test.jsが見つからないエラー:ファイルの場所と拡張子を再確認。

4. キャッシュ削除と修正

  • キャッシュ削除:
    Remove-Item -Recurse -Force C:\Users\suui1\.cache\puppeteer
  • Puppeteerが自動でダウンロードしたブラウザを使用できない場合、ローカルのChromeパスを指定。

5. 動作確認後の後始末

  1. テスト用ファイル(scraper_test.js)は削除して問題ありません。
    Remove-Item scraper_test.js
  2. 必要に応じて、Boltが生成したスクレイピングコードの実行に進みます。

6. 学びポイント

  • エラーの種類と対処法:
    • ESモジュール対応の方法。
    • キャッシュ削除で解決した事例。
  • 動作確認の重要性:
    • 環境設定が正しいか確認しながら、一歩ずつ進める。

まとめ

これでPuppeteerを使ったスクレイピング環境が完成しました。この手順を基に、次は実際のスクレイピングコードの作成に進めます。特に初心者の方は、一つずつ動作確認を行い、エラーが出たら原因を特定することを意識してください。