MENU
  • ブログBlog
  • プロフィールProfile
  • ポートフォリオPortfolio
  • お問い合わせContact
  • お絵描き道場drawing dojo
「社会不適合者の生き方」
くじらいどブログ
  • ブログBlog
  • プロフィールProfile
  • ポートフォリオPortfolio
  • お問い合わせContact
  • お絵描き道場drawing dojo
くじらいどブログ
  • ブログBlog
  • プロフィールProfile
  • ポートフォリオPortfolio
  • お問い合わせContact
  • お絵描き道場drawing dojo
  1. ホーム
  2. PC
  3. Googleスプレッドシート IMPORTXML関数で手軽にスクレイピング

Googleスプレッドシート IMPORTXML関数で手軽にスクレイピング

2024 11/07
PC
2024年4月11日2024年11月7日

GoogleスプレッドシートのIMPORTXML関数を使えば、XPathクエリを使用して、ウェブサイトから情報を抽出することができます。

例えば、天気情報のウェブサイトから天気予報データを取得して、スプレッドシートに自動で入力したり、ネットショッピングサイトから特定の商品の価格や評価を自動的に収集し、比較することができます。

参照した値が変わっても、1時間ごとに更新される仕様なので、再度IMPORTXML関数を入力する必要はないです。

くじらいど

IMPORTXML関数には処理時間の制限があり、大量のデータ取得には向いていません。大量のデータスクレイピングには、Pythonが向いていますが、サーバーに過度な負荷をかける短時間に大量のリクエストは、控えましょう。

目次

IMPORTXML関数の使い方

今回は例として、朝日新聞デジタルの12星座占いの一位の星座を取得してみたいと思います。

STEP
IMPORTXML関数を入力する

ツールバー右にある、Σ をクリックします。

ウェブ ▶ IMPORTXMLをクリックします。

IMPORTXML関数がセルに入力されました。

STEP
IMPORTXML関数の第一引数にURLを入力する

IMPORTXML関数に必要な情報の一番目は、URLです。

今回取得したいのは、朝日新聞デジタルの12星座占いの一位の星座なので、朝日新聞デジタルの12星座占いのページのURLを入力します。

注意したいのは、“”(半角ダブルクォーテーション)でURLを囲むことです。

STEP
IMPORTXML関数の第二引数にXPathクエリを入力する

次に、IMPORTXML関数の第二引数にXPathクエリを入力します。

第一引数で指定したURLのページ上で、取得したい値のXPathクエリを探しに行きます。

まずは、ページ上でキーボードの F12 キー を押して、デベロッパーツールを出します。

下記の画像のような状態になります。

デベロッパーツールの Elements をクリックします。

下記画像の Elements選択アイコンをクリックします。

Elements選択モードになるので、取得したい要素(今回は一位の星座)の所にカーソルを当ててクリックします。

ハイライトが点いて要素が選択されている状態になりました。

選択されている要素の ・・・ アイコンをクリックします。

Copy > Copy XPath をクリックします。これでXPathがコピーできました。

コピーしたXPathを“”(半角ダブルクォーテーション)で囲んでIMPORTXML関数の第二引数に入力します。

//*[@id=”MainInner”]/div[3]/ol/li[1]/dl/dt/a のように、XPathの中に“”(ダブルクォーテーション)が存在する場合は、“”(半角ダブルクォーテーション)を”(半角シングルクォーテーション)に変更してください。

値を取得できました。IMPORTXML関数は、第二引数までの指定でも値は取得できます。

STEP
IMPORTXML関数の第三引数にlocaleを指定する(任意)

locale

localeは、データの地域設定を指定するもので、日付や通貨、数値などの書式がその地域の慣習に合わせて解釈されます。たとえば、”en_US”はアメリカの慣習に、”ja_JP”は日本の慣習に従った表示が行われます。

指定しない場合、ドキュメントの言語 / 地域が使用されます。基本的に指定する必要がないです。

最後に

便利なIMPORTXML関数ですが、すべてのウェブサイトで機能するわけではありません。

ログインしたユーザーにのみ利用可能なページや、CAPTCHAを使用しているサイト、スクレイピング対策をしているサイトなどでは、IMPORTXML関数で値を取得できない場合があります。

PC
Google スプレッドシート
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
  • ペイント3Dで縦横比を維持したまま正方形や丸などの図形を挿入する方法
  • ペイント3Dがデッサンに最適

この記事を書いた人

くじらいどのアバター くじらいど

アラサー社会不適合者のくじらいどです。

普段は、youtubeで動画投稿やこのサイトでブログ投稿をしています。

喘息、アトピー、鼻炎持ち
教育失敗の世間知らず

自分にできることをやるだけ

関連記事

  • Google Chrome 最新バージョンに更新する方法
    2024年11月17日
  • Google Chromeで動作が遅くなる原因と対処法
    2024年10月18日
  • Googleドライブの容量を節約する方法とは?
    2024年10月16日
  • 無料で便利!定番オンラインバックアップサービス5選
    2024年10月16日
  • Windows 10 隠しファイルを表示する簡単な方法
    2024年10月15日
  • Microsoft Edgeのフィードを非表示にする方法、背景画像の変更方法、テーマ設定方法
    2024年10月11日
  • Windows10 で既定のアプリを変更する方法
    2024年10月11日
  • Windows 10 ファイルの拡張子を表示させる方法
    2024年10月9日

コメント

コメントする コメントをキャンセル

CAPTCHA

最近の投稿

  • くじランドに遊びに来てね!【くじランド】
  • ぬらりひょんとは? わしが解説する【くじランド】
  • チャンネル登録者数10人を達成しました!
  • チャンネル登録者数1人を達成しました!
  • Youtube投稿始めました!

最近のコメント

  1. 深夜セルフガソリンスタンド監視アルバイトの当たり現場と外れ現場 に Chet Garfinkel より
  2. Google Apps Script (GAS) 初回実行時のアクセス権限の承認方法 に くじらいど より
  3. Google Apps Script (GAS) 初回実行時のアクセス権限の承認方法 に tlover tonet より
  4. Google Chromeのホーム画面の背景を変更する方法(好きな画像に変更) に くじらいど より
  5. Google Apps Script (GAS) シートの値を削除する方法 に くじらいど より

アーカイブ

  • 2025年3月
  • 2025年1月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年6月
  • 2024年5月
  • 2024年4月
  • 2024年3月
  • 2024年2月
  • 2023年7月
  • 2023年6月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月

カテゴリー

  • PC
  • お知らせ
  • デザイン
  • プログラミング
  • 体験談
  • 日常
くじらいど
社会不適合者 / 趣味クリエイター
アラサー社会不適合者のくじらいどです。

普段は、youtubeで動画投稿やこのサイトでブログ投稿をしています。

喘息、アトピー、鼻炎持ち
教育失敗の世間知らず

自分にできることをやるだけ

プロフィール
目次
  • X
  • YouTube
  • Mail
  • 運営者情報
  • プライバシーポリシー
  • お問い合わせ

© くじらいどブログ.

  • メニュー
  • 検索
  • 目次
  • トップへ
目次