Google Hacking入門:検索エンジンを使った情報収集とその対策

セキュリティ

Google検索の力を理解し、セキュリティリスクに備える

Google Hackingとは? 🤔

Google Hacking(グーグルハッキング)、またはGoogle Dorking(グーグルドーキング)とは、検索エンジンGoogleが提供する高度な検索機能(検索演算子)を駆使して、通常の検索では見つけにくい情報や、意図せず公開されてしまった機密情報、システムの脆弱性などを探し出す技術のことを指します。

この技術は、Googleがインターネット上の膨大な情報を収集・インデックス化する能力を利用しています。Googleのクローラー(情報を収集するプログラム)がアクセスできるウェブページの情報は、検索可能になるため、設定ミスや不注意によって公開された情報も発見できてしまう可能性があります。

「ハッキング」という言葉が含まれていますが、Google Hacking自体はGoogleの検索機能を利用するものであり、技術そのものが直ちに違法となるわけではありません。実際、セキュリティ専門家や研究者は、自社のシステムやウェブサイトの脆弱性を発見し、対策を講じるためにこの技術を正当な目的で利用しています(ペネトレーションテストや脆弱性診断の一環)。

しかし、悪意を持った攻撃者がこの技術を悪用すると、不正アクセスの足がかりとなる情報を収集したり、公開すべきでない機密情報(個人情報、ログイン情報、設定ファイルなど)を盗み見たりする可能性があります。許可なく他者のシステムに対して脆弱性を探る目的でGoogle Hackingを行うことは、不正アクセス禁止法などの法律に抵触する可能性があり、極めて危険です。⚠️

この技術の概念は、2002年に米国のセキュリティ専門家ジョニー・ロング氏が「Google検索は悪用することもできる」と具体例と共に発表したことで広く知られるようになりました。これを機に、セキュリティコミュニティ内で情報共有と対策の重要性が認識されるようになりました。

Google Hackingの仕組み:検索演算子(Google Dorks)

Google Hackingの核となるのは、「Google Dorks」と呼ばれる特殊な検索演算子です。これらをキーワードと組み合わせることで、検索結果を高度に絞り込むことができます。以下に、代表的なGoogle Dorksとその使用例を紹介します。

基本的な演算子

演算子 説明 使用例
"キーワード" キーワードと完全に一致するフレーズを検索します。
"confidential document"
OR または | 複数のキーワードのいずれかを含むページを検索します。
admin OR administrator
- (マイナス記号) 特定のキーワードを除外して検索します。
jaguar speed -car
* (アスタリスク) 任意の単語やフレーズを表すワイルドカードとして機能します。
"how to * a computer"
( ) (括弧) 複数の演算子やキーワードをグループ化して、検索の優先順位を指定します。
(admin OR administrator) site:example.com

高度な演算子

演算子 説明 使用例
site: 指定したドメインやサブドメイン内のページのみを検索します。特定のウェブサイト内を調査する際に非常に役立ちます。
site:example.com login
filetype: または ext: 指定したファイル形式(拡張子)のファイルのみを検索します。機密情報が含まれがちなPDF、Excel (xls, xlsx)、Word (doc, docx)、設定ファイル (config, conf, ini)、ログファイル (log)などを探すのに使われます。
site:example.com filetype:pdf confidential
inurl: URL内に指定したキーワードが含まれるページを検索します。ログインページ(例:admin, login, portal)、設定ページ(例:config, setup)、特定のディレクトリ(例:uploads, backup)などを探すのに有効です。
inurl:admin site:example.com
allinurl: URL内に指定した複数のキーワードがすべて含まれるページを検索します。
allinurl:employee login portal
intitle: ページのタイトル(HTMLの<title>タグ内)に指定したキーワードが含まれるページを検索します。「Index of」を含むタイトルは、ディレクトリリスティングが有効になっている可能性を示唆します。
intitle:"index of" site:example.com
allintitle: ページのタイトルに指定した複数のキーワードがすべて含まれるページを検索します。
allintitle:admin login panel
intext: ページの本文(表示されるテキストコンテンツ)に指定したキーワードが含まれるページを検索します。エラーメッセージや特定のソフトウェア名、パスワードなどの文字列を探すのに使われます。
intext:"login failed" site:example.com
allintext: ページの本文に指定した複数のキーワードがすべて含まれるページを検索します。
allintext:username password email
cache: Googleが保存しているキャッシュ(過去のバージョン)のページを表示します。元のページが削除・変更されていても内容を確認できる場合があります。(注意:キャッシュ表示時に元のサーバーへアクセスが発生する場合があるため、匿名性が保証されるわけではありません。)
cache:example.com
related: 指定したURLに関連性の高いとGoogleが判断したウェブサイトを検索します。競合調査などに使えます。
related:example.com
link: 指定したURLへリンクしているページを検索します。(現在、この演算子の機能は限定的か、非推奨になっている可能性があります。)
link:example.com
(機能しない可能性あり)
inanchor: 指定したキーワードをアンカーテキスト(リンクの表示テキスト)として含むページを検索します。
inanchor:"click here"
AROUND(X) 2つのキーワードが指定した数(X)以内の単語数で近接して出現するページを検索します。
security AROUND(5) vulnerability
daterange: 特定の期間内にインデックスされたページを検索します。(ユリウス日付形式での指定が必要でしたが、現在はbefore:after: の方が使いやすいです。)
"security breach" daterange:2459200-2459565 (非推奨)
before: / after: 指定した日付より前 (before) または後 (after) にインデックスされたページを検索します。(YYYY-MM-DD形式)
"vulnerability disclosed" after:2024-01-01 before:2024-12-31

注: Googleの検索アルゴリズムや演算子の仕様は変更されることがあります。一部の演算子(例: link:, daterange:, ~ (類義語), + (強制包含) )は、機能が廃止されたり、期待通りに動作しなくなったりしている場合があります。

Google Hackingの具体的な悪用例と発見される可能性のある情報 😨

Google Dorksを組み合わせることで、攻撃者は以下のような機密情報や脆弱なシステムを探し出す可能性があります。

  • 設定ファイル: filetype:config inurl:adminfiletype:ini password などで、データベース接続情報やAPIキーが含まれる設定ファイルを探します。特にWordPressの wp-config.php などが狙われることがあります。(例: intext:define('DB_PASSWORD', ' "wp-config.php" filetype:txt
  • データベースファイル: filetype:sql "INSERT INTO" passwordfiletype:mdb admin などで、公開されているデータベースダンプファイルやアクセス可能なデータベースを探します。
  • ログファイル: filetype:log username passwordallintext:password filetype:log after:2023 などで、ユーザー名やパスワード、セッション情報などが含まれるログファイルを探します。
  • ログインページ: intitle:"Login" inurl:adminsite:example.com intitle:"Control Panel" などで、管理者用のログインページを探します。
  • ディレクトリリスティング: intitle:"index of" / "backup"intitle:"index of" "database" などで、サーバーの設定ミスによりファイル一覧が公開されているディレクトリを探します。バックアップファイル(.bak, .old, .zipなど)が見つかることもあります。(例: intext:bak intitle:Index of "wp-config.php"
  • 脆弱なソフトウェアのバージョン: intitle:"index of" Apache/2.4.49intext:"Powered by WordPress 5.8" などで、特定のバージョンのソフトウェアを使用しているサイトを探し、既知の脆弱性を悪用しようとします。
  • 機密文書: filetype:xls "employee list"filetype:pptx "internal use only" などで、公開すべきでない社内文書や個人情報を含むファイルを探します。
  • エラーメッセージ: intext:"SQL syntax error" filetype:php などで、詳細なエラーメッセージが表示されているページを探し、システムの内部構造や脆弱性のヒントを得ようとします。
  • ネットワーク機器やIoTデバイス: inurl:"ViewerFrame?Mode="intitle:"webcam server" などで、パスワード設定がされていない、あるいはデフォルトパスワードのままのネットワークカメラやその他のIoTデバイスを探します。
  • クラウドストレージの情報: site:s3.amazonaws.com filetype:baksite:storage.googleapis.com confidential などで、設定ミスにより公開されているクラウドストレージ上のファイルを探します。

重要:これらの検索例は、あくまで技術的な解説と注意喚起を目的としています。許可なく他者のシステムや情報を検索・アクセスすることは絶対に避けてください。

Google Hacking Database (GHDB) 📚

Google Hacking Database (GHDB) は、既知の脆弱性や機密情報を発見するために使用できるGoogle Dorks(検索クエリ)を集めたデータベースです。セキュリティ研究者やペネトレーションテスターが脆弱性評価を行う際に参照するリソースとして、Offensive Security(Exploit Databaseの一部として)などが管理・公開しています。

GHDBには、以下のようなカテゴリで多数のDorksが登録されています。

  • Footholds(足がかり)
  • Files Containing Usernames(ユーザー名を含むファイル)
  • Sensitive Directories(機密ディレクトリ)
  • Web Server Detection(ウェブサーバー検出)
  • Vulnerable Files(脆弱なファイル)
  • Vulnerable Servers(脆弱なサーバー)
  • Error Messages(エラーメッセージ)
  • Files Containing Passwords(パスワードを含むファイル)
  • Sensitive Online Shopping Info(機密性の高いオンラインショッピング情報)
  • Network or Vulnerability Data(ネットワークまたは脆弱性データ)
  • Pages Containing Login Portals(ログインポータルを含むページ)
  • Various Online Devices(様々なオンラインデバイス)
  • Advisories and Vulnerabilities(勧告と脆弱性)

GHDBは、攻撃者がどのような手法で情報を探しているかを知り、防御策を講じる上で非常に役立ちます。定期的に新しいDorkが追加されるため、最新の脅威動向を把握するためにも参照する価値があります。

GHDBの参照先例: Exploit Database – Google Hacking Database

💡 GHDBは、セキュリティ専門家が脆弱性を発見し、修正を促すための倫理的な目的で利用されることを意図しています。データベースの情報が悪用されないよう、責任ある利用が求められます。

法的・倫理的側面と注意点 ⚖️

Google Hackingの技術自体は、Googleの検索機能を使うだけなので、それ自体が直ちに違法になるわけではありません。しかし、その目的と対象によっては、重大な法的問題を引き起こす可能性があります。

  • 不正アクセス禁止法: 他人のIDやパスワードを無断で使用したり、セキュリティホールを突いてシステムに侵入したりする行為は、日本の「不正アクセス行為の禁止等に関する法律(不正アクセス禁止法)」によって禁止されています。Google Hackingによって得た情報(例:漏洩した認証情報)を利用してシステムにログインする行為は、明確な違法行為です。
  • プライバシーの侵害: 個人情報や非公開の機密情報を意図的に収集し、公開・悪用する行為は、プライバシー権の侵害や関連法規に抵触する可能性があります。
  • 電子計算機損壊等業務妨害罪: コンピュータシステムやデータを破壊・改ざんしたり、虚偽の情報や不正な指令を与えたりして業務を妨害する行為は、刑法の電子計算機損壊等業務妨害罪に問われる可能性があります。
  • Googleの利用規約: Googleのサービスを自動化された手段で過度に使用したり、システムに負荷をかける行為は、Googleの利用規約に違反する可能性があります。短時間に大量の検索クエリを送信すると、一時的にアクセスが制限されることもあります。

Google Hackingは、必ず自身が管理権限を持つシステム、または事前に明確な許可を得たシステムに対してのみ、セキュリティ評価の目的で行うべきです。興味本位で他者のウェブサイトやシステムに対してGoogle Hackingを行うことは、絶対に避けてください。

警告: 不正アクセスや情報の不正取得は犯罪です。法的な責任を問われるだけでなく、社会的な信用を失うことにもつながります。技術は常に倫理観を持って正しく利用しましょう。

Google Hackingへの対策方法 🛡️

ウェブサイト運営者やシステム管理者は、Google Hackingによる意図しない情報漏洩を防ぐために、以下の対策を講じることが重要です。

  • robots.txt の適切な設定: 検索エンジンにクロール(巡回・インデックス化)されたくないディレクトリやファイルを指定します。Disallow: ディレクティブを使用して、管理画面のディレクトリや機密情報を含む可能性のあるパスへのアクセスを拒否します。ただし、robots.txtはあくまで「お願い」であり、悪意のあるクローラーは無視する可能性がある点、ファイルパス自体が公開される点に注意が必要です。
    User-agent: *
    Disallow: /admin/
    Disallow: /private/
    Disallow: /backup/
    Disallow: /wp-admin/
  • メタタグ (noindex, nofollow) や X-Robots-Tag HTTPヘッダーの使用: 特定のページを検索結果に表示させたくない場合、HTMLの<meta name="robots" content="noindex"> タグを使用します。ページ内のリンクを辿らせたくない場合は nofollow を追加します(例: content="noindex, nofollow")。PDFなどの非HTMLファイルに対しては、HTTPレスポンスヘッダーで X-Robots-Tag: noindex を指定します。
  • サーバー設定の見直し: ディレクトリリスティング(ファイル一覧表示)を無効にします(Apacheなら Options -Indexes)。エラーメッセージは、ユーザーには簡潔に、開発者には詳細なログが残るように設定し、詳細なエラー情報(データベース情報、ファイルパスなど)が外部に漏れないようにします。サーバーソフトウェアやミドルウェアのバージョン情報を隠蔽することも検討します。
  • アクセス制御の徹底: 管理画面や機密情報へのアクセスは、IPアドレス制限、強力なパスワード認証、多要素認証(MFA/2FA)などで厳格に制限します。不要なアカウントは削除し、権限は最小限に留めます(最小権限の原則)。
  • 機密情報の削除・非公開化: 公開ウェブサーバー上に、不要な設定ファイル、バックアップファイル、ログファイル、個人情報、機密文書などを置かないようにします。やむを得ず置く場合は、適切なアクセス制御と暗号化を施します。
  • 脆弱性対策の実施: 使用しているOS、ミドルウェア、CMS(WordPressなど)、プラグイン、ライブラリなどを常に最新の状態に保ち、セキュリティパッチを速やかに適用します。定期的な脆弱性診断を実施し、発見された脆弱性を修正します。
  • 定期的な監視と監査: 自社のウェブサイトに対してGoogle Hackingの手法を使い、意図せず情報が公開されていないか定期的にチェックします(セルフハッキング)。Google Search Consoleなどのツールを活用し、不審な検索クエリやインデックス状況を監視します。Googleアラートを設定して、特定のキーワード(例: 自社名 filetype:xls)がインデックスされた際に通知を受け取るようにすることも有効です。
  • セキュリティツールの導入: WAF(Web Application Firewall)を導入し、不正なリクエストや既知の攻撃パターン(SQLインジェクションなど)を検知・防御します。
  • 開発・運用プロセスの改善: セキュアコーディングの原則に基づいた開発を行い、デフォルトパスワードの使用禁止、機密情報のハードコーディング禁止などを徹底します。

これらの対策を組み合わせることで、Google Hackingによる情報漏洩のリスクを大幅に低減できます。自社で対応が難しい場合は、セキュリティ専門家による診断(ペネトレーションテストなど)を受けることも有効な手段です。

まとめ ✨

Google Hackingは、Googleの強力な検索機能を活用した情報収集技術です。セキュリティ専門家にとっては脆弱性発見の有効なツールとなり得ますが、悪意ある者にとっては攻撃の足がかりを探る手段にもなり得ます。

重要なのは、この技術の仕組みとリスクを理解し、適切な対策を講じることです。ウェブサイトやシステムを管理する側は、意図しない情報がGoogleによってインデックスされ、公開されていないか常に注意を払い、robots.txtnoindexタグの設定、サーバー設定の見直し、アクセス制御の強化、脆弱性対策などを徹底する必要があります。

また、Google Hackingを利用する側は、その法的・倫理的な側面を十分に理解し、許可された範囲でのみ使用することが絶対条件です。技術の力を正しく理解し、責任ある行動を心がけましょう。💪

コメント

タイトルとURLをコピーしました