人工知能（AI）は、私たちの生活やビジネスに革命をもたらす可能性を秘めた技術として、急速に発展・普及しています。しかし、その輝かしい側面とは裏腹に、AI開発プロセスには様々なセキュリティリスクが潜んでいます。これらのリスクを理解し、適切な対策を講じなければ、データ漏洩、システム障害、さらには社会的な混乱を招く可能性さえあります。

本ブログでは、AI開発における主要なセキュリティリスクを掘り下げ、具体的な事例（判明している場合）や、OWASP（Open Worldwide Application Security Project）が提唱するLLM（大規模言語モデル）アプリケーションのトップ10リスクなどを交えながら解説します。さらに、これらの脅威からAIシステムを守るための対策についても考察していきます。

AI開発におけるセキュリティは、単なる技術的な問題ではなく、信頼性、倫理、そして社会全体の安全に関わる重要な課題です。

AI開発に潜む主なセキュリティリスク
- OWASP Top 10 for LLM Applications (2025年版の変更点)
AIセキュリティリスクへの対策
今後の展望と課題
まとめ

AI開発に潜む主なセキュリティリスク

AIシステムの開発ライフサイクル全体には、様々な脆弱性が存在する可能性があります。ここでは、特に注意すべき主要なリスクについて解説します。

1. データ汚染（Training Data Poisoning / データポイズニング） OWASP LLM03 (旧) / LLM04 (2025)

AIモデルの学習データに、攻撃者が意図的に悪意のあるデータや偏ったデータを混入させる攻撃です。これにより、AIモデルの判断が歪められ、特定の入力に対して誤った出力をするように仕向けられたり、特定のバイアスを持たせられたりする可能性があります。

例えば、特定の製品に対する否定的な情報を学習データに紛れ込ませることで、AIがその製品に対して不当に低い評価を下すように操作されるケースが考えられます。また、特定のグループに対する差別的なデータを注入し、AIに偏見に基づいた応答をさせることも可能です。

影響: モデルの信頼性低下、予期せぬバイアスの埋め込み、特定の条件下での誤作動（バックドア設置）。

事例の性質: 研究レベルでは、学習データ全体のわずか0.5%〜1%程度の汚染データでもバックドアを設置できることが示されています（2020年頃の研究）。Bullseye Polytope Attack や Convex Polytope Attack といった手法が知られています。

2. プロンプトインジェクション (Prompt Injection) OWASP LLM01

LLM（大規模言語モデル）に対して、巧妙に細工された入力（プロンプト）を与えることで、開発者が意図しない動作を引き起こさせる攻撃です。これにより、本来アクセスできないはずの情報（システムプロンプトや他のユーザーデータなど）を漏洩させたり、不適切なコンテンツを生成させたり、連携している外部システムを不正に操作させたりする可能性があります。

直接的なインジェクション（ユーザーが直接悪意のあるプロンプトを入力）と、間接的なインジェクション（外部のデータソース、例えばウェブサイトやドキュメントに埋め込まれた悪意のあるプロンプトをLLMが読み込んでしまう）があります。Unicodeの非表示文字を利用した「見えないプロンプトインジェクション」も確認されています（2025年頃の報告）。

影響: 機密情報の漏洩、不正なコード実行、サービス拒否、レピュテーションの毀損。

事例:

2024年には、Slack AIの機能が悪用され、プロンプトインジェクションによって機密データが漏洩する可能性が指摘されました。攻撃者は、アクセス権のないプライベートチャンネルの情報をAIに漏洩させたり、AIの応答に悪意のあるリンクを埋め込ませたりできる可能性がありました。
ある自動車ディーラーのAIチャットボットが、簡単なプロンプト操作によって、高額な車を1ドルで提供すると応答してしまった事例も報告されています（具体的な時期は不明瞭だが、比較的最近）。
スタンフォード大学の学生がMicrosoft Bing Chat（当時）に対して特殊なプロンプトを入力し、内部のプログラミング（初期のシステムプロンプト）を漏洩させた事例があります。

3. 不安全な出力処理 (Insecure Output Handling) OWASP LLM02 (旧) / LLM05 (2025)

AIモデルからの出力を十分に検証・サニタイズ（無害化）せずに、下流のシステムで利用してしまう脆弱性です。AIの出力に悪意のあるコード（JavaScriptなど）やコマンドが含まれていた場合、それがそのまま実行されてしまい、クロスサイトスクリプティング（XSS）、クロスサイトリクエストフォージェリ（CSRF）、サーバーサイドリクエストフォージェリ（SSRF）、リモートコード実行などの攻撃につながる可能性があります。

影響: クライアントサイド・サーバーサイドでのコード実行、権限昇格、データ漏洩。

4. モデルへのサービス拒否攻撃 (Model Denial of Service / MDoS) OWASP LLM04 (旧) / LLM10 (Unbounded Consumption, 2025)

AIモデルに対して、通常よりもはるかに多くのリソース（計算時間、メモリなど）を消費させるような入力を繰り返し送信することで、サービスを遅延させたり、停止させたりする攻撃です。これにより、正規ユーザーの利用が妨げられ、ビジネス機会の損失や運用コストの増大につながります。2025年のOWASPリストでは「Unbounded Consumption（無限消費）」として、リソースの過剰消費によるパフォーマンス低下、ダウンタイム、予期せぬコスト増大のリスクが指摘されています。

影響: サービス停止、パフォーマンス低下、運用コストの増大。

事例の性質: 特定のモデルに対して非常に長いプロンプトや、複雑な計算を要求するプロンプトを大量に送りつけることで、リソースを枯渇させることが考えられます。

5. サプライチェーンの脆弱性 (Supply Chain Vulnerabilities) OWASP LLM05 (旧) / LLM03 (2025)

AI開発では、事前学習済みモデル、外部ライブラリ、データセットなど、多くのサードパーティコンポーネントが利用されます。これらのコンポーネントに脆弱性や悪意のあるコードが含まれている場合、それが最終的なAIシステムにも影響を及ぼします。信頼できないソースからのコンポーネント利用は大きなリスクとなります。

影響: システム全体の侵害、バックドアの設置、データ漏洩。

6. 機密情報の漏洩 (Sensitive Information Disclosure) OWASP LLM06 (旧) / LLM02 (2025)

AIモデル、特にLLMは、学習データに含まれる機密情報（個人情報、企業秘密、ソースコードなど）を意図せず出力してしまう可能性があります。これは、モデルが学習データを「記憶」してしまっている場合に起こりえます（オーバーフィッティング）。また、ユーザーがプロンプトとして入力した機密情報が、AIサービスの提供者側でログとして記録されたり、モデルの再学習に使用されたりすることで漏洩するリスクもあります。

影響: プライバシー侵害、企業秘密の漏洩、コンプライアンス違反。

事例:

Samsungの従業員が機密性の高い内部コードや文書のレビューにChatGPTを使用した結果、その情報が外部に漏洩したとされる事例があります。この結果、Samsungは社内での生成AIツールの使用を禁止しました。
Amazonでも、従業員に対してChatGPTに機密情報を共有しないよう警告した事例があります。これは、ChatGPTの応答に従業員が入力したと思われる社内の機密情報に酷似した内容が含まれていたためです。

7. 不安全なプラグイン設計 (Insecure Plugin Design) OWASP LLM07 (旧)

LLMの機能を拡張するために利用されるプラグインが、不安全な設計になっている場合の脆弱性です。プラグインが必要以上の権限を持っていたり、入力の検証が不十分だったりすると、悪用されて不正な操作や情報漏洩につながる可能性があります。

影響: 権限昇格、不正なアクションの実行、データ漏洩。

8. 過剰なエージェンシー (Excessive Agency) OWASP LLM08 (旧) / LLM06 (2025)

AIシステム、特にLLMアプリケーションに、必要以上の機能実行権限や自律的な意思決定能力（エージェンシー）を与えすぎている場合の脆弱性です。AIがプロンプトインジェクションなどによって乗っ取られた場合、その強力な権限が悪用され、予期せぬ、あるいは破壊的なアクション（メール送信、ファイル削除、購入処理など）を実行してしまう可能性があります。

影響: 不正なシステム操作、データ破壊、金銭的被害。

事例: Air CanadaのAIチャットボットが、顧客によって操作され、想定以上の払い戻しを約束してしまった事例が報告されています。これは、AIが持つ権限（この場合は払い戻しに関する情報提供や約束）が悪用された例と言えます。

9. 過度の依存 (Overreliance) OWASP LLM09 (旧)

AI、特にLLMは完璧ではなく、誤った情報（ハルシネーション）、不正確な情報、偏った情報を生成することがあります。これを人間が鵜呑みにしてしまい、重要な意思決定や情報発信に利用してしまうリスクです。AIの出力は常に批判的に評価し、ファクトチェックを行う必要があります。

影響: 誤った意思決定、偽情報の拡散、法的・倫理的問題。

事例: Google Bard（現Gemini）が初期に公開されたデモンストレーションで、質問に対して事実と異なる回答をした事例がありました。これはAIが誤情報を生成する可能性を示す一例です。

10. モデル窃取 (Model Theft) OWASP LLM10 (旧)

攻撃者が、開発されたAIモデル（特に価値の高い独自モデル）そのものを不正にコピーしたり、盗み出したりする行為です。これには、モデルのファイルへの直接アクセスや、APIを通じてモデルの挙動を模倣する（モデル抽出攻撃）などの手口があります。

影響: 知的財産の損失、競争優位性の喪失、悪用による二次被害。

11. 敵対的攻撃 (Adversarial Attacks)

AIモデルの入力データに対して、人間には知覚できないような微小なノイズ（摂動）を加えることで、モデルに誤認識を引き起こさせる攻撃です。画像認識AIが標識を見間違えたり、音声認識AIがコマンドを聞き間違えたりする可能性があります。物理的な世界での攻撃（例: 特殊なステッカーを貼った標識）も研究されています。

影響: 自動運転車の誤作動、顔認証システムの突破、マルウェア検知回避。

事例の性質: パンダの画像に微小なノイズを加えることで、AIが高確率でテナガザルと誤認識するという有名な研究例（2013年頃）があります。

12. シャドーAI (Shadow AI)

従業員が、組織の許可や管理なしに、個人的にAIツールやサービスを利用することです。これにより、企業の機密情報が意図せず外部のAIサービスに入力されたり、セキュリティポリシーに準拠しない形でAIが利用されたりするリスクが生じます。

影響: 情報漏洩、コンプライアンス違反、管理不能なリスクの増大。

事例の性質: 前述のSamsungやAmazonの事例は、シャドーAIのリスクが顕在化した例とも言えます。従業員が業務効率化のために良かれと思って利用したAIツールが、結果的に情報漏洩につながりました。

これらのリスクは独立しているわけではなく、しばしば組み合わされて悪用される可能性があります。例えば、サプライチェーンの脆弱性を突いてデータ汚染を行ったり、プロンプトインジェクションによって機密情報を漏洩させたりするなどです。

OWASP Top 10 for LLM Applications (2025年版の変更点)

OWASPはLLMアプリケーションのリスクリストを更新しています。2025年版（2024年後半に発表）では、順位の変動や新たなリスクカテゴリの追加が見られました。

2025年版順位	リスクカテゴリ (英語)	リスクカテゴリ (日本語)	主な変更点・注目点
LLM01	Prompt Injection	プロンプトインジェクション	依然として最重要リスク。
LLM02	Sensitive Information Disclosure	機密情報の漏洩	順位上昇 (旧6位→2位)。リスクの深刻度が増していると認識。
LLM03	Supply Chain	サプライチェーン	順位上昇 (旧5位→3位)。コンポーネント依存のリスクを重視。
LLM04	Data Poisoning	データ汚染	順位変動 (旧3位→4位)。依然として重要なリスク。
LLM05	Improper Output Handling	不適切な出力処理	順位上昇 (旧2位→5位)。※順位は下がったが重要性は変わらず。
LLM06	Excessive Agency	過剰なエージェンシー	順位変動 (旧8位→6位)。自律性に伴うリスク。
LLM07	System Prompt Leakage	システムプロンプト漏洩	新規カテゴリに近い（プロンプトインジェクションから分離・明確化）。モデルの内部指示漏洩リスク。
LLM08	Vector and Embedding Weaknesses	ベクトルと埋め込みの弱点	新規カテゴリ。RAG (Retrieval-Augmented Generation) パイプライン等におけるベクトル処理の脆弱性。
LLM09	Misinformation	誤情報	新規カテゴリ（旧Overrelianceから分離・明確化）。ハルシネーション等のリスク。
LLM10	Unbounded Consumption	無限消費	新規カテゴリ（旧Model DoSから発展）。リソース枯渇リスク。

注: 旧リストとの比較はバージョン1.1 (2023年) を基準としています。2025年版リストは2024年後半に公開されたドラフト版に基づいています。

AIセキュリティリスクへの対策

AI開発におけるセキュリティリスクに対抗するためには、技術的な対策だけでなく、組織的な取り組みやプロセス改善も重要です。「セキュリティ・バイ・デザイン」の考え方に基づき、開発の初期段階からセキュリティを組み込むことが不可欠です。

1. データの保護と検証

学習データの信頼性確保: 信頼できるソースからデータを収集し、可能であればデータの出所を確認します。データ汚染のリスクを低減するため、異常検知やクラスタリング技術を用いて汚染データの検知を試みます。

機密データのマスキング/匿名化: 学習データやモデルへの入力データに含まれる機密情報は、適切にマスキングまたは匿名化処理を施します。

入力検証とサニタイズ: ユーザーからの入力（プロンプト）や外部データソースからの入力を厳格に検証し、悪意のあるコードやコマンドインジェクションを試みるパターンをフィルタリング・無害化（サニタイズ）します。これはプロンプトインジェクションや不安全な出力処理に対する基本的な対策です。

2. モデルの堅牢化と監視

敵対的学習 (Adversarial Training): 意図的に生成された敵対的サンプルを学習データに含めることで、モデルの堅牢性を高めます。

モデルの監視と監査: 運用中のモデルの挙動を継続的に監視し、予期せぬ出力やパフォーマンスの低下、リソースの異常消費などを検知します。定期的な監査により、モデルの健全性を確認します。

出力の検証と制限: モデルの出力を検証し、機密情報が含まれていないか、不適切な内容でないかを確認します。必要に応じて出力をフィルタリングしたり、人間によるレビュープロセスを導入したりします。また、出力が下流のシステムで安全に処理されるように、サニタイズを行います。

3. アクセス制御と権限管理

最小権限の原則: AIシステムや関連コンポーネント（プラグイン含む）には、その機能に必要な最小限の権限のみを付与します。特に「エージェンシー」を持つAIには、実行可能なアクションを厳しく制限し、重要な操作には人間による承認を必須とします。

ゼロトラストアーキテクチャ: 「決して信頼せず、常に検証する」という原則に基づき、AIシステム内外のすべてのアクセス要求を厳格に認証・認可します。

モデルとデータのアクセス制御: 学習データや学習済みモデルへのアクセス権を厳格に管理し、不正なアクセスや改ざん、窃取を防ぎます。

4. セキュアな開発・運用プロセス (MLOps/MLSecOps)

サプライチェーン管理: 使用する外部ライブラリ、事前学習済みモデル、データセットの出所を確認し、既知の脆弱性がないかスキャンします。AI部品表（AI Bill of Materials, AI-BOM）を作成し、構成要素を管理します。

セキュリティテスト: 開発プロセスに、プロンプトインジェクションテスト、ファジング、脆弱性スキャン、レッドチーミングなどのセキュリティテストを組み込みます。

インシデント対応計画: セキュリティインシデント発生時の対応計画を策定し、定期的に訓練を実施します。

IaC (Infrastructure as Code): インフラ構成をコードで管理し、一貫性と再現性を確保します。

5. 組織的な取り組み

従業員教育: AIの利用に関するセキュリティポリシーを策定し、従業員に周知徹底します。特に、機密情報の入力禁止や、シャドーAIのリスクについて教育します。

ガバナンス体制の構築: AI開発・利用に関する責任体制を明確にし、リスク管理とコンプライアンス遵守のためのガバナンスフレームワークを整備します。

透明性と説明可能性 (Explainability): AIモデルの判断根拠を可能な限り理解し、説明できるように努めます。これにより、予期せぬバイアスや脆弱性の発見につながる場合があります。

これらの対策を組み合わせ、多層的な防御を構築することが重要です。単一の対策ですべてのリスクをカバーすることは困難です。

今後の展望と課題

AI技術は日進月歩で進化しており、それに伴いセキュリティの脅威も変化・高度化しています。特に、以下のような点が今後の課題として挙げられます。

攻撃の自動化と高度化: 攻撃者もAIを活用し、より巧妙で大規模な攻撃（フィッシングメールの自動生成、マルウェアの自己進化、脆弱性の自動探索など）を仕掛けてくる可能性があります。2023年にはAIを利用したフィッシングメールが急増したという報告もあります。2025年以降は、複数のAIエージェントが連携して攻撃プロセスを実行する「マルチエージェント型AI」による攻撃も懸念されています。
ディープフェイクの脅威: AIによる偽の動画や音声（ディープフェイク）が悪用され、詐欺、世論操作、なりすましなどの被害が増加する可能性があります。2024年にはディープフェイク攻撃が増加傾向にあるとの報告もあります。
新たな脆弱性の発見: LLMや拡散モデルなど、新しいAIアーキテクチャが登場するにつれて、未知の脆弱性が発見される可能性があります。例えば、RAGパイプラインにおけるベクトル・埋め込み処理の弱点（OWASP LLM08:2025）などが注目されています。
防御技術の追随: 攻撃技術の進化に対し、防御側の技術（AIによる脅威検知、堅牢なモデル開発手法など）も継続的に開発・改善していく必要があります。
法整備と倫理基準: AIの安全な開発・利用に関する法整備や国際的な倫理基準の確立が追いついていない側面もあります。

AI開発におけるセキュリティは、もはや無視できない経営課題です。技術の進化を注視し、常に最新の脅威情報を収集しながら、プロアクティブかつ継続的な対策を講じていくことが求められます。

まとめ

AIは多大な恩恵をもたらす一方で、その開発プロセスにはデータ汚染、プロンプトインジェクション、情報漏洩、敵対的攻撃など、多様なセキュリティリスクが伴います。これらのリスクは、技術的な問題だけでなく、経済的損失、信用の失墜、社会的な混乱につながる可能性もはらんでいます。

AIを安全かつ責任ある形で活用するためには、開発ライフサイクルの全段階でセキュリティを考慮し、データの保護、モデルの堅牢化、アクセス制御の徹底、セキュアな開発・運用プロセスの導入、そして組織全体での意識向上が不可欠です。OWASP Top 10 for LLM Applicationsのようなフレームワークを参考に、自社の状況に合わせた対策を継続的に実施していくことが重要です。

AIセキュリティは、一度対策すれば終わりというものではありません。進化し続ける脅威に対応するため、常に学び、適応し続ける姿勢が求められます。未来のAI社会をより安全なものにするために、開発者、利用者、そして社会全体でこの課題に取り組んでいきましょう。