このセッションで学ぶこと

1
5大リスクの全体像 情報漏洩、Hallucination、著作権、バイアス、攻撃。LLM利用で避けられないリスクを体系的に把握します
2
データ分類と利用可否判断 機密度に応じたLLM利用の線引き。外部API、社内LLM、ローカルLLMのどれを使うかを即座に判断できるようになります
3
多層防御と攻撃対策 Prompt Injection、Jailbreak への対策を入力・処理・出力の3層で構築するアプローチ
4
運用規程と監査体制 社内ガイドライン策定のテンプレートと四半期監査のチェックリストを持ち帰ります

LLM利用における5大リスク

LLMの利用で直面するリスクは大きく5つに分類できます。どれかひとつでも見落とすと、導入後にプロジェクト停止や社会的信用の失墜につながりかねません。

情報漏洩
機密データがLLM提供者のサーバーに送信され、学習データに取り込まれるリスク
Hallucination
もっともらしいが事実と異なる出力。業務判断に使うと重大な損害を招きます
バイアス
学習データの偏りが出力に反映され、特定の属性への差別的な結果を生みます
攻撃
Prompt InjectionやJailbreakにより、想定外の動作やデータ流出を引き起こします

リスクの大きさは「発生確率 x 影響度」で評価します。情報漏洩と攻撃は影響度が高く、優先的に対策すべき領域です。

データ分類と利用可否マトリクス

社内データを4段階に分類し、利用するLLMの形態ごとに可否を判断します。この表を社内に掲示しておくだけでも、不用意な情報漏洩を防げます。

機密度レベル データ例 外部API
(GPT, Claude等)
社内LLM
(Private Endpoint)
ローカルLLM
(Ollama等)
極秘 顧客個人情報、パスワード、APIキー、財務データ(未公開) 禁止 条件付可 利用可
社外秘 社内戦略文書、契約書ドラフト、人事評価 禁止 利用可 利用可
社内限定 社内マニュアル、議事録、設計文書 条件付可 利用可 利用可
公開 公開ドキュメント、OSSコード、一般的な質問 利用可 利用可 利用可

条件付可の条件

外部APIを「条件付可」とする場合、以下をすべて満たす必要があります。

条件 確認事項 確認方法
学習データ不使用の契約 API利用規約にオプトアウト条項があるか 利用規約の該当条文を法務に確認
データ保持期間の明示 入力データが何日保持されるか プロバイダーのDPA(Data Processing Agreement)を確認
PII除去の実施 送信前に個人情報をマスキングしているか DLPツールまたはプリプロセッサのログ確認
管理者承認 上長またはセキュリティ担当の承認を得ているか 承認フロー(メールまたはチケット)の記録

Prompt Injection / Jailbreak 攻撃と防御

LLMアプリケーションへの攻撃手法は急速に進化しています。守る側は攻撃パターンを理解し、多層的な防御を構築する必要があります。

攻撃手法の分類

攻撃種別 手法 目的 深刻度
Direct Prompt Injection ユーザー入力にシステムプロンプトを上書きする指示を埋め込みます システムプロンプトの漏洩、指示の改ざん
Indirect Prompt Injection 外部データソース(Webページ、ドキュメント)に悪意ある指示を仕込みます RAGやブラウジング経由で間接的にLLMを操作します
Jailbreak ロールプレイや仮定の質問で安全フィルタを迂回します 禁止されたコンテンツの生成
Training Data Extraction 特定のプロンプトパターンで学習データを引き出します 学習データに含まれる機密情報の漏洩
Unbounded Consumption 極端に長い入力、大量リクエスト、計算量の多い指示を投入します リソース枯渇によるサービス停止、予期しないコスト暴走

多層防御アーキテクチャ

単一の防御策では突破されます。入力、処理、出力の3層で対策を重ねることが必須です。

1
入力サニタイゼーション
入力長制限、特殊文字エスケープ、PII検出・マスキング、Rate Limiting
2
ガードレール(処理層)
システムプロンプト保護、コンテンツフィルタ(Azure AI Content Safety等)、トピック制限、Prompt Shield
3
出力フィルタリング
PII再検出、有害コンテンツ判定、コード脆弱性スキャン、出力長制限
4
監視・ログ・アラート
全リクエストの記録、異常パターン検出、リアルタイムアラート、定期監査

社内LLM vs 外部API -- 判断フローチャート

どのLLM環境を使うべきかは、データの機密度、予算、求める精度の3軸で決まります。以下のフローに沿って判断すれば迷いません。

対象データの機密度を確認
極秘・社外秘データを含む?
YES
月間予算 50万円以上?
YES
VPC内デプロイ
or オンプレミス
NO
Private Endpoint
(Azure/AWS)
NO
高精度が必要?
YES
パブリックAPI
(GPT-4o, Claude等)
NO
ローカルLLM
(Ollama, llama.cpp)

LLMデプロイ形態比較

4つのデプロイ形態をコスト、セキュリティ、精度、運用負荷の4軸で比較します。自社の要件に合った形態を選ぶ判断材料として活用してください。

パブリックAPI
初期コスト
月額コスト従量制
セキュリティ
精度
運用負荷
適用例一般的な開発支援
Private Endpoint
初期コスト
月額コスト固定+従量
セキュリティ
精度
運用負荷
適用例社内データ活用
VPC内デプロイ
初期コスト
月額コスト固定
セキュリティ
精度中-高
運用負荷
適用例機密情報処理
オンプレミス
初期コスト最高
月額コスト固定
セキュリティ最高
精度
運用負荷最高
適用例規制産業、防衛

GPUサーバーの調達が必要なVPC内/オンプレミスは、初期投資が数百万円~数千万円規模になります。一方でランニングコストは大量利用時にはAPIよりも安くなるケースがあります。損益分岐点を試算してから判断してください。

著作権・知的財産ガイドライン

AI生成物の著作権は国・地域によって法解釈が異なり、判例も発展途上にあります。現時点で取るべきスタンスを整理しました。

観点 現状の主流的見解 対応方針
AI生成物の著作権帰属 人間の創作的関与がなければ著作権は発生しません(日米共通の傾向) 人間が実質的に関与した記録を残します
学習データの適法性 日本の著作権法30条の4[e-Gov]で一定の機械学習は許容されています。ただし「享受目的」は認められません 利用するモデルのトレーニングデータポリシーを確認します
出力のライセンス汚染 GPLやCopyleftライセンスのコードが混入するリスクがあります 出力コードのライセンスチェックツールを導入します
社内ポリシーとの整合 多くの企業がAI利用ポリシーを策定中です 法務部門と連携し、自社ルールを明文化します

社内LLM利用規程テンプレート

以下のテンプレートをベースに、自社の状況に合わせてカスタマイズすることを推奨します。法務・情シス・事業部門の三者で合意を取って策定してください。

第1章 総則
  • 目的と適用範囲の明示
  • 用語の定義(LLM、生成AI、プロンプト等)
  • 管理責任者の指定(CISOまたは情報セキュリティ部門長)
第2章 利用基準
  • 承認済みサービスの一覧と利用条件
  • データ分類と利用可否マトリクス(上記の表を引用)
  • 禁止行為の列挙(個人情報入力、ソースコード丸ごと入力等)
  • 業務外利用の可否
第3章 セキュリティ要件
  • 通信の暗号化(TLS 1.2以上)
  • 認証・認可(SSO、RBAC)
  • ログの取得と保存期間(最低1年)
  • DLPツールの導入義務
第4章 出力の取扱い
  • 出力の正確性確認義務
  • 出力に基づく意思決定時の人間レビュー必須
  • 著作権・ライセンスチェックの手順
  • 外部公開時の承認フロー
第5章 インシデント対応
  • 報告窓口と初動対応フロー
  • 影響範囲の調査手順
  • 再発防止策の策定と実施
第6章 教育・監査
  • 全従業員向け年次研修の実施
  • 四半期ごとの利用状況監査
  • 規程の年次見直し

インシデント対応フロー

LLM経由で情報漏洩が発覚した場合、速度が勝負になります。初動の遅れが被害を拡大させます。以下は発覚から再発防止までの一連の流れです。

漏洩発覚
検知・報告
即時
初動対応
利用停止・隔離
30分以内
影響調査
範囲特定
24時間以内
報告
経営・当局
72時間以内
再発防止
ルール改訂
1-2週間

各フェーズの詳細

フェーズ 目標時間 実施事項 担当
検知・報告 即時 異常を発見した時点でセキュリティチームに一報。ログを保全。当事者へのヒアリング開始 発見者 + セキュリティチーム
初動対応 30分以内 対象サービスの利用停止。APIキーの無効化。影響を受けた可能性のあるアカウントの一時凍結 セキュリティチーム + 情シス
影響調査 24時間以内 送信データの特定。影響を受けた顧客・データの範囲確定。LLMプロバイダーへのデータ削除要請 セキュリティチーム + 法務
報告 72時間以内 経営層への報告。個人情報保護委員会への報告(該当する場合)。顧客への通知判断 CISO + 法務 + 広報
再発防止 1-2週間 原因分析(RCA)の実施。利用規程の改訂。技術的対策の追加導入。全社周知と再教育 全関係部門

セキュリティ監査チェックリスト(四半期ごと)

以下の項目を四半期に1回確認します。チェック結果は記録として残し、経営層にレポートしてください。

アクセス管理LLMサービスへのアクセス権限が最小権限の原則に従っているか
アクセス管理退職者・異動者のアカウントが速やかに無効化されているか
データ保護DLPツールが正常に稼働し、PII検出ルールが最新か
データ保護外部APIへの送信データにおいて機密情報のマスキングが機能しているか
ログ管理全LLM利用のログが取得・保存されているか(入力・出力・ユーザーID・タイムスタンプ)
ログ管理ログの改ざん防止措置が取られているか
利用状況承認済みサービス以外のLLMが無断で利用(シャドーAI)されていないか
利用状況利用量が想定の範囲内か。異常な利用パターンがないか
脆弱性LLMアプリケーションの依存ライブラリに既知の脆弱性がないか
脆弱性Prompt Injection テストを実施し、防御が有効か
契約LLMプロバイダーとの契約条件(データ保持、学習データ不使用)が遵守されているか
契約プロバイダーのセキュリティ認証(SOC2等)が有効期限内か
教育全対象者がLLM利用ガイドライン研修を受講済みか
教育インシデント報告フローが全員に周知されているか
規程LLM利用規程が最新の法規制・ガイドラインに準拠しているか

OWASP Top 10 for LLM Applications 2025

OWASPがLLMアプリケーション固有のセキュリティリスクをTop 10として整理しています[OWASP]。2025版は2023年の初版から大幅に改訂され、LLMエージェントの普及やRAGの一般化を反映した内容に刷新されました。自社のLLMアプリケーションがこれらに対応できているか、定期的に確認してください。

01
Prompt Injection
悪意あるプロンプトでモデルの動作を改ざん。Direct(直接入力)とIndirect(外部データ経由)の2種類。入力検証とシステムプロンプトの分離で対策
02
Sensitive Information Disclosure
学習データ、RAGシステム、ユーザー入力を通じて個人情報や機密情報が露出するリスク。2023版の6位から大幅に順位が上昇しました
03
Supply Chain
データセット、アダプター、事前学習モデルなど外部コンポーネントに潜むバイアスやバックドアの脆弱性
04
Data Poisoning
学習データ、ファインチューニングデータ、Embeddingデータを操作し、モデルの性能を劣化させたり有害な出力を生成させる攻撃
05
Improper Output Handling
LLM出力を未検証のまま下流システムに渡すリスク。意図しないDB操作やシステム侵害を引き起こす可能性
06
Excessive Agency
エージェントシステムに過大な機能・権限・自律性を付与し、意図しない有害なアクションを実行させてしまう問題
07
System Prompt Leakage 新規
システムプロンプトに埋め込まれた内部ルール、フィルタ条件、認証情報などが漏洩し、攻撃の手がかりを与えるリスク
08
Vector and Embedding Weaknesses 新規
RAGシステムにおけるベクトル生成・格納・検索の脆弱性。インジェクション攻撃や不正アクセスの経路となります
09
Misinformation
ハルシネーションやバイアスにより、事実と異なるが信憑性の高い情報を生成し、現実の被害を引き起こす問題
10
Unbounded Consumption
入力サイズや大量リクエストによるリソースの無制限消費。性能劣化だけでなく、予期しないコスト暴走を引き起こします

OWASP Top 10 for LLM Applications は2025版(v2025)が最新です。2023年の初版から、System Prompt Leakage と Vector and Embedding Weaknesses が新たに追加され、Model DoS は Unbounded Consumption(コスト暴走を含む)にリネームされました。LLMの進化に伴い項目は更新されるため、年次での見直しを推奨します。

用語集

Prompt Injection
悪意ある指示をプロンプトに埋め込み、LLMの動作を意図的に改ざんする攻撃手法です。Direct(直接入力)とIndirect(外部データ経由)の2種類があります。
Jailbreak
LLMに設定された安全制約やコンテンツフィルタを迂回し、禁止されたコンテンツを生成させる行為です。ロールプレイや仮定質問が典型的手法です。
Guardrail
LLMの入出力に対して設定する安全装置です。入力フィルタ、出力フィルタ、トピック制限などを含みます。Azure AI Content Safety、NeMo Guardrails、Lakera Guard等のツールがあります。
PII (Personally Identifiable Information)
個人を識別できる情報の総称です。氏名、住所、メールアドレス、電話番号、マイナンバー等が該当します。LLMへの入力時にマスキングが必要です。
DLP (Data Loss Prevention)
機密データの外部流出を防止するための技術・製品群です。LLM利用においては、送信データ内のPIIや機密情報を検出・ブロックする役割を担います。
RBAC (Role-Based Access Control)
ロール(役割)に基づいてアクセス権限を管理する方式です。LLMサービスにおいても、ロール別に利用可能な機能やデータ範囲を制御します。
SSO (Single Sign-On)
一度の認証で複数のサービスにアクセスできる仕組みです。SAML、OAuth 2.0/OIDC が主なプロトコルです。LLMサービスへのアクセス管理に必須です。
SOC2
クラウドサービスのセキュリティ・可用性・処理の完全性・機密性・プライバシーに関する監査報告書です。LLMプロバイダー選定時の重要な評価基準となります。
GDPR (General Data Protection Regulation)
EUの個人データ保護規則です。EU居住者のデータを扱う場合に遵守が必要です。LLMへの個人データ入力はGDPRの処理根拠が求められます。
Zero Trust
「何も信頼しない」を前提としたセキュリティモデル。ネットワーク内外を問わずすべてのアクセスを検証します。LLMアプリケーションの構築にもこの思想を適用すべきです。
Adversarial Attack
AIモデルを騙すために設計された入力です。LLMにおいてはPrompt Injection やJailbreakが代表的です。画像モデルへの敵対的サンプルも含む概念です。
Red Teaming
AI安全性テストの標準手法です。Prompt Injection、Jailbreak、バイアス誘発など多様な攻撃シナリオでLLMアプリケーションを意図的に攻撃し、脆弱性を発見します。リリース前の安全性評価に不可欠です。
System Prompt Leakage
OWASP Top 10 for LLM 2025版で新たに追加された脆弱性です。システムプロンプトに含まれる内部ルール、フィルタ条件、認証情報などが攻撃者に漏洩するリスクを指します。
Unbounded Consumption
OWASP Top 10 for LLM 2025版で旧 Model DoS からリネームされた概念です。リソース枯渇によるサービス停止に加え、APIコストの暴走も含む広い定義に拡張されました。

参考URL

OWASP Top 10 for LLM Applications 2025 genai.owasp.org OWASP Top 10 for LLMs v2025 (PDF) owasp.org Azure AI Content Safety learn.microsoft.com Anthropic - Build with Claude / Guardrails docs.anthropic.com Google Cloud - AI Security cloud.google.com NIST - Artificial Intelligence nist.gov NIST AI 600-1: AI Risk Management Framework - Generative AI Profile nvlpubs.nist.gov 経済産業省 - AI事業者ガイドライン meti.go.jp 個人情報保護委員会 - 個人情報の保護に関するガイドライン ppc.go.jp