Session 7: セキュリティと安全運用 -- LLM利用の最低限ルール

このセッションで学ぶこと

1

5大リスクの全体像情報漏洩、Hallucination、著作権、バイアス、攻撃。LLM利用で避けられないリスクを体系的に把握する

2

データ分類と利用可否判断機密度に応じたLLM利用の線引き。外部API、社内LLM、ローカルLLMのどれを使うかを即座に判断できるようになる

3

多層防御と攻撃対策 Prompt Injection、Jailbreak への対策を入力・処理・出力の3層で構築するアプローチ

4

運用規程と監査体制社内ガイドライン策定のテンプレートと四半期監査のチェックリストを持ち帰る

LLM利用における5大リスク

LLMの利用で直面するリスクは大きく5つに分類できる。どれかひとつでも見落とすと、導入後にプロジェクト停止や社会的信用の失墜につながりかねない。

情報漏洩

機密データがLLM提供者のサーバーに送信され、学習データに取り込まれるリスク

Hallucination

もっともらしいが事実と異なる出力。業務判断に使うと重大な損害を招く

著作権侵害

学習データ由来のコードや文章がそのまま出力され、ライセンス違反を起こす可能性

バイアス

学習データの偏りが出力に反映され、特定の属性への差別的な結果を生む

攻撃

Prompt InjectionやJailbreakにより、想定外の動作やデータ流出を引き起こす

リスクの大きさは「発生確率 x 影響度」で評価する。情報漏洩と攻撃は影響度が高く、優先的に対策すべき領域となる。

データ分類と利用可否マトリクス

社内データを4段階に分類し、利用するLLMの形態ごとに可否を判断する。この表を社内に掲示しておくだけでも、不用意な情報漏洩を防げる。

機密度レベル	データ例	外部API (GPT, Claude等)	社内LLM (Private Endpoint)	ローカルLLM (Ollama等)
極秘	顧客個人情報、パスワード、APIキー、財務データ（未公開）	禁止	条件付可	利用可
社外秘	社内戦略文書、契約書ドラフト、人事評価	禁止	利用可	利用可
社内限定	社内マニュアル、議事録、設計文書	条件付可	利用可	利用可
公開	公開ドキュメント、OSSコード、一般的な質問	利用可	利用可	利用可

条件付可の条件

外部APIを「条件付可」とする場合、以下をすべて満たす必要がある。

条件	確認事項	確認方法
学習データ不使用の契約	API利用規約にオプトアウト条項があるか	利用規約の該当条文を法務に確認
データ保持期間の明示	入力データが何日保持されるか	プロバイダーのDPA（Data Processing Agreement）を確認
PII除去の実施	送信前に個人情報をマスキングしているか	DLPツールまたはプリプロセッサのログ確認
管理者承認	上長またはセキュリティ担当の承認を得ているか	承認フロー（メールまたはチケット）の記録

Prompt Injection / Jailbreak 攻撃と防御

LLMアプリケーションへの攻撃手法は急速に進化している。守る側は攻撃パターンを理解し、多層的な防御を構築する必要がある。

攻撃手法の分類

攻撃種別	手法	目的	深刻度
Direct Prompt Injection	ユーザー入力にシステムプロンプトを上書きする指示を埋め込む	システムプロンプトの漏洩、指示の改ざん	高
Indirect Prompt Injection	外部データソース（Webページ、ドキュメント）に悪意ある指示を仕込む	RAGやブラウジング経由で間接的にLLMを操作	高
Jailbreak	ロールプレイや仮定の質問で安全フィルタを迂回	禁止されたコンテンツの生成	中
Training Data Extraction	特定のプロンプトパターンで学習データを引き出す	学習データに含まれる機密情報の漏洩	中
Unbounded Consumption	極端に長い入力、大量リクエスト、計算量の多い指示を投入	リソース枯渇によるサービス停止、予期しないコスト暴走	中

多層防御アーキテクチャ

単一の防御策では突破される。入力、処理、出力の3層で対策を重ねることが必須。

1

入力サニタイゼーション

入力長制限、特殊文字エスケープ、PII検出・マスキング、Rate Limiting

↓

2

ガードレール（処理層）

システムプロンプト保護、コンテンツフィルタ（Azure AI Content Safety等）、トピック制限、Prompt Shield

↓

3

出力フィルタリング

PII再検出、有害コンテンツ判定、コード脆弱性スキャン、出力長制限

↓

4

監視・ログ・アラート

全リクエストの記録、異常パターン検出、リアルタイムアラート、定期監査

社内LLM vs 外部API -- 判断フローチャート

どのLLM環境を使うべきかは、データの機密度、予算、求める精度の3軸で決まる。以下のフローに沿って判断すれば迷わない。

対象データの機密度を確認

↓

極秘・社外秘データを含む?

YES

↓

月間予算 50万円以上?

YES

↓

VPC内デプロイ
or オンプレミス

NO

↓

Private Endpoint
(Azure/AWS)

NO

↓

高精度が必要?

YES

↓

パブリックAPI
(GPT-4o, Claude等)

NO

↓

ローカルLLM
(Ollama, llama.cpp)

LLMデプロイ形態比較

4つのデプロイ形態をコスト、セキュリティ、精度、運用負荷の4軸で比較する。自社の要件に合った形態を選ぶ判断材料として使ってほしい。

パブリックAPI

初期コスト低

月額コスト従量制

セキュリティ低

精度高

運用負荷低

適用例一般的な開発支援

Private Endpoint

初期コスト中

月額コスト固定+従量

セキュリティ中

精度高

運用負荷中

適用例社内データ活用

VPC内デプロイ

初期コスト高

月額コスト固定

セキュリティ高

精度中-高

運用負荷高

適用例機密情報処理

オンプレミス

初期コスト最高

月額コスト固定

セキュリティ最高

精度中

運用負荷最高

適用例規制産業、防衛

GPUサーバーの調達が必要なVPC内/オンプレミスは、初期投資が数百万円~数千万円規模になる。一方でランニングコストは大量利用時にはAPIよりも安くなるケースがある。損益分岐点を試算してから判断すべき。

著作権・知的財産ガイドライン

AI生成物の著作権は国・地域によって法解釈が異なり、判例も発展途上にある。現時点で取るべきスタンスを整理した。

利用可（リスク低）

AIが生成したコードを参考にし、自社で書き直して使用する。アイデアの着想にAIを活用し、表現は人間が担当する。社内文書の下書き生成。

要注意（リスク中）

AI生成コードをそのまま本番コードに採用する。AI生成の文章を外部公開する。AI生成画像を商用利用する。出力のライセンス確認が必要。

禁止（リスク高）

著作権で保護されたコードを入力し、類似コードを出力させる。特定の著者・アーティストのスタイルを意図的に模倣する。出力を自作と偽って公開する。

観点	現状の主流的見解	対応方針
AI生成物の著作権帰属	人間の創作的関与がなければ著作権は発生しない（日米共通の傾向）	人間が実質的に関与した記録を残す
学習データの適法性	日本の著作権法30条の4で一定の機械学習は許容。ただし「享受目的」は不可	利用するモデルのトレーニングデータポリシーを確認
出力のライセンス汚染	GPLやCopyleftライセンスのコードが混入するリスクあり	出力コードのライセンスチェックツールを導入
社内ポリシーとの整合	多くの企業がAI利用ポリシーを策定中	法務部門と連携し、自社ルールを明文化

社内LLM利用規程テンプレート

以下のテンプレートをベースに、自社の状況に合わせてカスタマイズすることを推奨する。法務・情シス・事業部門の三者で合意を取って策定する。

第1章総則

目的と適用範囲の明示
用語の定義（LLM、生成AI、プロンプト等）
管理責任者の指定（CISOまたは情報セキュリティ部門長）

第2章利用基準

承認済みサービスの一覧と利用条件
データ分類と利用可否マトリクス（上記の表を引用）
禁止行為の列挙（個人情報入力、ソースコード丸ごと入力等）
業務外利用の可否

第3章セキュリティ要件

通信の暗号化（TLS 1.2以上）
認証・認可（SSO、RBAC）
ログの取得と保存期間（最低1年）
DLPツールの導入義務

第4章出力の取扱い

出力の正確性確認義務
出力に基づく意思決定時の人間レビュー必須
著作権・ライセンスチェックの手順
外部公開時の承認フロー

第5章インシデント対応

報告窓口と初動対応フロー
影響範囲の調査手順
再発防止策の策定と実施

第6章教育・監査

全従業員向け年次研修の実施
四半期ごとの利用状況監査
規程の年次見直し

インシデント対応フロー

LLM経由で情報漏洩が発覚した場合、速度が勝負になる。初動の遅れが被害を拡大させる。以下は発覚から再発防止までの一連の流れ。

漏洩発覚
検知・報告

即時

→

初動対応
利用停止・隔離

30分以内

→

影響調査
範囲特定

24時間以内

→

報告
経営・当局

72時間以内

→

再発防止
ルール改訂

1-2週間

各フェーズの詳細

フェーズ	目標時間	実施事項	担当
検知・報告	即時	異常を発見した時点でセキュリティチームに一報。ログを保全。当事者へのヒアリング開始	発見者 + セキュリティチーム
初動対応	30分以内	対象サービスの利用停止。APIキーの無効化。影響を受けた可能性のあるアカウントの一時凍結	セキュリティチーム + 情シス
影響調査	24時間以内	送信データの特定。影響を受けた顧客・データの範囲確定。LLMプロバイダーへのデータ削除要請	セキュリティチーム + 法務
報告	72時間以内	経営層への報告。個人情報保護委員会への報告（該当する場合）。顧客への通知判断	CISO + 法務 + 広報
再発防止	1-2週間	原因分析（RCA）の実施。利用規程の改訂。技術的対策の追加導入。全社周知と再教育	全関係部門

セキュリティ監査チェックリスト（四半期ごと）

以下の項目を四半期に1回確認する。チェック結果は記録として残し、経営層にレポートする。

アクセス管理LLMサービスへのアクセス権限が最小権限の原則に従っているか

アクセス管理退職者・異動者のアカウントが速やかに無効化されているか

データ保護DLPツールが正常に稼働し、PII検出ルールが最新か

データ保護外部APIへの送信データにおいて機密情報のマスキングが機能しているか

ログ管理全LLM利用のログが取得・保存されているか（入力・出力・ユーザーID・タイムスタンプ）

ログ管理ログの改ざん防止措置が取られているか

利用状況承認済みサービス以外のLLMが無断で利用（シャドーAI）されていないか

利用状況利用量が想定の範囲内か。異常な利用パターンがないか

脆弱性LLMアプリケーションの依存ライブラリに既知の脆弱性がないか

脆弱性Prompt Injection テストを実施し、防御が有効か

契約LLMプロバイダーとの契約条件（データ保持、学習データ不使用）が遵守されているか

契約プロバイダーのセキュリティ認証（SOC2等）が有効期限内か

教育全対象者がLLM利用ガイドライン研修を受講済みか

教育インシデント報告フローが全員に周知されているか

規程LLM利用規程が最新の法規制・ガイドラインに準拠しているか

OWASP Top 10 for LLM Applications 2025

OWASPがLLMアプリケーション固有のセキュリティリスクをTop 10として整理している。2025版は2023年の初版から大幅に改訂され、LLMエージェントの普及やRAGの一般化を反映した内容に刷新された。自社のLLMアプリケーションがこれらに対応できているか、定期的に確認すべき。

01

Prompt Injection

悪意あるプロンプトでモデルの動作を改ざん。Direct（直接入力）とIndirect（外部データ経由）の2種類。入力検証とシステムプロンプトの分離で対策

02

Sensitive Information Disclosure

学習データ、RAGシステム、ユーザー入力を通じて個人情報や機密情報が露出するリスク。2023版の6位から大幅に順位が上昇

03

Supply Chain

データセット、アダプター、事前学習モデルなど外部コンポーネントに潜むバイアスやバックドアの脆弱性

04

Data Poisoning

学習データ、ファインチューニングデータ、Embeddingデータを操作し、モデルの性能を劣化させたり有害な出力を生成させる攻撃

05

Improper Output Handling

LLM出力を未検証のまま下流システムに渡すリスク。意図しないDB操作やシステム侵害を引き起こす可能性

06

Excessive Agency

エージェントシステムに過大な機能・権限・自律性を付与し、意図しない有害なアクションを実行させてしまう問題

07

System Prompt Leakage 新規

システムプロンプトに埋め込まれた内部ルール、フィルタ条件、認証情報などが漏洩し、攻撃の手がかりを与えるリスク

08

Vector and Embedding Weaknesses 新規

RAGシステムにおけるベクトル生成・格納・検索の脆弱性。インジェクション攻撃や不正アクセスの経路となる

09

Misinformation

ハルシネーションやバイアスにより、事実と異なるが信憑性の高い情報を生成し、現実の被害を引き起こす問題

10

Unbounded Consumption

入力サイズや大量リクエストによるリソースの無制限消費。性能劣化だけでなく、予期しないコスト暴走を引き起こす

OWASP Top 10 for LLM Applications は2025版（v2025）が最新。2023年の初版から、System Prompt Leakage と Vector and Embedding Weaknesses が新たに追加され、Model DoS は Unbounded Consumption（コスト暴走を含む）にリネームされた。LLMの進化に伴い項目は更新されるため、年次での見直しを推奨する。

用語集

Prompt Injection

悪意ある指示をプロンプトに埋め込み、LLMの動作を意図的に改ざんする攻撃手法。Direct（直接入力）とIndirect（外部データ経由）の2種類がある。

Jailbreak

LLMに設定された安全制約やコンテンツフィルタを迂回し、禁止されたコンテンツを生成させる行為。ロールプレイや仮定質問が典型的手法。

Guardrail

LLMの入出力に対して設定する安全装置。入力フィルタ、出力フィルタ、トピック制限などを含む。Azure AI Content Safety、NeMo Guardrails、Lakera Guard等のツールがある。

PII (Personally Identifiable Information)

個人を識別できる情報の総称。氏名、住所、メールアドレス、電話番号、マイナンバー等。LLMへの入力時にマスキングが必要。

DLP (Data Loss Prevention)

機密データの外部流出を防止するための技術・製品群。LLM利用においては、送信データ内のPIIや機密情報を検出・ブロックする役割を担う。

RBAC (Role-Based Access Control)

ロール（役割）に基づいてアクセス権限を管理する方式。LLMサービスにおいても、ロール別に利用可能な機能やデータ範囲を制御する。

SSO (Single Sign-On)

一度の認証で複数のサービスにアクセスできる仕組み。SAML、OAuth 2.0/OIDC が主なプロトコル。LLMサービスへのアクセス管理に必須。

SOC2

クラウドサービスのセキュリティ・可用性・処理の完全性・機密性・プライバシーに関する監査報告書。LLMプロバイダー選定時の重要な評価基準。

GDPR (General Data Protection Regulation)

EUの個人データ保護規則。EU居住者のデータを扱う場合に遵守が必要。LLMへの個人データ入力はGDPRの処理根拠が求められる。

Zero Trust

「何も信頼しない」を前提としたセキュリティモデル。ネットワーク内外を問わずすべてのアクセスを検証する。LLMアプリケーションの構築にもこの思想を適用すべき。

Adversarial Attack

AIモデルを騙すために設計された入力。LLMにおいてはPrompt Injection やJailbreakが代表的。画像モデルへの敵対的サンプルも含む概念。

Red Teaming

AI安全性テストの標準手法。Prompt Injection、Jailbreak、バイアス誘発など多様な攻撃シナリオでLLMアプリケーションを意図的に攻撃し、脆弱性を発見する。リリース前の安全性評価に不可欠。

System Prompt Leakage

OWASP Top 10 for LLM 2025版で新たに追加された脆弱性。システムプロンプトに含まれる内部ルール、フィルタ条件、認証情報などが攻撃者に漏洩するリスクを指す。

Unbounded Consumption

OWASP Top 10 for LLM 2025版で旧 Model DoS からリネームされた概念。リソース枯渇によるサービス停止に加え、APIコストの暴走も含む広い定義に拡張された。

参考URL

OWASP Top 10 for LLM Applications 2025 genai.owasp.org OWASP Top 10 for LLMs v2025 (PDF) owasp.org Azure AI Content Safety learn.microsoft.com Anthropic - Build with Claude / Guardrails docs.anthropic.com Google Cloud - AI Security cloud.google.com NIST - Artificial Intelligence nist.gov NIST AI 600-1: AI Risk Management Framework - Generative AI Profile nvlpubs.nist.gov 経済産業省 - AI事業者ガイドライン meti.go.jp 個人情報保護委員会 - 個人情報の保護に関するガイドライン ppc.go.jp