AI・生成AI・IoT・先端技術

生成AIコスト最適化の切り札：セマンティックキャッシュとプロンプトキャッシュを徹底比較

公開 : 2026.05.13

なぜ生成AIのコストは膨らみやすいのか
生成AIで押さえるべき「セマンティックキャッシュ」と「プロンプトキャッシュ」
AIエージェント開発の実体験
ユースケース別：セマンティックキャッシュかプロンプトキャッシュか
キャッシュ導入で陥りがちな落とし穴
- プロンプトキャッシュの落とし穴
  - プロンプト順序を意識せず、プロンプトキャッシュが効いていない
- セマンティックキャッシュの落とし穴
キャッシュ以外の生成AIコスト最適化の方法
- モデル選定：高性能モデルは必要な場面だけ
- プロンプトを短くする：不要な前置き・重複の削減
まとめ：2つのキャッシュを使い分ける
業務用AIエージェント開発・コスト最適化はNCDCにご相談ください

「生成AIを導入したはいいが、毎月の請求額が想定より高くなってしまった」「使えば使うほどコストが膨らんでいく気がする」生成AIを業務で活用する企業の担当者から、こうした声がよく聞かれます。

弊社NCDCでも、法人向けAIエージェント「BizAigent」を開発・提供する中で、このコスト問題と向き合ってきました。本稿では、本番運用に耐えうるコスト効率を実現するまでの過程で得た知見を共有します。

生成AIのコスト最適化には、モデル選定、プロンプト設計などさまざまな打ち手がありますが、その中でも、運用フェーズで特に効果を発揮するのが「キャッシュ」の活用です。

ただし、LLM（大規模言語モデル：生成AIのうち特にテキスト処理に特化したモデル）の世界で「キャッシュ」と一括りに語られているものは、実際には性質の違うものが複数あり、これを混同したまま設計を進めると効果を得たい箇所で機能しないという事態が起きます。

なお、本題に入る前に用語の整理をしておきます。

本稿では、「プロンプト」という言葉をLLMに送る入力全体を指す広い意味で使います。具体的には、ユーザーが入力した質問だけでなく、システムプロンプト、過去の会話履歴、参照文書、ツール定義などすべてを含みます。厳密にはこれらを「コンテキスト」と呼ぶ場合もありますが、用語を増やすと話が複雑になるため、本稿では区別しません。

なぜ生成AIのコストは膨らみやすいのか

課金の仕組み：トークン・回数・モデル差

生成AIの利用料は「LLMに送った文字数+LLMから返ってきた文字数」で決まります。
正確には、文字や単語を「トークン」という単位に区切って数えます。トークン数の目安は以下の通りです。

日本語：およそ1文字=1〜3トークン
英語：1単語=1トークン程度

コスト構造を整理すると、料金はおおむね次の式で決まります。

料金=(入力トークン数×入力単価+出力トークン数×出力単価)×呼び出し回数

従来のシステムとの構造的違い

生成AI呼び出しのコスト構造は、従来のシステムとは根本的に異なります。

項目	従来のWebアプリ	生成AIアプリ
1リクエストの処理コスト	ほぼゼロ(CPU時間のみ)	数円〜数十円
レスポンス時間	数十ミリ秒	数秒〜十数秒
主な変動要因	リクエスト数	トークン量×モデル単価

従来のWebアプリも、もちろんインフラコストはかかります。ただし1リクエストあたりの単価が桁違いに小さく、トラフィックが増えても比例的に積み上がるだけでした。一方、生成AIは1リクエストあたりのコストが大きく、しかも入力データのサイズによって1桁以上変動するという構造になっています。同じユーザー数でも、扱うデータの設計次第で月額コストが何倍も変わります。

入力トークンの「肥大化」が起きる構造

特に問題になるのが「入力トークンの肥大化」です。

生成AIアプリでは、ユーザーの質問本文以外にも毎回さまざまな情報を一緒にLLMに送る必要があります。

システムプロンプト：生成AIの役割や応答ルールを定義する指示文(毎回固定)
ツール定義：LLM単体ではメールを送ったり社内システムを操作したりはできないため、「使える外部ツール」の一覧と使い方を毎回LLMに教える必要がある(毎回固定)
過去の会話履歴：文脈を保つためにセッション内で積み上がる履歴
RAGで取得した社内文書：外部の文書データベースから関連情報を検索し、それをもとに回答の精度を高める技術（RAG）を用いると、その情報は質問ごとに動的に取得されるため、数千〜数万トークンに及ぶことも

ユーザーが質問本文に「こんにちは」と5文字打っただけでも、その裏では大量のデータがLLMに送られている。

そんな状況が、業務活用される生成AIアプリでは起きがちです。

生成AIで押さえるべき「セマンティックキャッシュ」と「プロンプトキャッシュ」

「キャッシュ」とは一般に、「一度作った結果を保存しておき、次回以降に再利用する仕組み」のことです。生成AIのコスト削減でも、このキャッシュが有効です。

生成AIの周辺にも複数のキャッシュ機構が存在します。
その中でも、生成AIを業務活用するうえでコスト最適化の中心となるのが、次の2つです。

セマンティックキャッシュ(意味的キャッシュ)
プロンプトキャッシュ

2つのキャッシュは「働く層」が違う
この2つは、名前は似ていても働く場所も効果も使いどころも全く違います。
ユーザーの質問がLLMに届くまでの経路を分解すると、以下のようになります。

セマンティックキャッシュ:そもそもLLMを呼び出さない

セマンティックキャッシュは、LLMへの問い合わせを行う手前の段階で動きます。ユーザーから質問が来たら、過去に答えたことのある質問群と「意味の近さ」を比較し、十分に似た質問が見つかれば、過去の回答をそのまま返却します。LLMへの問い合わせは発生しません。

「東京の人口は？」「東京って何人住んでるの？」「Tokyoのpopulation教えて」これらは表現が違っても意味は同じです。一度答えを出しておけば、次回以降はLLMを呼び出さずに即座に同じ答えを得られます。

削減されるのは「LLMの呼び出しそのもの」です。

プロンプトキャッシュ:LLM内部の計算を使い回す

一方、プロンプトキャッシュはLLMの内部で動きます。

LLMは本来、入力された全トークンを毎回ゼロから解釈(専門用語で言うAttention計算)します。プロンプトキャッシュは、プロンプトの中で同じ部分の計算結果を保存しておき、次回以降そこを再計算せずに使い回す仕組みです。

リクエスト自体はLLMに届きます。出力も毎回新しく生成されます。削減されるのは「入力解釈にかかる計算コスト」です。
それでもインパクトは大きく、AnthropicClaudeのプロンプトキャッシュでは、キャッシュヒット時の入力トークン課金が通常の10%程度まで下がります。また、レスポンス時間も大幅に短縮されます。

セマンティックキャッシュとプロンプトキャッシュの違い　まとめ

観点	セマンティックキャッシュ	プロンプトキャッシュ
動作する層	API/アプリ層	LLM/推論エンジン内部
LLMに届くか	届かない	届く
判定基準	質問の意味の類似度	プロンプトの固定部分の一致
削減対象	LLM呼び出しそのもの	入力トークンの解釈コスト
出力の決定性	過去の回答をそのまま返す	毎回新しく生成
実装場所	自社アプリに組み込む	プロバイダー側で対応(アプリ層はキャッシュを使うようにパラメータを指定）
効きやすい条件	同じ意味の質問が繰り返されるケース	長い固定の前置きが毎回送られるケース

また、この2つは競合せず、組み合わせて使うこともできます。セマンティックキャッシュでヒットしなかった質問をLLMに投げ、その際にプロンプトキャッシュで入力処理を高速化するということも可能です。

※本稿執筆時点（2026年5月）の情報です。TTLの長さ、最低トークン数、対応モデル、課金方式などは各ベンダーで頻繁にアップデートされるため、実装時には必ず最新の公式ドキュメントを参照してください。

補足:「コンテキストキャッシュ」という用語について

ここで一点、用語の整理をしておきます。LLM関連の記事を読んでいると、コンテキストキャッシュ(ContextCaching)という言葉に出会うことがあります。「これはプロンプトキャッシュと違うものなのか?」という疑問を持たれた方もいるかもしれません。

結論から言えば、コンテキストキャッシュはプロンプトキャッシュと同じカテゴリの技術です。どちらもLLM内部で「同じ前置きの計算結果を使い回す」仕組みであり、働く層も効果も基本的には同じです。

ただし、ベンダーごとに名称や仕様が異なる点には注意が必要です。

AnthropicClaude:名称は「PromptCaching」。自動で動作するモードとキャッシュの対象を明示的に指定するモードとがある。
GoogleGemini:名称は「ContextCaching」。自動で動作するモードと、キャッシュの対象を明示的に指定するモードとがある。テキスト以外に動画・音声にも対応。
OpenAIGPT:名称は「PromptCaching」。設定不要で自動的に機能する。

本稿ではこれらLLM内部のキャッシュ機構を総称して「プロンプトキャッシュ」と呼んでいます。

AIエージェント開発の実体験

ここからは、私たちが法人向けAIエージェント「BizAigent」の開発で実際に直面した問題を共有します。技術的な詳細は弊社エンジニアがZenn記事でも公開しています。

ほぼ自分しか使ってないのに利用料が高い

BizAigentは、Box、Slack、Gmailといった社内システムとMCPサーバー（AIモデルと外部データソースやツールを接続するためのサーバー）経由で連携し、業務タスクを自動実行する法人向けAIエージェントです。

開発中、社内検証で使っているだけなのに生成AI利用料が異常に高額になっていることに気付きました。ログを取って調べてみると、以下の事実が判明しました。

ユーザーが「こんにちは」と5文字打っただけのリクエストで、入力トークンが約21,786トークン消費されていたのです。

たった一言の挨拶で、大量のトークンが消費されている。これでは本番運用は到底成り立ちません。

原因はMCPツール定義の肥大化

調べてみると、原因はMCPサーバー連携で渡されるツール定義にありました。

MCPでは、AIエージェントが使えるツール(例:Boxのファイル検索、Slackのメッセージ送信など)を、毎回LLMに「使えるツール一覧」として伝える必要があります。1ツールあたりの定義は約1,000文字。BoxのMCPサーバーだけで10個以上のツールがあるため、それだけで1万文字超。複数のMCPサーバーを連携すると、10万文字を超えることもあります。

ユーザーが「こんにちは」と打っても、その裏では毎回数万文字のデータがLLMに送られ、その全文に対して課金されていたわけです。

プロンプトキャッシュ活用で97.5%の再利用に成功、コスト75〜80%削減

このコスト構造のままでは、本番運用に耐えられません。そこでAnthropicClaudeのプロンプトキャッシュを有効化しました。

MCPのツール定義はリクエストごとに変わらない完全に固定の前置きなので、プロンプトキャッシュとの相性は良く、結果は以下の通りでした。

入力トークン21,786のうち、21,097トークン(97.5%)の再利用に成功
金額ベースで75〜80%のコスト削減
レイテンシも体感で大幅に改善

「ほぼ自分しか使ってないのに高い」状態から、本番展開に耐えるコスト効率まで一気に改善ができました。

この経験から得た教訓

AIエージェントを業務で本気で運用するなら、プロンプトキャッシュは必須です。特にMCPや複数のツール連携を使うエージェント型用途では、有効化するかしないかで、コストが大きく異なります。

ユースケース別：セマンティックキャッシュかプロンプトキャッシュか

生成AIの業務活用でよくあるユースケースについて、どちらのキャッシュがどう効くのかを整理します。

ケース1：社内ヘルプデスクのチャットボット

社内FAQ系のチャットボットでは、「経費精算の締切はいつですか」「経費精算の締切日は？」のように、同じ意味の質問が毎日繰り返し届きます。

効くキャッシュ：セマンティックキャッシュ
理由：よくある質問に一度回答すればキャッシュに乗り、以降はLLMを呼ばずに数十ミリ秒で返答できる
注意点：「私の有給日数は？」のように個人や時期に依存する質問まで意味類似度でマッチさせると、誤った回答を返してしまう。

ケース2：社内文書検索(RAG)

社内規定や技術文書など外部の文書データベースから関連情報を検索し、その文書をもとに回答の精度を高めるRAG構成。

効くキャッシュ：プロンプトキャッシュ
理由：RAGではシステムプロンプト・回答ルール・検索でヒットした文書本文など、毎回数千トークンに及ぶ大量の入力をLLMに渡すため。システムプロンプトや回答ルールは固定なのでキャッシュが有効

ケース3：AIエージェント(タスク自動化)

メール作成、データ集計、社内システムの操作などをLLMに任せるエージェント型の用途。前述のBizAigentはこのカテゴリです。

効くキャッシュ：プロンプトキャッシュ（特に有効）
理由：
- MCPやツール定義による巨大な前置きがある
- エージェントは1タスクで何度もLLMを呼ぶ（平均5〜20回）
- システムプロンプト・業務ルールが共通

ケース4：カスタマーサポートの一次対応

毎月の報告書を同じフォーマットで要約する、決まったテンプレートに沿って文章を整形する、定型文を英語に翻訳する、といった処理。

効くキャッシュ：プロンプトキャッシュ
理由：処理ルールやフォーマット指示などの「お決まりの前置き」が毎回同じで、変わるのは対象テキストだけという構造のため、キャッシュとの相性が良い

ケース5：要約・整形・翻訳などの定型処理

毎月の報告書を同じフォーマットで要約する、決まったテンプレートに沿って文章を整形する、定型文を英語に翻訳する、といった処理。

効くキャッシュ：プロンプトキャッシュ
理由：処理ルールやフォーマット指示などの「お決まりの前置き」が毎回同じで、変わるのは対象テキストだけという構造のため、キャッシュとの相性が良い

キャッシュ導入で陥りがちな落とし穴

キャッシュ導入時に起こりがちな代表的な落とし穴には次のようなものがあります。

プロンプトキャッシュの落とし穴

プロンプト順序を意識せず、プロンプトキャッシュが効いていない

プロンプトキャッシュは「前方に固定の内容、末尾にユーザーごとに変わる内容」を配置するのが基本です。可変要素を先頭に置いてしまうと、有効化したつもりでも全くヒットしないことがあります。
※ベンダー、キャッシュ方式によって異なります

ベンダーごとのキャッシュ仕様の違いを把握していない
プロンプトキャッシュは、AnthropicClaude、GoogleGemini、OpenAIなど、ベンダーごとに名称・最低トークン数・TTL・課金方式・キャッシュの一致判定方法が異なります。
また、同じベンダーでもキャッシュの指定方法（明示的か暗黙的かなど）が異なったりします。
仕様を理解せずに使うと、想定したヒット率が得られないことがあります。
実装時には必ず最新の公式ドキュメントを確認することが重要です。