RAGをPoCから本番に進めると、精度より先に詰まりやすいのがデータベース設計です。2026年の実務では、チャンク分割・埋め込み・評価指標を最初に揃えるだけで、後工程の手戻りをかなり減らせます。この記事では30分で確認できる設計チェックリストに絞って整理します。
RAGデータベース設計で最初に決めるべきことは何か?
最初に決めるべきは、①検索対象の文書粒度、②1回の検索で返す文脈量、③評価方法の3点です。ここが曖昧だと、ベクトルDBを選んでも精度改善の打ち手が見えません。設計開始時点で『FAQ中心』『社内規程中心』『仕様書中心』のように文書タイプを分け、検索結果を何件返すか、どの質問セットで良し悪しを判定するかを先に固定するのが安全です。
特に本番運用では、文書追加の頻度と再埋め込みのコストも初期条件に入れるべきです。日次更新が多いナレッジベースなら、精度だけでなく更新速度・監査しやすさ・メタデータ設計まで見ないと後で詰まります。
チャンク分割は何文字・何トークンから始めるべきか?
OpenAIのRetrievalガイドでは、vector storeの既定チャンク設定として800 tokens、overlap 400 tokensが示されています。一方、Microsoft LearnのAzure AI Searchドキュメントでは、まず512 tokens・overlap 25%から試すことを推奨しています。つまり正解は1つではなく、『文書構造を壊さずに検索で意味が取れる最小単位』から始め、評価で調整するのが実務的です。
チェックリストとしては、1チャンクに論点を1つ入れる、見出しを持たせる、箇条書きと本文を分断しすぎない、の3点が基本です。規程や仕様書のように節構造が強い文書は見出し単位、議事録やFAQは話題転換単位で切る方が失敗しにくいです。Azureは固定長だけでなく文構造ベースやsemantic chunkingも案内しており、長文PDFをそのまま等間隔で切る設計は避けた方がよいと分かります。
→ AI・Claude研修のご相談は「お問い合わせフォーム」からどうぞ
埋め込み設計では何をそろえると精度が安定するのか?
埋め込み設計では、モデル選定より前に『同じ前処理を全データへ適用する』ことが重要です。全角半角、改行、表記ゆれ、不要なヘッダーやフッターが混ざると、似た内容でもベクトルがばらつきます。またAzure OpenAIの説明では text-embedding-3-small の入力上限は8,191 tokensです。上限ぎりぎりまで詰め込むより、検索で意味が揃う単位に整形してから投入した方が比較しやすくなります。
最低限そろえたい項目は、document_id、見出し、更新日、権限、業務カテゴリのメタデータです。これがあると検索前フィルタと検索後再ランキングの両方がやりやすくなります。社内文書RAGなら『閲覧権限で絞る→ベクトル検索→タイトル付きで回答生成』の順にすると、精度とガバナンスを両立しやすいです。
評価指標はどの順番で見ると改善しやすいか?
評価は『検索』『回答』『運用』の3層で見ると改善が速いです。Microsoft FoundryのRAG evaluatorsでは、Retrieval、Groundedness、Relevance、Response Completenessなどが整理されています。実務ではまず retrieval hit率や上位k件の妥当性を見て、次に groundedness で幻覚を抑え、最後に relevance と response completeness で答えの役立ち度を確認する流れが分かりやすいです。
30分で確認するなら、代表質問を10件用意し、『欲しい文書が上位3件に入るか』『回答が根拠文を引用できるか』『回答時間が許容内か』を表で記録するだけでも十分です。ここで失敗パターンを『チャンクが細かすぎる』『埋め込み前処理が不統一』『権限フィルタ不足』に切り分けられると、改善の優先順位がはっきりします。
2026年版の実務チェックリストをどう使えばよいか?
本番前の最終確認は次の順で進めるのがおすすめです。1) 文書タイプ別に chunking 方針を分ける。2) 埋め込み前処理とメタデータ項目を固定する。3) 代表質問10件で retrieval と groundedness を確認する。4) 更新頻度に応じて再埋め込み手順を決める。5) 権限付き文書は検索前フィルタを必須にする。ここまで決めておけば、ベクトルDBの製品差より運用差で精度が落ちる事故を防ぎやすくなります。
FAQとしてよくあるのは『先にベクトルDBを決めるべきか?』という質問ですが、答えはNoです。先に決めるべきなのは文書粒度と評価基準です。製品選定はその後でも遅くありません。逆にこの順序を守らないと、比較検証しても何が良かったのか説明できなくなります。