「あの情報、どこに書いてあったっけ?」問題
社内マニュアル、就業規則、製品仕様書、議事録——。会社には大量のドキュメントがあります。しかし、必要な情報を探すのに毎回苦労していませんか?
「有給休暇って入社何ヶ月後からもらえるんだっけ?」
「エラーコードE004の対処法は?」
「リモートワークのルールってどこに書いてある?」
こうした質問に対して、**ドキュメントをAIが読み解き、即座に回答してくれるシステム**を構築しました。
RAG(Retrieval-Augmented Generation)とは
RAGは「検索拡張生成」と訳される技術で、以下の3ステップで動作します。
Step 1: ドキュメントの準備 — PDF・テキストファイルを読み込み、検索しやすい単位(チャンク)に分割
Step 2: 検索(Retrieval) — ユーザーの質問に関連するチャンクを検索して取得
Step 3: 生成(Generation) — 取得したチャンクをコンテキストとしてAI(LLM)に渡し、回答を生成
ポイントは、**AIが自分の知識ではなく、御社のドキュメントに書かれた内容だけを根拠に回答する**ことです。これにより、ハルシネーション(AIの嘘)を最小限に抑えられます。
実際に作ったもの
今回構築したデモシステムの構成は以下の通りです。
フロントエンド — Next.js(TypeScript)によるチャットUI
PDF解析 — pdfjs-distでクライアントサイドのテキスト抽出
チャンク分割 — パラグラフ単位で500文字ごとに分割(オーバーラップあり)
検索 — 日本語N-gramベースのキーワード検索(BM25的スコアリング)
AI回答生成 — Google Gemini 2.5 Flash / Anthropic Claude(切替可能)
検索精度を上げるためのポイント
日本語のRAGでは、英語と違って「単語の区切り」が明確でないため、検索精度の確保が重要です。
N-gram分割 — 「退職したいときはいつまでにいえばいい?」→「退職」「退職し」等の部分文字列を自動生成
長い一致ほど高スコア — 「退職金」(3文字一致)は「退」(1文字一致)より高スコア
十分なチャンク数をAIに渡す — 上位10件のチャンクを渡すことで、回答に必要な情報の見落としを防止
デモを公開しています
実際に動くデモを公開しています。PDFやテキストファイルをアップロードして、ドキュメントに質問してみてください。
**デモはこちら → /lab/rag-demo**
Gemini / Claude の切り替えも可能です。
こんな活用シーンに
社内マニュアルのAI化 — 新入社員が規程や手順書に質問できるチャットボット
製品マニュアルの問い合わせ対応 — カスタマーサポートの一次対応を自動化
技術文書の知識共有 — ベテランが退職しても、ドキュメントの知見をAIが継承
法務・コンプライアンス — 規程・契約書から必要な条項を即座に検索
御社でも導入しませんか?
「うちの社内マニュアルでも試してみたい」「自社のドキュメントに特化したRAGシステムを構築したい」という方は、お気軽にご相談ください。PoCから本番導入まで一貫して対応します。
AI活用の無料相談を申し込む →