こんにちは、OSS よろず相談室の鹿島です。

はじめに

今回は、DifyとAmazon Bedrockを連携させて、チャットボットとRAG（検索拡張生成）を構築する手順の4回目、最終回です。

前回までで、構築したDify環境とAmazon Bedrockを連携させ、チャットボットを作成しました。

今回は、RAGを作ってみます。

DifyのRAGは、PDFやテキストなどの社内文書を知識ベースとしてAIに組み込むことができる機能です。
これにより、AIはインターネット上にない社内情報や専門的な質問にも、正確な根拠を持って回答できるようになります。

　ステップ１ナレッジを作成する

以下のURLにアクセスします。
http://[DifyをインストールしたマシンのIPアドレス]

【実践】Dify + Amazon Bedrockで、ゼロからチャットボットと RAG を作る①でアカウントを作成してログインしていますので、ホームのページが表示されます。

①「ナレッジ」②「ナレッジを作成」を選択します。

ステップ2　ナレッジを登録する

ナレッジとして登録するサンプルとして、厚生労働省が公開しているモデル就業規則をダウンロードしましょう。
以下のページから「モデル就業規則」のPDF版をダウンロードしてください。
https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/koyou_roudou/roudoukijun/zigyonushi/model/index.html

ナレッジのデータソースの選択画面で、①「テキストファイルからインポート」②「テキストファイルをアップロード」を選択します。
ダウンロードしたPDFファイルを選択してアップロードします。最後に「次へ」を選択します。

ステップ3　ナレッジの設定をする

はじめに、チャンクの設定をします。
チャンクとは、RAG（検索拡張生成）において、AIが扱いやすいようにドキュメントや知識ベースを分割した小さな情報の塊のことです。
長文をそのままAIに入力すると、重要な情報を見落としたり、処理の負荷が高くなったりする問題が発生します。
このチャンク単位で情報を検索し、質問に関連性の高い部分だけをAIに渡すことで、回答の精度と効率を向上させます。

チャンクの詳細については「弊社ブログ(チャンキング)」を参照してください。

ここではデフォルトのまま進めます。

次に「インデックス方法」という選択肢があります。
「経済的」は無料で使用できますが、キーワード検索が中心となります。
今回は、「【実践】Dify + Amazon Bedrockで、ゼロからチャットボットと RAG を作る②」でAmazon Bedrockでの設定/本記事で利用するモデルで、RAG用に以下のモデルを有効にしました。

Titan Text Embeddings V2
Rerank 1.0

これらのモデルを活用して高精度な検索を実現するため、今回は「高品質」を選んでみましょう。

高品質を選択すると、「埋め込みモデル」を選択できます。
注意点として、ここの選択肢には、Amazon Bedrockの設定で有効にしなかったモデルも表示されます。
有効にしていないモデルを選択すると、ここではエラーになりませんが、後にナレッジベースの作成でエラーになります。
有効にしたモデル、ここでは「amazon.titan-embed-text-v2:0」を選択します。

次に、「検索設定」を選択します。
検索方法には3種類あり、「ベクトル検索」は文章の意味の近さで探し、「全文検索」はキーワードの一致で探します。そして、両方を組み合わせた「ハイブリッド検索」が最も精度が高いとされ、推奨されています。

ここでは推奨の「ハイブリッド検索」を選択します。
検索設定では、「rerankモデル」を選択します。

ここでも、Amazon Bedrockの設定で有効にしなかったモデルも選択肢に表示されますが、有効にしたモデルを選択します。
ここでは、「amazon.rerank-v1:0」を選択します。

最後に「保存して処理」をクリックします。