一般設定
- 言語: 処理の主要言語を選択します(例:英語の場合は EN)。
- 文字起こしプロバイダー: 音声/ビデオコンテンツの文字起こしに使用するサービスを選択します(例:AssemblyAI)。
- PIIの匿名化: 取り込み時に個人を特定できる情報(PII)を編集するかどうかを指定します(例:FALSE)。
ドキュメント処理タイプ
ドキュメントの解析および埋め込み方法を選択できます。
テキスト処理
テキストベースのドキュメントの標準処理。- 処理タイプ: Text を選択します。
画像処理
視覚的なレイアウトが重要なドキュメント(チャート、図など)のための高度な処理。
- 処理タイプ: Image を選択します。
- ページ画像LLM: ページ画像を分析できる視覚機能をサポートするLLM(例:Gemini 2.5 FLASH)を選択します。
- ページ画像プロンプト: LLMが検索用の包括的な説明を生成するための役割と目標を定義します。
SQL取り込み
- SQL取り込みLLM: (オプション)該当する場合、SQL関連の取り込みを処理するための特定のLLMモデルを選択します。
- SQL取り込みプロンプト: スキーマ構造とセマンティクスを分析するための指示をカスタマイズします。
チャンキング戦略
長いドキュメントを検索用に小さなセグメントに分割する方法を設定します。- 親子関係を有効にする: コンテキスト保持を向上させるために親子チャンキングを使用するように切り替えます。
- 子チャンクサイズ: 子チャンクあたりの文字数/トークン数(例:1000)。
- 子チャンクの重複: 連続性を維持するための連続チャンク間の重複(例:100)。