Uncategorized - LLM recovery lab

生成AIの活用事例 – Lemonadeが保険業界でAIを駆使する方法

数年前、アメリカに「Lemonade」という名前の保険会社があることを知って驚きました。この名前の由来は、「伝統的な保険モデルに代わる、若い世代や価値志向の消費者に合った、爽やかで現代的な選択肢を創出するというブランド哲学を体現している」ようです。 Lemonadeの創業者たちは、AIが人間より効率的かつ正確に保険サービスを提供できると信じて、この会社を立ち上げました。2023年6月には、AIチャットボット「AI Jim」が、わずか2秒で保険のクレーム処理を完了させるという驚きの成果を達成しました。この会社の変革の旅について学んでいますが、それがいかに現実的で、顧客にとって意味のある価値を提供しているかに感銘を受けました。 AIの保険業界における未来マッキンゼーによれば、AIが保険業界に与える影響は「壊滅的（seismic）」であり、保険の流通、引受け、決済だけでなく、保険会社自体のビジネスモデルも大きく変わると予測しています。具体的には、保険会社のモデルは「検出と修復」から「予測と防止」へと移行するとのことです。マッキンゼーは、2030年の保険業界を予測し、AIがリアルタイムでリスクに基づいて保険料を調整し、自動運転車のドライバーに最も安全なルートを提案するシーンを描いています。また、生命保険も「生きた分だけ支払う」形で自動的に調整され、顧客は追加料金を即座に支払うことになります。さらに、駐車場の看板に車をぶつけた場合、車両が自動的に損傷を評価し、クレーム処理の指示をアシスタントが行うという未来が予測されています。2021年の予測時点では「視界の先」にあると言われたこの未来も、AI技術の進展により、現在ではますます現実味を帯びてきています。さて、Lemonadeの革新的な取り組みを紹介します Lemonadeは、AIと機械学習を使用して2023年に世界記録を打ち立て、2秒で保険クレームを処理しました。AIチャットボット「AI Jim」は、クレームを評価し、ポリシー条件を確認し、数十の詐欺防止アルゴリズムを使用した後、支払い指示を顧客の銀行に直接送信しました。この革新的なInsureTech企業は、AIチャットボットとクラウドを組み合わせ、「ヒューマン・イン・ザ・ループ（HITL）」として顧客を巻き込み、保険会社と顧客間の不信感を排除しました。クレームを提出する際、Lemonadeの顧客はチャットボットに何が起きたのかを伝えるだけで、カスタマーサービスセンターのオペレーターとの電話待ちや、部門間の転送、フォーム記入をする必要はありません。Lemonadeのクレームの約30%は、AIが詐欺防止アルゴリズムを実行した後、即座に支払われます。その他のクレームは、人間のエージェントにエスカレートされます。 AIが詐欺防止アルゴリズム Lemonadeの内部ワークフローマネージャーAI「Cooper」は、顧客サービス部門と保険請求部門のデータを統合し、不正の可能性を特定する能力を備えています。ある顧客が、アパート外の車内から盗まれたスキューバギアが補償されるかを問い合わせた際、「補償される」との回答を受けました。その後、その顧客は保険に加入し、2週間後にスキューバギアの盗難請求を行いました。この請求は、顧客サービス部門のデータを基にAI「Cooper」が不正の可能性を指摘しました。従来型の企業では、部門間のデータが分断されているため、このようなつながりは見逃される可能性がありますが、LemonadeのAI「Cooper」は、部門間のデータを統合して不正を検出することが可能です。企業が顧客の全体像を把握するには、加入手続き、ポリシーの変更、苦情、過去の請求など、すべての顧客とのインタラクションを追跡し、それらのデータを統合する必要があります。これほど膨大なデータを人間が処理するのは困難ですが、AIはデータ量が増えるほど賢くなり、個々の顧客をより深く理解してサービスを改善すると同時に、不正の可能性をより正確に評価することができます。 AI Jimをだまそうとするな Lemonadeの完全デジタル保険請求プロセスは、非常にユニークで笑える不正のケースを見破ることに成功しました。2017年、ある男性がカメラと他の電子機器の盗難について保険請求を行い、Lemonadeは信頼と顧客満足を重視して、すぐに677ドルを支払いました。しかし、後にこの請求が不正であったことが判明しました。同年後半、同じ男性が別のアカウント、偽名、偽のメールアドレスと電話番号を使い、カメラ盗難で5,000ドルの請求を行いました。この際、彼はカツラをかぶり口紅をつけていましたが、AI「ジム」がこの請求を拒否し、該当ユーザーをフラグしました。それでも諦めず、同じ男性はさらに別の偽アカウントで3度目の請求を行い、今回はピンクのドレスを着用していました。AI「ジム」がこのケースをLemonadeの特別調査チームに報告し、その後、当局に引き渡されました。このエピソードはForbes誌にも取り上げられました。The Sixth Sense: Lemonade’s 2019 Product In Review このようなケースは、従来の保険会社でも人間のエージェントによって見つけられる可能性がありますが、AI「ジム」のように迅速かつ効率的に解決することは難しいでしょう。AIを活用した完全デジタルの保険請求プロセスは、時間とコストを節約し、人間よりも効率的に不正を見抜くことが可能です。機械学習を活用して保険のDNAを変革する Lemonadeは、顧客リスクの引受と保険請求の処理に機械学習（ML）を活用し、保険を「便利さのために購入するもの」へと変革しています。AIの活用は、保険業務におけるプロセスを大幅に改善します。これには、引受精度の向上による保険料価格の正確性の向上、迅速でペーパーレスなプロセスによる顧客体験の向上、不正の削減による請求コストの削減が含まれます。保険契約を発行する際、Lemonadeはビッグデータを活用してリスクを予測し、損失を定量化します。これにより、顧客をリスクグループに分類し、関連性の高い保険料を提示します。この「均一な被保険者グループ」は、類似のリスク行動を共有する顧客から成り、AIアルゴリズムによって広範な顧客データが収集され、損失率（保険会社が支払った請求額と得た保険料の比率）をモニターすることで構成されます。データが蓄積されるほど、再帰的なリスクパターンが浮かび上がり、より正確な評価が可能になります。 LemonadeのCEOダニエル・シュライバーは、「我々は最初からAIのために作られていた」と語っています。LemonadeはフルスタックのAI駆動型企業であり、そのプロセスは高度に自動化されています。シュライバーは次のように言っています「もし会社をAIが深い情報にアクセスできるように設計していなければ、私たちがビジネスを構築してきたような深い洞察を得るのは難しいでしょう。」 Lemonadeは、AI駆動の引受業務とリスク管理ポリシーが時間とともにますます正確で、より利益を上げることを期待しています。すべてのクレームの98%は、すでにアプリ内のAI Jimから始まり、40%のクレームは「人間の介入なしで」処理されるとシュライバーは言います。参考用まとめこれはLemonadeがAIを活用して実現しようとしていることのほんの一部に過ぎません。要点は、顧客とのインタラクションやデータを複数のチャネルにわたって理解し、それに基づいてAIファーストのシステムを構築することです。そして、アンダーライティングからクレームに至るまで、デジタルの完全なジャーニーを提供し、摩擦のない体験を実現することを目指しています。

AI時代の知的財産権、トレンドと対象法など

生成AIは、現代の技術の中でも特に大きな影響を与えるものですが、その可能性と共に責任も大きくなり採用に悩んでる企業も多い。この技術をうまく活用し、社会に良い影響を与えるためには、しっかりとリスクを管理することが大切です。この記事では、生成AIのリスクを減らすための効果的な方法について、セキュリティや法的問題、そして倫理的な側面に焦点を当ててお話ししたいと思います。歴史から学べることも多いです。過去の技術革新も、当初はリスクが伴っていましたが、私たちはその中で安全策を講じ、改善してきました。例えば、自動車が初めて登場したとき、シートベルトや信号、速度制限などはなく、事故が多発しました。でも、時間とともに社会は対応し、交通ルールや安全基準が整い、今では多くの人が安心して車を使えるようになりました。同じように、生成AIにも今後必要な対策を講じることで、安全に利用できる未来が築けると思います。さて、生成AI関連リスクをまず整理しておきましょうこちらは、生成AIコンテンツに関連する法的リスクを処理するためのシンプルなワークフローで、以下の4つのステップに基づいて構成されています：Prevent防止、Detect検出、Check測定、Approve承認。 1. PREVENT防止 (クリーンデータを使用したトレーニング) 2. DETECT検出 (コンテンツの分解) 3. CHECK測定 (許容レベルを用いた定量化) 4. APPROVE承認 (人間による介入とレビュー) このワークフローは、自動化された検出と各重要なステップでの人間による監視を統合することで、生成AIコンテンツ作成における法的リスクを積極的に管理することができるでしょう。もう少しTinEyeとTruepicを確認しましょう。TinEye と Truepic の両方は、デジタルコンテンツの真正性と独自性を確認するためのツールを提供しており、特に著作権侵害、真正性、および誤情報に対する懸念が高まっている生成AIの文脈で役立ちます。これらのツールがAI生成コンテンツの確認にどのように役立つかは以下の通りです： TinEye: Truepic: ### 結論 AIが生成するコンテンツに対する知的財産権の問題は複雑で、企業やクリエイターにとって重大な課題となっています。著作権侵害のリスクを軽減し、コンテンツの信頼性を確保するためには、AI時代のPDCA（Prevent, Detect, Check, Approve）の採用検討が第一歩かも知らない。 References

DSPyによるプロンプトエンジニアリングの自動化

スピーカー: Cyrus Nouroozi, Zenbase AI共同創業者兼CEO 概要本発表では、Cyrus Nouroozi氏が、DSPyを用いた自動プロンプトエンジニアリング（APE）の可能性を探求し、その効率性、AIセキュリティにおける役割、評価指標の進化に焦点を当てます。APEがいかにプロンプト最適化プロセスを効率化し、AI開発における強力なツールとなるかが強調されています。主要なポイント自動プロンプトエンジニアリング（APE）は人間のプロンプトエンジニアを凌駕するAPEと人間のプロンプトエンジニアを比較した研究では、20時間の取り組み後、APEは40％優れたパフォーマンスを示しました。この大幅な改善は、プロンプトの最適化における自動化システムの効率性と有効性を強調するものであり、APEがより少ない手作業でAIモデルの品質とパフォーマンスを大幅に向上できることを示唆しています。試行錯誤を減らすAPEの役割APEは、最適なプロンプトを効率的に探索できるため、手動によるプロンプトエンジニアリングに伴う従来の試行錯誤プロセスの必要性を低減します。この機能により、時間とリソースを大幅に節約できるため、開発者はAIモデルの他の側面の改良に集中することができます。プロンプト検索プロセスの自動化により、開発サイクルが加速し、全体的な生産性の向上が見込めます。評価指標の動的進化Nouroozi氏は、「優れた」プロンプトの定義は時間とともに進化するため、評価指標を動的に調整する必要があると主張しています。プロジェクトが進行するにつれ、プロンプトの評価に使用された初期の評価基準は古くなり、最適なパフォーマンスを確保するために継続的な再評価が必要となります。この進化は、継続的な最適化と、新しいタスクや課題に適応するAIモデルの妥当性を維持するために極めて重要です。レッドチームとセキュリティにおけるAPEAPEはレッドチーム活動、特に言語モデルのハッキングやジェイルブレイク（脱獄）において効果的であることが証明されています。最適化された形態では、APEはこれらのセキュリティ関連タスクで6％の性能向上を示しました。これは、APEが従来の手法よりも効果的に脆弱性を特定・緩和することで、AIモデルのセキュリティを強化できる可能性を示しています。 APE開発の初期段階Nouroozi氏は、自動プロンプトエンジニアリングはまだ初期段階にあり、過去6〜12カ月で大きなトラクションを得たに過ぎないと主張しています。このことは、この分野には革新と発展の余地がかなりあることを示唆しており、将来の進歩によってAPEシステムの効率と能力がさらに向上するでしょう。 LLM Recovery Labの見解 2020年の論文「Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 」で紹介されて以来、Retrieval-Augmented Generation（RAG）の進化は、絶え間ない革新と最適化によって特徴づけられてきました。当初は、ChatGPT、Claude、Llamaなど、特定のアプリケーションに合わせた最適な言語モデルを選択することに重点が置かれていました。この分野が成熟するにつれ、注目はRAGシステムの情報検索コンポーネントを強化する方向にシフトしていきます。これは、より優れた埋め込みモデルの開発、Okapi BM25のような従来のアルゴリズムとセマンティック検索を組み合わせたハイブリッド検索アプローチ、検索精度を向上させるカスタム類似度メトリクスの実装につながりました。また、2022年にはChain of Thought（CoT）、2023年にはEverything of Thoughts（XoT）が導入されるなど、プロンプトエンジニアリングも年々大きな進歩を遂げています。これらの技術は、プロンプトの構築と最適化の方法を改善する上で重要な役割を果たしています。しかし、このような進歩にもかかわらず、RAGシステム内のプロンプトを体系的に改善するには、顕著なギャップがありました。そこで、自動プロンプトエンジニアリング（APE）が極めて重要な役割を果たすのです。 APEは、RAGシステムにおける最も永続的な課題の一つであるハルシネーションの減少に取り組む上で、画期的な進歩をもたらす可能性があります。モデルのファインチューニング、再トレーニング、再展開を必要とする他の最適化戦略とは異なり、APEはそのような必要なしにプロンプトを最適化することで、費用対効果の高いソリューションを提供します。最も効果的なプロンプトを自動化し、インテリジェントに検索するAPEの能力は、より正確で信頼性の高いRAGシステムを実現するためのミッシングリンクとなり得えます。APEは、従来のプロンプトエンジニアリングに関連する試行錯誤のプロセスを最小限に抑えることで、時間とリソースを節約するだけでなく、開発サイクルの全体的な効率も向上させることが可能です。この自動化は、迅速な反復と展開が重要な環境において、特に有用であることが証明されるでしょう。さらに、プレゼンテーションで強調された評価指標の動的な進化は、AIモデルの有用性と効果を維持するために極めて重要です。プロジェクトが進化するにつれて、プロンプトを評価する基準も進化しなければなりません。APEの適応性により、これらの評価基準を時間と共に調整することで、タスクがより複雑になったり、完全に変更されたりしても、AIモデルが最適化され、意図したタスクに沿った状態を維持することができます。 APEの可能性はプロンプトの最適化だけにとどまらず、AIのセキュリティにも大きな影響を与える可能性があります。特に脆弱性を特定し、ジェイルブレーキング（脱獄）のような潜在的な攻撃を軽減するレッドチーミングへの応用は、AIシステムの保護におけるAPEの有用性を実証しています。APEはセキュリティ関連のタスクで6％の性能向上を示しており、AIモデルのセキュリティ強化におけるAPEの役割は、これらのシステムがより機密性が高く、利害関係の大きい環境で展開されるにつれて、ますます重要になる可能性があります。 APEはまだ開発の初期段階にあり、ここ6〜12ヶ月の間に大きな進歩があったことを考えると、さらなる革新の余地が大いにあります。技術が成熟するにつれて、APEシステムの効率と能力はさらに向上すると予想されています。これにより、特にRAGシステムにおいて、APEがAI開発プロセスの標準ツールとして広く採用される可能性が高まっています。将来的には、自動プロンプトエンジニアリングは、LLMベースのアプリケーションを開発する開発者のツールキットに不可欠な要素になる準備が整っています。2025年に近づくにつれ、大規模なモデルの再トレーニングや再展開を必要とせずにプロンプトを最適化できるAPEの能力は、AIの精度と信頼性を高めるための費用対効果の高いソリューションとして位置づけられるでしょう。APEは、特にハルシネーションを減らし、RAGシステムの全体的なパフォーマンスを向上させるという役割において、この分野に大きなインパクトを与えるものと期待しています。

LlamaIndexによるAI知識アシスタントの構築

スピーカージェリー・リュー、ラマインデックス創業者概要 Jerry Liu氏はLlamaIndexを使用したAI知識アシスタントの構築について掘り下げ、これらのシステムのパフォーマンスと信頼性を高めるための様々な高度なテクニックと方法論を推奨しています。データ品質重視 Liu氏は、AIシステムにおける高品質なデータ処理と検索の重要性を強調しています。大規模言語モデル（LLM）を扱う際の大きな関心事は、AIが誤った情報や誤解を招く情報を生成するハルシネーションを最小限に抑えることです。これに対処するためにLiu氏は、特に画像、表、図を含む複雑な文書に対する高度な構文解析技術の重要性を強調しています。さらに、誤った出力のリスクを低減するためには、モデルに入力されるデータが正確で構造化されていなければなりません。マルチモーダルアプリケーションとマルチモーダル埋め込み AIアプリケーションの進化に伴い、テキスト、画像、音声など様々な種類のデータを取り込むマルチモーダル化が進み、高度な索引付けと検索戦略の必要性が高まっています。Liu氏は、画像やその他の非テキストデータにテキスト記述を使用し、システムが多様なデータタイプを効果的に管理・検索できるようにすることの重要性について論じています。このマルチモーダルなアプローチにより、AIは幅広い入力に対応できるようになり、さまざまな文脈でより汎用的で効果的なものとなります。詳細な計測と観測可能性 Liu氏は、AIシステムにおける詳細な計測と観測可能性の重要性を強調します。llamaTraceのようなツールは、エージェントの実行プロセスの各ステップを詳細にモニタリングし、評価することができます。このレベルのトレースは、デバッグとパフォーマンスの最適化に不可欠であり、開発者にシステムをファインチューニングし、効率的に動作させるために必要な知見を提供します。エージェント型RAGシステム Liu氏は、基本的なRAG（Retrieval-Augmented Generation）システムに追加される洗練されたレイヤーである「エージェント型RAG」のコンセプトを紹介します。この拡張機能には、クエリ計画、ツールの使用、メモリ統合などのコンポーネントが含まれます。これらのエージェントのような機能を組み込むことによって、RAGシステムはより信頼性が高くなり、より複雑なタスクを処理できるようになります。これらの要素を追加することで、基本的なRAGシステムは、高度な意思決定プロセスが可能な、よりダイナミックで堅牢なツールへと変化していきます。マルチエージェントシステム最後にLiu氏は、複雑なタスクを達成するために複数の専門エージェントが協力するマルチエージェントシステムへの関心が高まっていることについて意見を述べました。このアプローチは、特にタスクが多様で専門的な知識を必要とするダイナミックな環境において、並列処理とより効率的なタスク管理を可能にします。複数のエージェントの長所を活用することで、これらのシステムはより複雑な課題に取り組むことができ、高度なAIアプリケーションにおいてますます価値が高まっています。 LLMRecovery Labの見解 LlamaIndexを使ったAI知識アシスタントの構築に関するLiu氏の議論は、LLMベースのシステムの進化するアーキテクチャを包括的に示しています。これらのシステムは、単純なAPIラッパーから洗練されたマルチエージェントフレームワークへと急速に進歩しています。 2023年はChatGPT APIラッパーの台頭が目立ちましたが、2024年はますます複雑化するタスクを処理するためにモジュラーアーキテクチャを活用するLLMベースのエージェントの出現が見られます。これらのエージェントは、AIシステム設計の大きな転換を意味しています。単一のコンテキスト内ですべてのタスクに対処しようとするモノリシックなモデルに依存する代わりに、LLMベースのエージェントはモジュール化された分散アーキテクチャを利用します。各コンポーネント（エージェント）は、データの解析、検索、意思決定など、特定の機能に特化することで、より効率的なリソース配分と的を絞った最適化を可能にします。この分野での重要な発展は、これらのエージェント間の相互作用を管理する調整（オーケストレーション）フレームワークの進歩です。AutoGPT、GPT Researcher、および同様のツールなど、この領域における初期の探求は、現在我々が目にするものの基礎を築きました。これらの初期の取り組みにより、マルチエージェントシステムの可能性が実証されましたが、高いトークンコストの管理や、動的環境における信頼性の高いパフォーマンスの確保など、重要な課題も浮き彫りになりました。現在のコーディネーションフレームワークの世代は、これらの初期の教訓を基に、複数のエージェント間の複雑な相互作用を効果的に管理できる、より堅牢でスケーラブルなシステムの構築を目指しているのです。 LangGraphとllama-agentsは、LLMベースのエージェントをオーケストレーションする革新的なアプローチで躍進している新参者です。一方、Autogenは既存の主要プレイヤーとして、エージェント制御のための手法を改良し続けています。これらのフレームワークは、複雑なエージェント間通信と同期を管理し、遅延とトークンのオーバーヘッドを最小限に抑えながら、異なるエージェント間でデータがスムーズかつ効率的に流れることを保証するために非常に重要です。 RAG（Retrieval-AugmentedGeneration）の領域では、エージェント型RAGシステムの導入により、クエリ計画、ツールの使用、メモリ統合などの高度な機能を統合することで、さらに洗練されたレイヤーが追加されます。この進化により、よりダイナミックでコンテキストを意識した応答が可能になり、AI出力の精度と信頼性が向上します。 Liu氏が提唱するように、階層的な索引付けもここで重要な役割を果たし、特に異種かつマルチモーダルなデータソースを扱う場合、よりニュアンスのある正確な検索処理を可能にします。しかし、これらの進歩は、特にオーケストレーションレイヤーを最適化し、レイテンシーと運用コストを削減するという技術的課題をもたらします。マルチエージェントシステムは本質的にリソース集約的であり、効率的な通信プロトコルは必要不可欠です。LangGraph、llama-agents、Autogenなどのオーケストレーションフレームワークは、これらの課題に取り組む最前線にあり、高いパフォーマンスを維持しながらエージェント間の複雑なやりとりを管理する技術を開発しています。 2024年の残りから2025年にかけて、いくつかの分野で大きな進展が期待されています。第一に、エージェント間のトークン効率の良い通信プロトコルのさらなる改良は、レイテンシーとコストを削減する上で極めて重要です。第二に、階層的でマルチモーダルなインデックス戦略の改善により、スケーラビリティと適応性が強化され、より広範なタスクをより高い精度で処理できるようになります。最後に、これらの制御フレームワークが成熟するにつれて、生産環境におけるマルチエージェントシステムのよりシームレスで信頼性の高い統合が実現し、複雑な実用的なアプリケーションの新たな可能性が開かれることになるでしょう。

OSS LLMを効率的にファインチューニングし、サービスを提供する方法

スピーカー Predibase社機械学習エンジニア Arnav Garg氏概要本発表で、Arnav Garg氏はオープンソースの言語モデル（LLM）のファインチューニング提供に関数するテクニックと利点を探ります。特に特定のタスク用にカスタマイズされた場合、GPT-3.5やGPT-4のようなクローズドなモデルの性能を上回ることがよくあることが強調されています。主要なポイントオープンソースLLMのファインチューニング: Garg氏は、オープンソースの言語モデルをファインチューニングすることで、GPT-3.5やGPT-4のようなクローズドなモデルと比較して、特にこれらのモデルが特定のタスク用にカスタマイズされている場合に、優れたパフォーマンスを発揮できることを強調しています。特定のドメインやアプリケーションのニュアンスに合わせてモデルをファインチューニングすることで、より正確で適切な出力を得ることができるため、オープンソースのLLMは開発者にとって強力なツールとなります。ファインチューニングの費用対効果: オープンソースのLLMをファインチューニングする大きな利点の一つは、費用対効果です。ゼロからモデルを開発したり、高価なクローズドモデルに依存したりするのとは異なり、ファインチューニングに必要な計算リソースは大幅に少なくて済みます。そのため、大規模な言語モデルを一からトレーニングする際に一般的にかかる高いコストを負担することなく、強力なAIモデルを導入したいと考えている組織にとって魅力的な選択肢となります。 LoRAによるパラメータの効率化: Garg氏は、LoRA（Low-Rank Adaptation）テクニックを導入しており、モデルのパラメータのわずか0.1%〜1%を使用してファインチューニングを行うことができます。この手法は計算効率が高いだけでなく、コスト効率も高いです。LoRAは、パラメータの最小限のサブセットに焦点を当てることで、迅速かつ効率的なファインチューニングを可能にし、リソースが限られている小規模な組織でも利用できるようにします。 QLoRAによる低コスト展開: Garg氏は、QLoRAがモデルの重みを圧縮する技術であることを強調し、ファインチューニングと低コストのハードウェアへの展開を可能にしています。これにより、パフォーマンスレベルを維持しながら運用費用を大幅に削減できます。QLoRAを使用すれば、組織は高価なインフラを必要とせずに高性能なLLMを導入できるため、コスト重視のプロジェクトにとって有効なな選択肢となります。 Loraxフレームワーク:「Loraxフレームワーク」は、ファインチューニングされた数百のモデルを単一のGPUで提供するためのソリューションです。このフレームワークは、モデルのウェイトを動的にロードおよびアンロードすることでリソースの使用を最適化し、メモリを効率的に管理してコストを削減します。Loraxは、限られたハードウェア上で、それぞれが特定のタスク用にファインチューニングされた複数のモデルをスケーラブルに展開し、効率を高めてオーバーヘッドを削減します。 LLMの継続的学習: Garg氏は、LLMにおける継続的な学習の重要性を強調し、それを人間の従業員が時間とともに学習し適応していく方法に例えています。継続的な学習により、モデルは新しいタスクやデータ分布の変化に適応し、適切で正確な状態を保つことができます。この能力は、動的な環境において言語モデルの長期的なパフォーマンスを維持するために極めて重要です。動的文脈内学習: Garg氏のプレゼンテーションでは、言語モデルのパフォーマンスを向上させるために、訓練事例を動的に収集し、利用することの利点について説明します。対象となる特定のタスクに関連する例を使用することで、モデルはエッジケースや特殊なタスクをより効果的に処理することができます。このアプローチは、正確で文脈に適した応答を生成するモデルの能力を向上させます。学習データ（具体例）による影響: ファインチューニングや文脈内学習で使用される具体例の質は、モデルのパフォーマンスに影響する重要な要素となります。明示的な補正を提供する高品質で関連性のあるデータが最も有益であり、より良いモデル出力につながります。モデルに投入される学習データが最高品質であることを保証することは、パフォーマンスを最適化する上で極めて重要です。オープンソースへのアクセス: Garg氏は、ファインチューニングツールやデプロイメントフレームワークが、オープンソースプロジェクトとしてアクセスしやすくなっていることを強調して締めくくりました。この傾向は参入障壁を低くし、企業や個人が大規模なリソースを必要とせずに高度な言語モデルを活用できるようにします。このようなツールが利用可能になることで、強力なAIテクノロジーへのアクセスが民主化され、さまざまな業界にわたってより広範なイノベーションが可能になります。 LLMRecovery Labの見解 2024年はオープンソースモデルにとって極めて重要な年であり、クローズドソリューションの強力な競争相手となりました。マイクロソフトのPhi、MetaのLlama、GoogleのGemini、そしてMistralの最新作のような一流企業のモデルによって、オープンソースのエコシステムは大きく成長しました。今日、Hugging Faceの830k以上のモデルのほぼ半分がTransformerベースであり、このフレームワークの広範な採用と開発が強調されています。このオープンソースLLMへの転換は、GPUやその他の重要なハードウェアのコストが低下し、組織が特定のニーズに合わせてモデルをファインチューニングすることがますます現実的になっていることが主な要因となっています。企業がよりカスタマイズされた効率的なAIソリューションを求める中、大規模で汎用的なLLMから、特定のタスクに秀でるように細かく調整された小型言語モデル（SLM）への移行が顕著になっているのです。これらのモデルは、オープンソースの他のモデルと並んで、適切なカスタマイズを行うことで、オープンソースのLLMが、ドメイン固有のアプリケーションにおいて、GPT-3.5やGPT-4のような最先端のクローズドモデルを凌駕できることを示しています。このようなカスタマイズされたアプローチは、医療、金融、法律分野など、精度と関連性が重要な分野では特に価値があります。この傾向を促進する最も重要な進歩のひとつが、Low-Rank Adaptation（LoRA）のような効率的な再学習手法(Parameter-Efficient Fine-Tuning:PEFT）手法です。このアプローチは、モデルのパフォーマンスを向上させるための非常に効率的でコスト効率の高いソリューションを提供します。この手法は、リソースが限られている組織にとって特に有益であり、そのような取り組みに通常伴う経済的負担なしに高度なLLMを導入することができます。 2023年と2024年は、特定のユースケースに合わせたオープンソースモデルをファインチューニングし、提供するための舞台を整えました。この傾向が続くと、特定のドメインに正確に最適化された、コスト効率が高く高性能なAIソリューションのニーズによって、SLMの採用が増加するだろう。 2025年を見据えた場合、SLMへの移行傾向はさらに加速すると予想される。計算コストの低下、ファインチューニング技術の高度化、そしてMistral、Microsoft、Meta、Googleのようなリーダー企業のモデルの登場が相まって、より広範な採用が推進されるだろう。汎用のLLMからドメインに特化したSLMへのシフトは、単なるコスト削減戦略ではなく、AIアプリケーションにおいてより高い精度、効率性、スケーラビリティを実現するための重要なステップである。継続的な学習と動的なコンテキスト内学習は、これらのモデルの関連性と性能を長期にわたって維持する上でも重要な役割を果たす。新しいタスクや進化するデータ分布に継続的に適応することで、これらのモデルは動的な環境の要求に対応できるようになる。ファインチューニングと文脈内学習において質の高い事例を重視することは、モデルの出力を最適化し、長期的な実行可能性と有効性を確保する鍵となる。

PromptLayerはどのようにLLM評価戦略を適応させるか

スピーカー PromptLayer 創業者 Jared Zoneraich 概要本発表では、大規模言語モデル（LLM）の評価手法の適応と改良のためにPromptLayer社が採用した戦略に焦点を当てました。講演者のJared Zoneraich氏は、評価エンジニアリングの反復的な性質、評価におけるカスタマイズの重要性、プロンプトエンジニアリングにおけるドメインの専門知識の必要性について議論しました。主要なポイント評価エンジニアリングは反復的である: 評価エンジニアリングは、静的で1回限りのプロセスではなく、継続的で反復的なサイクルです。AIシステムのパフォーマンスと精度を向上させるためには、プロンプト、評価指標、データセットを継続的に改良する必要がある。AIモデルが進化するにつれて、そのアウトプットを評価するための手法も進化し、システムが長期にわたって望ましい基準を満たすようにしなければなりません。評価のカスタマイズ: 一般的な評価データセットは、金融やヘルスケアなどの高度に専門化された分野など、特定のユースケースに適用した場合、不足することがよくあります。評価指標とデータセットを特定のアプリケーションコンテキストに合わせて調整することは、正確な評価のために極めて重要です。カスタマイズすることで、特定の分野特有の課題や要件を評価に反映させることができ、より信頼性の高い適切な結果を得ることができます。専門家とのプロンプト：効果的なプロンプトエンジニアリングには、何が正しい出力かを深く理解している分野の専門家からのインプットが必要です。これは、アウトプットの正確さとニュアンスが最も重要な、法律AIのような分野では特に重要です。専門家の知識がなければ、AIの回答が本当に正しいかどうかを評価することは難しく、効果的なプロンプトエンジニアリングには専門家の関与が不可欠となる。システム構成要素の全体像： AIシステムの構築プロセスは、プロンプトテンプレート、評価フレームワーク、データセットなど、すべての構成要素を相互に関連する要素として考え、全体的に捉える必要がある。システムの全体的なバランスと有効性を維持するためには、あるコンポーネントを変更すると、他のコンポーネントの調整が必要になることが多い。このように相互に関連したアプローチは、より堅牢で適応性の高いAIシステムの構築に役立つ。手作業によるデータのコンパイル: 自動化が進んだとはいえ、多くの先進的なチームは、ログやトレースからリグレッションデータセットを手作業でコンパイルしています。この手作業によるアプローチは、AIモデルの正確な評価と改良に必要な特定のデータを取得するために必要です。これは、AIの開発と評価のプロセスにおける人間の関与の継続的な重要性を強調しています。回帰テストとバックテスト: 回帰テストとバックテストは、AIモデルの信頼性を確保するために不可欠な手法です。リグレッションテストは特定のエラーケースの特定と対処に重点を置き、バックテストは過去のデータを使用して、新しいアップデートがリグレッションを引き起こさないことを確認します。これらの手法を組み合わせることで、AIのアウトプットの品質と一貫性を長期にわたって維持するための強固なフレームワークが提供されています。シングルタスク用のプロンプト: プロンプトのルーティングとして知られる、特定のタスクを実行するプロンプトの設計は、AIシステムのテストとメンテナンスを簡素化します。1つのプロンプトで複数のタスクを処理するのではなく、単一タスクのプロンプトに集中することで、開発者はシステムのパフォーマンスをより簡単に管理および最適化できます。このアプローチは複雑さを軽減し、AIの応答の信頼性を高めます。継続的インテグレーションの課題: AIシステムは、継続的インテグレーション（CI）にとってユニークな課題を提示します。正しい出力が明確に定義されている従来のソフトウェアとは異なり、AIシステムはより曖昧な状況をナビゲートしなければなりません。このような課題にもかかわらず、CIと自動テストは、AIシステムの信頼性の高いデプロイメントを保証するために不可欠であり、これらのプロセスはAI開発に不可欠な部分となっています。リアルタイムのフィードバックと反復: 企業は、AIモデルを反復的に改良するために、リアルタイムのユーザーフィードバックに依存するようになってきています。このアプローチにより、新たなエッジケースを継続的に特定し、モデルのレスポンスを改善することができます。リアルタイムフィードバックを開発サイクルに組み込むことで、企業は変化する状況にモデルを迅速に適応させ、多様で進化するタスクの処理に効果的であり続けるようにすることができます。 LLM Recovery Labの見解: 「評価エンジニアリング」は、LLMベースのアプリケーションの領域において重要な注目に値する重要な概念です。評価は、単にビジネス主導の指標ではなく、開発ライフサイクルの基本的な構成要素として扱われるべきものです。このような技術的な視点は、LLM アプリケーションがビジネス目標を満たすだけでなく、高水準の正確性、信頼性、およびパフォーマンスを維持するために不可欠です。 LLMの導入初期には、一般的なチャットボットのインタラクションの質を測るために、主観的な評価、いわゆる「バイブスチェック」に頼ることが多くありました。しかし、LLMアプリケーションが金融、ヘルスケア、法律分野など、より専門的で複雑なドメインに対応するように進化するにつれ、この初歩的なアプローチでは不十分になってきています。厳密でドメインに特化した評価メトリクスの必要性が最も重要になります。これらのメトリクスは、各ドメインのニュアンスや特定の要件を捉えるように注意深く設計されなければならず、LLMの出力がもっともらしいだけでなく、正確で文脈に適したものであることを保証しなければなりません。本発表で重要なことは、評価エンジニアリングの反復的な性質です。ソフトウェアのテストフレームワークが、新機能やバグフィックスに適応するために継続的な改良を必要とするように、LLMの評価フレームワークも、モデルそのものとともに進化していかなければなりません。これには、プロンプトを改良し、評価データセットを更新し、モデルの機能やアプリケーションドメインの特定の要件の変化に対応するためにメトリクスを調整する継続的なプロセスが含まれています。さらに、プロンプトエンジニアリングと評価プロセスへの専門家の参加は、過大評価となりません。高度に専門化された分野では、専門家の参加により、プロンプトと評価基準がその分野の複雑さと微妙さを正確に反映したものとなります。このような協力体制は、正確さが譲れない環境で効果的なパフォーマンスを発揮するLLMを生み出すために不可欠なのです。 2023年はLLMベースのアプリケーションの黎明期であり、あらゆる大企業が「AI搭載」ソリューションの構築に挑戦し、この新技術に予算を開放しました。しかし、2024年には、同じような企業が、AIへの投資に対するユースケースとリターンをよりよく理解することに重点を移しています。2025年を展望すると、評価の重要性はさらに高まると予想されます。堅牢な評価システムに反映されるビジネス指標が明確に定義されてこそ、AIアプリケーションはその潜在能力を最大限に発揮し、真の価値を提供することができます。厳密な評価エンジニアリングは、AIソリューションが効果的であるだけでなく、戦略的なビジネス目標に沿ったものであることを保証し、最終的にこの分野におけるイノベーションの次の波を推進する鍵となるでしょう。

マルチモーダルRAGアプリケーションの評価とトレース

スピーカー Arize AIソリューション・アーキテクト Hakan Tekgul 概要本プレゼンテーションでは、Hakan Tekgul氏が、マルチモーダルRAG（Retrieval-Augmented Generation）アプリケーションをデモ版から完全に機能する製品モデルへと移行する際の複雑さを取り上げています。このディスカッションでは、robustで信頼性の高いAIシステムの開発における厳密な評価と反復実験の重要性を強調します。主要なポイントデモから本番環境への移行における課題: AIアプリケーションをデモ版から本番環境に移行させることは、特にテキスト、音声、画像を統合したマルチモーダルアプリケーションにとって重要な課題です。デモ版は可能性を示すかもしれませんが、本番環境への移行には、初期段階では明らかにならないパフォーマンス、安定性、スケーラビリティの問題に対処する必要があります。アプリケーションが実環境で確実に機能するようにするには、入念な計画と広範なテストが必要です。小さな変更がアプリケーションのパフォーマンスに与える影響: ジェネレーティブAIアプリケーションのモデル、プロンプト、アーキテクチャのわずかな調整でも、下流に大きな影響を及ぼす可能性があります。このような変更は、パフォーマンス、ユーザーエクスペリエンス、顧客満足度、異なるユースケース間でのアウトプットの一貫性に影響を与える可能性があります。このことから、アプリケーションにプラスの影響を与えるような変更を実施する際には、慎重な評価と監視が必要であることがわかります。評価駆動開発（EDD): Tekgul氏は、ソフトウェア工学におけるテスト駆動開発（TDD）にインスパイアされた方法論である評価駆動開発（EDD）のコンセプトを紹介します。EDDでは、開発者はデータセットを作成し、AIシステムの変更を評価するための実験を実行する。このアプローチは、変更の影響を定量化することを可能にし、開発者がシステムを反復的に改善するのに役立ちます。開発プロセスの中核部分として評価に焦点を当てることで、EDDはあらゆる変更がパフォーマンスの測定可能な改善につながることを保証します。評価の判断材料としてのLLMの利用: 大規模言語モデル（LLM）は、コンテンツを生成するだけでなく、AIシステムの出力を評価するためにも利用できます。この役割において、LLMはシステムの出力を、関連性、正しさ、一貫性などの一連の基準に照らして比較していきます。このアプローチにより、より客観的でスケーラブルな評価プロセスが可能になり、LLMは、特に複雑なマルチモーダルアプリケーションにおいて、出力の品質を評価する「裁判官」のような役割を果たします。マルチモーダルアプリケーションの評価: マルチモーダルアプリケーションの評価には、テキスト、音声、画像といった各モダリティに対する個別の評価だけでなく、すべてのコンポーネントが調和して動作することを確認するための複合的な評価も必要です。この包括的な評価戦略は、各モダリティがアプリケーションの全体的なパフォーマンスに効果的に貢献し、よりまとまりのある機能的なシステムを実現するために不可欠です。反復実験の重要性: AIアプリケーションの開発と改良は、反復実験に大きく依存しています。複数の実験を行い、さまざまなモデル、プロンプト、検索戦略を比較することで、開発者は最も効果的な構成を特定することが可能です。この試行錯誤のプロセスは、アプリケーションの改良に役立ち、さまざまな条件やユースケースのもとで最適に動作することを保証します。 PhoenixによるEDDの実践的実装: Tekgul氏は、オープンソースツールであるPhoenixを使用した評価駆動開発の実践的なアプリケーションについて説明しました。Phoenixは、データセットの作成、実験の実行、経時的な変化の追跡を容易にします。EDDを実装するための実用的なフレームワークを提供することで、Phoenixは開発者が体系的かつ透過的にAIアプリケーションを改善できるよう支援します。このツールは、マルチモーダルアプリケーションの複雑性を管理する上で特に有用であり、本番環境でデプロイされる前に、すべての変更が厳密に評価されることを保証します。 LLM Recovery Labの見解 2024年の最も重要なトレンドの一つは、マルチモーダルモデルの急速な進化と採用です。私たちは、2022年半ばにリリースされたMidjourneyによって、テキストベースの生成モデルが主流になる初期段階を目撃しました。その後、同年末のChatGPTの爆発的なインパクトが続いていました。2024年までには、テキストだけでなく、画像、音声、動画データを処理し理解することができる多数のモデルを含むように、状況は拡大しています。このマルチモーダリティへのシフトは、AI能力の大きな飛躍を意味し、より統合的で多用途なアプリケーションの新たな可能性を開きます。マルチモーダルRAGアプリケーションへの進展は、特に開発と評価の分野において、多くの課題と機会をもたらします。これらのシステムは複雑であるため、作成と評価の両方に微妙なアプローチが必要です。開発の観点からは、パフォーマンス、安定性、スケーラビリティを維持しながら、多様なデータタイプをシームレスに統合できるアーキテクチャを設計することが不可欠です。各モダリティは、データ表現、処理、モデルの相互運用性という点でユニークな課題をもたらすため、この統合は自明ではありません。評価の観点からは、このようなマルチモーダルシステムに適応するためには、各モダリティを個別に、また協調して考慮する洗練されたアプローチが要求されます。テキスト、画像、音声、映像の評価は単独で行うことはできず、システム全体のパフォーマンスに対するそれらの複合的な影響を綿密に評価する必要があるのです。このため、マルチモーダルなインタラクションの複雑さに特化した新しいメトリクスと方法論の開発が必要となります。例えば、画像が生成されたテキストを正しく補完することや、オーディオファイルがビジュアルコンテンツと整合することは、システムの一貫性と有効性にとって重要です。プレゼンテーションで紹介された評価駆動開発（EDD）のコンセプトは、この文脈に特に関連しています。EDDは、ソフトウェア工学におけるテスト駆動開発（TDD）と類似していますが、AI開発の反復的で実験的な性質に合わせています。評価を開発ライフサイクルに深く組み込むことで、EDDは各反復と調整が厳密なデータ主導の評価に裏打ちされることを保証しています。Phoenixのようなツールは、開発者にデータセットの作成、実験の実行、長期的なパフォーマンスの追跡を行うための構造化されたフレームワークを提供し、このアプローチの運用に役立ちます。さらに、評価者として大規模言語モデル（LLM）を使用することで、評価プロセスに新しい次元が導入されます。LLMは客観的な判定者として機能し、関連性、正確性、一貫性などの事前に定義された基準に対して出力を体系的に比較することができます。このアプローチは、従来の評価手法がデータの多様性と量に対応するのに苦労するような、マルチモーダルアプリケーションの複雑さにも対応できます。このようにLLMを活用することで、評価の客観性が高まるだけでなく、異なるモダリティ間でよりきめ細かく一貫性のある評価が可能です。今後の展望として、反復実験の重要性はいくら強調してもしすぎることはありません。マルチモーダルRAGアプリケーションを改良するプロセスは、本質的に実験的であり、様々なモデル、プロンプト、検索ストラテジーを継続的にテストする必要があります。この反復的なアプローチは、実世界の複雑なユースケースに対応できる最も効果的な構成を明らかにするために極めて重要です。管理されたデータ駆動型の方法でこれらのシステムを適応させ、最適化する能力は、概念実証から本番へと移行する際の成功の鍵となるでしょう。

LLMアプリケーションとそのユーザーにとって、どの程度のハルシネーションが許容されますか？

Jay Revels（ジェイ・レヴェルス）とFrancisco Soares（フランシスコ・ソアレス）共著 LLMアプリケーションのプロダクトマネージャーや、LLMアプリケーションに資金を提供するビジネスリーダーは、社内ユーザーや顧客にアプリケーションを使用させることに躊躇することがあります。。なぜなら、LLMアプリケーションのハルシネーションがあまりにも頻繁に、予測不可能に発生するからです。。開発者がアプリケーションのハルシネーションを許容できるレベルまで減らしたと思った矢先、データセット、プロンプト、検索エージェントに小さな変更を加えただけで、LLMは再び望ましくないレベルのハルシネーションを見せ始めることがあります。私たちは以前、ハルシネーションを抑えるテクニックについて、以下の記事「Re-Rankingの力：RAGシステムを強化する」や「RAGの精度向上：チャンクサイズ、クエリ変換、チャンク方法のカスタマイズ」などを書きました。さらに、LLMアプリケーション開発者は、アプリケーションに適切な目標ハルシネーション率の設定方法について、慎重に検討を重ねているところです。目標とするハルシネーション発生率が達成された場合、どのようなメリットがあるのか、達成されなかった場合、どのようなリスクがあるのかを知りたがっています。LLMアプリケーションプロジェクトの予算を確保し、その成功を確実に測定するための指標は何か、という重要な問いも出ています。このブログ記事では、以下のことを解説します。ハルシネーションの許容率とはハルシネーションとは、LLMが、事実に基づかない情報を生成する現象のことです。これには捏造された事実、誤った解釈、完全にでっち上げられた情報などが含まれます。大規模言語モデル（LLM）アプリケーションLLMアプリケーションにおける許容ハルシネーション率（AHR）とは、ユーザーが許容できる、ハルシネーションを含む生成された回答の割合を指します。ユーザーがハルシネーションを修正する時間が、LLMアプリケーションの生産性向上メリットを超えない場合、ユーザーはその割合のハルシネーションを許容します。ハルシネーション発生率がAHRを超えるとどうなるか。生じるリスクとは？ハルシネーション発生率がAHRを超えると、アプリケーションの採用率はすぐに低下します。アプリケーション開発者やプロダクトマネージャーは、幻覚率が少し上昇したからといって、採用率が同じように少し下がると考えるべきではありません。実際、ハルシネーション発生率が2～5％上昇すると、すぐに採用率がゼロになる可能性は十分に有り得ます。今日のほとんどのLLMアプリケーションは、これまで人間が行っていたワークフローやタスクを置き換えるものであることを忘れてはなりません。したがって、LLMアプリケーションのユーザーは、LLMアウトプットの品質に大きな期待を寄せているのです。彼らは、アプリケーションの出力と、これまで手作業で行っていた作業の結果を比較します。もしアプリケーションがAHRを維持できなければ、彼らはすぐに手作業に戻すでしょう。もし導入がゼロになれば、導入が再開されるまで、アプリケーションの予測された生産性、時間の節約、または収益の利益は失われます。AHRを維持できないことによるその他のリスクには、次のようなものがあります。ハルシネーション発生率がAHRを下回るとどうなるか。ハルシネーション発生率を許容範囲以下に抑えることができれば、アプリケーションのROIは向上する可能性があります。例えば、LLMアプリケーションが外部顧客向けの電子メールのドラフトを書くものとしましょう。ハルシネーションが少なければ、人間がハルシネーションの確認と修正に費やす時間は減少します。つまり、ハルシネーション率が改善されるにつれて生産性が向上し、組織のROIが大きくなる可能性があるということです。他のユースケースでは、ROI向上の機会がより限定されるかもしれません。例えば、LLMアプリケーションが作成した電子メールの下書きが、人間によるレビューなしで直接外部顧客に送信されることを想定しているとします。このユースケースでは、アプリケーションをリリースするためには、非常に低いAHRが必要になります。従って、AHRを多少改善したところで、ROIの大幅な改善は見込めないでしょう。どのようなユースケースであれ、AHRは、アプリケーションライフサイクルの中での要件の変化により、変動する可能性があります。開発者とプロダクトマネージャは、AHRの継続的なモニタリング、維持、最適化が成功とROI確保の鍵だと認識すべきです。 AHRの設定方法許容ハルシネーション率の設定ハルシネーションをゼロにすることは不可能です。ほとんどのユースケースでは、ユーザーが有用な情報を得ることの妨げにならない限り、ある程度のハルシネーションは許容されます。ハルシネーションの影響は、それぞれのユースケースで考慮しなればなりません。例えば、クリエイティブやエンターテイメント分野においては、ハルシネーションが体験を向上させるかもしれません。ただし、医療、金融、法律相談などの分野では、ハルシネーションによる誤りが重大なリスクをもたらす可能性があります。許容できるハルシネーション率は、アプリケーションのユースケースやーザーに大きく依存します。それは以下のような要因に影響されます。 AHRの設定：許容可能なハルシネーション率を決めるには、以下のことが必要です。 AHRはユースケースと、ユーザーがハルシネーションを許容できるレベルに依存します。組織は、何百ものLLMアプリケーションが同時に実行される未来を想像するべきです。開発者、プロダクトマネージャー、およびビジネスリーダーは、各アプリケーションが各ユースケースのAHRに対してどの程度機能しているかを報告します。AHRを一貫して達成することで、組織は、法的・倫理的リスクを低く抑えながら、投資に対するROIを確実に確保していると確信することができます。予算を確保するために、AHRを利用するにはどうすればよいか。企業幹部は、LLMアプリケーションの開発と展開に資金を提供する任務を負っています。その多くは、どの程度の投資を行うべきか確信が持てず、さらに重要なこととして、ROIがどの程度になるのかが不明確な場合が多いのです。プロダクトマネージャーやアプリケーション開発者は、プロジェクトの資金を確保するために、説得力のあるビジネスケースを明確にし、作成するのに苦労することが多いです。マーケティングや財務のような他の分野では、プロジェクトとその資金調達の可能性を評価するために、社内で合意された指標が使用されます。例えば、新しいマーケティング投資は、CAC（顧客獲得コスト）をいかに下げるかで評価されるのです。財務の分野では、経費を削減するための新しいアプリケーションが、純利益率をどのように増加させるかについて評価されるかもしれません。AHRは、同様の方法で、新しいLLMアプリケーションの予算確保を正当化するために使用できると考えています。 ROIの見積もりを計算する上述したように、AHRを設定するとき、開発者とプロダクトマネージャーは、LLMアプリケーションが自動化しようとしているユースケースとワークフローを深く理解しなければなりません。上述したように、AHRを設定するとき、開発者とプロダクトマネージャーは、LLMアプリケーションが自動化しようとしているユースケースとワークフローを深く理解しなければなりません。その発見段階やユーザーとの会話の中で、プロダクトマネージャーは、人間がタスクを完了するのに現在かかっている時間を計算するのが一般的です。例えば、法務のユースケースを例にとると、プロダクトマネージャーは、社内の法務アシスタントが法務レビューの初稿を書くのにかかる時間を特定します。そして、LLMを使うことでどれだけの時間を節約できるかを、ユーザーの協力を得て見積もります。プロダクトマネージャーは、ユースケースのプロトタイプや、同じようなアウトプットを持つ他のアプリケーションからのROIを使用して、LLMアプリケーションを採用するユーザーにとっての時間節約を見積もることができます。同時に、プロダクトマネージャーと開発者は、レビューのどの側面がハルシネーションに耐えやすく、どの側面が耐えられないかについてのフィードバックを集め始めることができます。AHRが設定され、ビジネスケースが構築できます。以下は、ビジネスケースを構築するための基本的なモデルです。 AHRがLLM出願の成功を測る指標となる上の例はLLMのユースケースであり、ユーザーの時間節約を予測しています。この計算では、毎月AHRを1年間達成した場合、ユーザーは2,400,000労働時間を節約し12,000,000,000円のコスト削減を実現することになります。この計算には含まれていませんが、ビジネスケースに追加するのはまったく正当なことです。例えば、営業担当者は顧客とのミーティング設定により多くの時間を費やすことができるため、月間のミーティング総数を増やすことができるかもしれません。顧客とのミーティングを増やすことは、ほとんどの営業組織において収益の増加と強い相関関係があります。プロダクトマネージャーや開発者は、予算保有者から次のような質問を受けるでしょう。私たちは、AHRこそが、予算保有者が予算配分を決定するために必要な明確さをもたらす指標であると考えています。もし開発者とプロダクトマネージャーがアプリケーションのAHRを設定したならば、予算保有者は、そのユースケースがエンドユーザーの協力を得て徹底的に吟味されたものであると確信することができます。さらに、マーケティング担当者がCAC（顧客獲得コスト）を使うように、あるいは財務部門が純利益率を使うように、日次、週次、月次のダッシュボードで、LLMアプリケーションのどれが目標のAHRを達成しているかを見ることができます。このように、LLMアプリケーションの成功はファジーロジックに基づくものではありません。その代わり成功は、日次、週次、月次ベースで測定可能な、合意され吟味された指標に基づいています。一貫して達成されれば、開発者とプロダクトマネージャーは、幻覚の最適化が機能していることを示す方法を手に入れることができます。コンプライアンス担当者や法務担当者は、アプリケーションが組織のリスクを増大させていないと確信できます。また、プロジェクトに資金を提供した経営陣は、そのアプリケーションがAIによって約束された生産性の利益をもたらしていることに自信を持つことができます。 LLMのAHRを監視するために、どのようなレポートやダッシュボードが利用できますか？ AHRは、開発者、プロダクトマネージャー、コンプライアンス担当者、ビジネスリーダーに、企業全体のAI導入がどのように進んでいるか、また個々のLLMアプリケーションが生産性、コスト削減、収益の成果をどのように出しているかを知らせる指標です。しかし、この重要な指標を監視するために必要なレポートやダッシュボードを作成するのは、どれほど難しいことでしょうか。このレポートと分析機能を提供できるツールは数多くありますが、私たちはArizeを気に入っています。LLMメトリクスのレポートと分析は、LLM OPSという最近話題になっているカテゴリーに当てはまります。ArizeとそのオープンソースオプションであるArize Phoenixには、LLMのハルシネーションをデバッグし、可視化された自動化されたアプローチでパフォーマンスをより迅速に評価するための多くの機能とツールがあります。 Arizeでは、カスタムメトリックを作成し、この場合は「Acceptable Hallucination Rate（許容ハルシネーション発生率）」とします。望ましいハルシネーション発生率を設定し、その変化を1時間、1日、1週間、1ヶ月にわたってモニターすることができます。ビジネスサイドの利害関係者もダッシュボードにログインし、アプリケーションごとに設定されたAHRに対して、各アプリケーションのハルシネーション発生率がどのように推移しているかを確認することができます。同様に重要なのは、開発者がAHRの変更についてアラートを受け取り、これらのアラートをトリガーする閾値を設定できることです。アラートはslackやメールに送信することができるので、開発者はすぐに行動を起こし、ハルシネーションをデバッグし、修正を実装し、ユーザーの採用率が低下するのを防ぐことができます。結論 AHRは、LLMアプリケーション全体で設定、監視、最適化するための重要な指標です。 AHRは、組織におけるAI導入の進捗と成功のレベルを示す指標として、利害関係者を一体化させます。AHRを設定、監視、報告することに課題がないわけではありません。多くの企業では、これを成功させるための専門知識やツールが不足しているのが現実です。私たちLLM Recovery Labは、予測不可能なハルシネーションに悩むAI導入希望のお客様のためのソリューションを開発し続けていきます。このような問題をお持ちの方は、ぜひお問い合わせください。皆様からのご連絡をお待ちしております。注意事項 – 上記ブログの一部ではありません。 RAGアプリケーションにおけるハルシネーションの管理 RAGの概要検索補強型生成は、LLMと外部の知識ソースを組み合わせ、より正確で文脈に関連した応答を生成します。生成されたコンテンツを実世界のデータに基づかせることで、ハルシネーションを軽減するのに役立ちます。 […]

Re-Rankingの力：RAGシステムを強化する

はじめに RAG（Retriever-Augmented Generation）システムにおけるRe-Ranking技術について掘り下げ、その技術が情報の関連性と正確性をいかに向上させるかを解説します。実装戦略の詳細な手順も紹介します。 Re-RankingでRAGのパフォーマンスを向上させるデータセットのサイズと複雑さが増すにつれて、複雑なクエリに対して適切な回答を返すために関連情報を選別することが重要になります。この目的のために、Re-Rankingと呼ばれる技術群があります。これにより、テキスト内の重要なチャンクを理解し、文書を並べ替え、最も関連性の高いものを優先順位付けして返すことができます。 Re-Rankingには主に2つのアプローチがあります：これらのRe-Rankingアプローチを適用する前に、基準となるRAGシステムが第2のクエリに対して返すトップ3のチャンクを評価してみましょう：これはRe-Ranking前の出力です。各チャンクにはノードIDと類似度スコアがあります。 FlagEmbeddingRerankerを使用したRe-Ranking 次に、Hugging Faceから提供されるオープンソースのRe-Rankingモデル、bge-ranker-baseモデルを使用して関連チャンクを取得します。 python Copy code これがRe-Ranking後の結果です： Re-Rankingを使用すると、関連度スコアのばらつきが増加し、特定のノードが順位を変動することがわかります。 RankGPTRerankを使用したRe-Ranking 次に、GPTモデルの機能を利用して文書をランク付けするRankGPTモジュールを使用します。 RankGPTを使用することで、次のチャンクが得られます： RankGPTでは、類似度スコアに基づいて並べ替えを行わないため、出力に示されたスコアは更新されません。しかし、最も関連性の高いノードがEmma StoneとRyan Goslingの両方に言及していることがわかります。結論 Re-Ranking技術を導入することで、RAGシステムの回答の質を大幅に向上させることができます。FlagEmbeddingRerankerやRankGPTRerankのようなツールを活用することで、情報の関連性と正確性を高め、より良いユーザー体験を提供することが可能です。次のステップとして、LLMベースのRe-Rankingアプローチを試して、さらにパフォーマンスを向上させる方法を検討してみましょう。

RAGの精度向上：チャンクサイズ、クエリ変換、チャンク方法のカスタマイズ

RAG（Retrieval Augmented Generation）は、大規模言語モデル（LLM）の能力を最大限に引き出す強力な手法として注目されています。 RAGは、LLMが外部の知識ベースを参照することで、より正確かつ詳細な応答を生成することを可能にします。しかし、RAGの精度を最大限に引き出すためには、いくつかの重要な要素を最適化する必要があります。 RAG（Retrieval Augmented Generation）の回答精度が低くなる原因としては、主に以下の要素が考えられます。 1. 検索（Retrieval）の精度: 2. 生成（Generation）の精度: 3. その他: これらの原因は複合的に作用することもあり、RAGの回答精度低下の原因を特定し、改善するためには、それぞれの要素を注意深く分析し、適切な対策を講じることが重要です。本記事では、RAGの精度向上に焦点を当て、チャンクサイズ、クエリ変換、そして具体的なチャンク方法のカスタマイズについて詳しく解説します。これらの要素を最適化することで、RAGシステムのパフォーマンスを大幅に向上させることができるでしょう。チャンクサイズの最適化 RAGシステムにおいて、チャンクサイズは非常に重要な要素です。チャンクサイズとは、知識ベースを分割する際の単位となるサイズを指します。チャンクサイズが適切でないと、RAGシステムは適切な情報を検索できず、不正確な応答を生成してしまう可能性があります。一般的に、チャンクサイズが小さすぎると、各チャンクに含まれる情報が少なくなり、関連性の高い情報を見つけることが困難になります。一方、チャンクサイズが大きすぎると、各チャンクに含まれる情報が多くなりすぎて、ノイズが増え、検索効率が低下する可能性があります。最適なチャンクサイズは、知識ベースの内容やLLMの特性によって異なります。具体的な最適化方法としては、以下のようなアプローチが考えられます。チャンクの種類と方法チャンクにはさまざまな種類があり、それぞれに特徴があります。最適な方法を選択するには、知識ベースの内容とLLMの特性を考慮する必要があります。チャンクの方法としては、正規表現、NLTK、SpaCy、Gensimなどのライブラリを利用する方法があります。クエリ変換の最適化 RAGシステムにおいて、クエリ変換も重要な要素です。クエリ変換とは、ユーザーが入力したクエリを、知識ベースの検索に適した形式に変換するプロセスを指します。適切なクエリ変換を行うことで、RAGシステムはより関連性の高い情報を検索し、正確な応答を生成することができます。具体的なクエリ変換の方法としては、以下のようなものが挙げられます。最適なクエリ変換方法は、知識ベースの内容やユーザーのクエリの特性によって異なります。具体的な最適化方法としては、以下のようなアプローチが考えられます。まとめ本記事では、RAGの精度向上に焦点を当て、チャンクサイズ、クエリ変換、そして具体的なチャンク方法のカスタマイズについて解説しました。これらの要素を最適化することで、RAGシステムのパフォーマンスを大幅に向上させることができます。 RAGは、LLMの能力を最大限に引き出すための強力な手法です。チャンクサイズ、クエリ変換、チャンク方法の最適化によって、RAGシステムはさらに進化し、より正確かつ詳細な応答を生成することができるようになるでしょう。キーワード: RAG, Retrieval Augmented Generation, LLM, 大規模言語モデル, チャンクサイズ, クエリ変換, チャンク方法, 精度向上メタディスクリプション: RAGの精度向上に焦点を当て、チャンクサイズ、クエリ変換、具体的なチャンク方法のカスタマイズについて詳しく解説します。これらの要素を最適化することで、RAGシステムのパフォーマンスを大幅に向上させる方法を学びましょう。

Category: Uncategorized