LLMOps とは
大規模言語モデル (LLM) は、人間の言語を理解し、生成できる機械学習 (ML) モデルです。GPT-3、LLaMA、Falcon などの LLM は、データから学習して単語や文章を生成するツールです。これらのツールは進化し続けており、こうしたモデルの運用に関するベストプラクティスが必要とされています。その穴を埋めるのが LLMOps です。
大規模言語モデル運用 (LLMOps) は、大規模言語モデルの管理に使用される運用手法です。LLMOps により、ファインチューニングからメンテナンスまで LLM のライフサイクルが管理および自動化され、開発者やチームによる LLM のデプロイ、監視、保守が容易になります。
LLMOps とMLOps
LLM が ML モデルのサブセットなら、LLMOps は機械学習運用 (MLOps) の大規模言語モデル版です。MLOps とは、ML モデルのデプロイと保守のプロセスを最適化することを目的としたワークフローの一連のプラクティスです。MLOps は、ML モデルをソフトウェア開発プロセスに統合するための、継続的な進化の確立を目指しています。同様に、LLMOps は LLM の開発とデプロイのライフサイクルの継続的な実験、反復、導入、改善を目指しています。
LLMOps と MLOps には類似点がありますが、相違点もあります。例として次のようなものがあります。
学習:通常、従来の ML モデルはゼロから作成またはトレーニングされますが、LLM は基盤モデルから開始され、タスクのパフォーマンスを向上させるためにデータを使用してファインチューニングされます。
チューニング:LLM のファインチューニングは、パフォーマンスを向上させ、精度を向上させ、特定の主題に関するモデルの知識を向上させます。プロンプトチューニングは、LLM が特定のタスクでより良いパフォーマンスを発揮できるようにします。ハイパーパラメーターチューニングも相違点の 1 つです。従来の ML では、チューニングは精度の改善に重点を置いています。LLM では、精度を高めるだけでなく、トレーニングに必要なコストと電力量を削減するためにもチューニングが重要です。どちらのモデルタイプも、チューニングプロセスによるメリットがありますが、その重点は異なります。また、検索拡張生成 (RAG) についても言及するべきでしょう。RAG は、外部の知識を使用して、LLM が正確かつ具体的な事実を収集し、より適切な応答を生成するようにするプロセスです。
フィードバック:ヒューマンフィードバックによる強化学習 (RLHF) により、LLM のトレーニングは改善されました。人間からのフィードバックは LLM のパフォーマンスにとって重要です。従来の ML モデルが特定の指標を使用して正確性を評価するのに対し、LLM はフィードバックを使用して正確性を評価します。
パフォーマンス指標:ML モデルには明確なパフォーマンス指標がありますが、LLM には BLEU (バイリンガル評価アンダースタディ) や ROUGE (要旨評価のための再現率重視アンダースタディ) など、より複雑な評価を必要とする別の指標があります。
LLMOps のメリット
LLMOps はパフォーマンスを監視し強化するための最良の方法になりつつあり、特記すべき主なメリットとして次の 3 つがあります。
効率性:LLMOps を使用すると、モデルをより早く開発し、モデルの品質を向上させ、迅速にデプロイすることができます。管理が効率化され、コミュニケーション、開発、デプロイを促進する 1 つのプラットフォーム上でチーム間のコラボレーションが向上します。
スケーラビリティ:LLMOps は、継続的インテグレーションおよび継続的デリバリー/デプロイメント (CI/CD) のために複数のモデルを管理および監視できるため、スケーラビリティと管理が向上します。また、LLMOps はデータ通信と応答を改善することで、より応答性の高いユーザーエクスペリエンスを実現します。
リスクの軽減:LLMOps によって透明性が向上し、組織や業界のポリシーへのコンプライアンスが強化されます。LLMOps は機密情報を保護し、リスクにさらされるのを防ぐことで、セキュリティとプライバシーを向上させることができます。
LLMOps のユースケース
LLMOps には次のようなユースケースがあります。
継続的インテグレーションおよびデリバリー (CI/CD):CI/CD は、モデル開発ライフサイクルの最適化、迅速化、自動化を目的としています。人間が介入しなくても新しいコードを取得できるようになるため、ダウンタイムが短縮され、コードのリリースが迅速化されます。Red Hat OpenShift Pipelines のベースとなっている Tekton のようなツールは、複数のプラットフォームにわたるデプロイメントを自動化することで開発者のワークフローを支援します。
データ収集、ラベル付け、ストレージ:データ収集は、さまざまなソースを使用して正確な情報を収集します。データラベル付けはデータを分類し、データストレージはネットワークに接続されたデジタル情報を収集して保持します。
モデルのファインチューニング、推論、監視:モデルのファインチューニングは、ドメイン固有のタスクを実行するようにモデルを最適化します。モデル推論では、既存の知識に基づいてプロダクションを管理し、推論された情報に基づいてアクションを実行できます。ヒューマンフィードバックを含むモデル監視では、モデルの動作に関するデータを収集して保存し、モデルがプロダクションデータでどのように動作するかを学習します。
LLMOps の段階
LLMOps にはいくつかの段階やコンポーネントがあり、それぞれにベストプラクティスがあります。
探索的データ分析 (EDA):データを評価し、データセットを作成することで機械学習ライフサイクルを準備するプロセス。
- データ収集:コードアーカイブやソーシャルメディアネットワークなどのさまざまなソースから収集される LLM のトレーニングに使用される最初のステップです。
- データクリーニング:データを収集したら、エラーの削除、不一致の修正、重複データの削除など、データを検査してトレーニングの準備をする必要があります。
- データ探索:次のステップでは、外れ値の特定やパターンの発見など、データを探索してその特性をより深く理解します。
データの準備とプロンプトエンジニアリング:アクセス可能なデータをチーム間で共有し、LLM 用のプロンプトを開発するプロセス。
- データの準備:LLM のトレーニングに使用されるデータは、収集されたデータの統合や結論付けなどの方法で準備されます。
- プロンプトエンジニアリング:テキストに使用されるプロンプトを作成することで、LLM が目的の出力を生成できるようにします。
モデルのファインチューニング:Hugging Face Transformers などの一般的なオープンソースライブラリを利用して、モデルのパフォーマンスをファインチューニングして改善します。
- モデルのトレーニング:データが準備された後、機械学習アルゴリズムを使用してデータ内のパターンを学習させることによって、LLM のトレーニングやファインチューニングを行います。
- モデルの評価:トレーニングの完了後、LLM のトレーニングに使用されなかったデータのセットを使用して LLM がどの程度うまく機能するかを確認し、LLM を評価する必要があります。
- モデルのファインチューニング:LLM のパフォーマンスが良好でない場合は、LLM のパラメーターを変更してパフォーマンスを向上させるなどのファインチューニングが可能です。
モデルのレビューとガバナンス:Kubeflow など、オープンソースの MLOps プラットフォームを利用した、ML モデルにおける発見、共有、コラボレーションのプロセス。
- モデルのレビュー:ファインチューニングの完了後、LLM が安全で信頼できることを確認するためにレビューが必要になります。これにはバイアスやセキュリティに関するリスクのチェックが含まれます。
- モデルガバナンス:モデルガバナンスは、ライフサイクルを通じて LLM を管理するプロセスです。これにはパフォーマンスの追跡、必要に応じた変更、不要になった場合の廃棄が含まれます。
モデルの推論と提供:モデルの更新頻度やリクエスト時間など、プロダクションの詳細を管理するプロセス。
- モデルの提供:LLM のレビューと承認が完了すると、プロダクションにデプロイして、アプリケーション・プログラミング・インタフェース (API) を通じて利用できるようになります。
- モデル推論:アプリケーションが API にクエリを実行することで、API はテキストを生成したり、質問に答えたりすることができます。これは、REST API (Representational Sate Transfer Application Programming Interface) や Web アプリケーションなど、さまざまな方法で実行できます。
ヒューマンフィードバックによるモデル監視:ユーザーの異常な行動や悪意のある行動を監視するモデルとデータの作成。
- モデルの監視:LLM をデプロイしたら、期待どおりに動作していることを確認するために LLM を監視する必要があります。これにはパフォーマンスの追跡、問題の特定、必要に応じた変更が含まれます。
- ヒューマンフィードバック:LLM のパフォーマンスを向上させるために使用します。LLM が生成するテキストに関するフィードバックを提供するか、LLM のパフォーマンスの問題を特定します。
LLMOps プラットフォームとは
LLMOps プラットフォームは、データ分析、実験追跡、プロンプトエンジニアリング、LLM 管理を通じてコラボレーションを促進する環境を開発者とチームに提供します。また、LLM の管理されたモデルの移行、デプロイ、監視も可能にします。このプラットフォームによってライブラリ管理が改善されるため、運用コストが削減されるとともに、高度なスキルを持つ技術担当者がデータの前処理、モデルの監視、デプロイなどのタスクを完了する必要性が少なくなります。
Red Hat を選ぶ理由
Red Hat® OpenShift® は Kubernetes を活用した、業界を牽引するハイブリッドクラウド・アプリケーション・プラットフォームであり、データセンターからネットワークエッジ、複数のクラウドに至るハイブリッドクラウド環境全体で AI 対応アプリケーションのロールアウトを加速します。
Red Hat OpenShift を活用することで、ソフトウェア開発プロセス、本番環境のロールアウト、監視、再トレーニング、再デプロイにモデルを統合する反復プロセスを自動化および単純化して、継続的な予測精度の向上を実現します。
Red Hat OpenShift AI は、AI 対応アプリケーションを構築、デプロイ、管理するツールを備えた柔軟でスケーラブルな MLOps プラットフォームです。これにより、データサイエンティストやアプリケーション開発者は、アプリケーションへの人工知能 (AI) の統合を安全かつ一貫して大規模に単純化できるようになります。OpenShift AI は、オンプレミスとパブリッククラウドで AI/ML の実験およびモデルのライフサイクル全体をサポートするツールを提供します。
Red Hat OpenShift AI と Red Hat OpenShift の機能を単一のエンタープライズ対応 AI アプリケーション・プラットフォームに組み入れることで、一貫性、セキュリティ、スケーラビリティを促進する単一の共同作業環境で複数のチームが連携できます。