機械学習とは

URL をコピー

機械学習 (ML) は人工知能 (AI) のサブカテゴリであり、アルゴリズムを使用してパターンを識別し、一連のデータ内で予測を行います。このデータは数字やテキスト、さらには写真で構成されます。 

理想的な条件下では、機械学習は私たち人間が自分自身の力で解釈するよりも迅速かつ正確にデータを解釈することを可能にします。機械学習は数学的基礎に基づいており、アルゴリズムがデータから学習し、予測を行い、モデルを最適化することができます。

Red Hat AI の詳細

ハイブリッドクラウドにおける AI モデルのためのオープン・プラットフォーム

人工知能は、人間が機械の中に人間のような知性を合成的に作り出すことで開発されます。機械学習の場合は、知覚、学習、問題解決など、人間が生来備えている特定の認知機能を模倣するように機械をプログラミングします。 

機械が人間のように考えるようにするには、トレーニングを行って独自の予測モデルを構築させます。この予測モデルは、機械がデータを分析し、最終的に「学習する」機械になるための手段として機能します。このプロセスを開始するには、コンピュータにデータを提供し、学習モデルを選択してデータの処理方法を機械に指示する必要があります。 

エンタープライズで AI が機能する仕組みの詳細はこちら
機械学習モデルは、データを使用して最終的に 3 つの機能を提供できます。

  • 何が起こったかを説明する
  • 何が起こるかを予測する
  • 次に取るべき行動について提案する

機械をトレーニングするために選択される学習モデルは、タスクの複雑さと目的とする結果によって異なります。機械学習は通常、教師あり機械学習、教師なし機械学習、強化機械学習の 3 つの学習方法に分類されます。

教師あり学習アルゴリズムは、ラベル付けされたデータセットを使用してトレーニングされます。このモデルは、画像認識のようなタスクに使用されます。

教師なし学習モデルでは、ラベル付けされていないデータを調べて、共通点、パターン、傾向を見つけます。これは、顧客セグメンテーション、レコメンデーション・システム、一般的なデータ探索のようなタスクに使用されます。

強化学習モデルは、確立された報酬システム内で、試行錯誤のプロセスを使用してトレーニングされます。このスタイルの学習は、アクションが勝敗につながるゲームをコンピュータにプレイさせてトレーニングする場合などに使用されます。 

コンピュータがデータの解釈方法に慣れると (学習モデルとトレーニングデータのおかげで)、新しいデータが提示されたときに予測を行い、タスクを実行できるようになります。コンピュータは継続的なデータストリームから学習し、人間よりも短時間で正確にタスクを実行できるようになり、予測の精度が徐々に向上します。

AI/ML ワークロード用のハイブリッドクラウド・プラットフォームを構築

Red Hat のリソース

機械学習のトレーニングフェーズにおいて、モデルは提供された一連のデータから学習します。このフェーズでは、開発者はモデルのパラメーターを調整し、出力のエラーを最小限に抑えることを目指します。 

これは、モデルにデータを渡し、その予測を評価し、その予測を使用してモデルを改善するパイプラインを確立することによって行われます。多くの場合、このパイプラインには次の手順が組み込まれています。

  1. データの収集と準備:データを収集し、その後、それらのデータをトレーニングデータとテストデータに分離し、不要なものを削除して、均等に分散されるようにランダム化することでデータの準備が整います。データセットの重要な情報を保持しながら入力変数または入力機能の数を減らすことは、「次元削減」として知られています。
  2. モデルの選択:データサイエンティストとエンジニアが、音声認識、画像認識、予測などの異なるタスクに対応するさまざまな機械学習アルゴリズムを作成します。そこから選択を行います。
  3. トレーニング:準備された入力データはモデルを通じて送信され、パターンが検出され (パターン認識)、予測が行われます。
  4. 評価:トレーニング後、モデルの出力は、これまでに使用されていないデータのセットに対して評価されます。

チューニング:次に、開発者は前の評価ステップで得られた結果に基づいてパラメーターを調整し、モデルをさらに改善します。

トレーニングと評価におけるよくある課題

モデルがトレーニングデータでは良好なパフォーマンスを示しても、テストデータではパフォーマンスが低い場合は、オーバーフィッティングとなっている、つまり、トレーニングデータ内のノイズから学習しすぎている可能性があります。両方のセットでパフォーマンスが低いモデルは、アンダーフィッティングとなっている可能性があります。これは、基礎となるパターンの学習に失敗しているときに発生します。

LoRA と QLoRA は、リソース効率の高いファインチューニング技法であり、オーバーフィッティングを防ぐのに役立ちます。 

トレーニングデータのオーバーフィッティングを防ぐために、別の検証データセットを使用することもあります。各イテレーションの後、検証データに対してモデルの出力を評価します。 

その後、オーバーフィッティングを防ぐために調整を行います。これが次元削減の適用です。オーバーフィッティングにつながる可能性のある無関係なデータを削除します。この削減は、アンダーフィッティングにならないよう慎重に行う必要があります。

アンダーフィッティングを修正するには、開発者はさらに役立つ機能を追加して、データ内の複雑な関係を捉えるモデルの能力を向上させる必要があります。

テストセットからの情報が誤ってトレーニングセットに漏洩することをデータ漏洩と言います。これが発生すると、優位性が不当にもたらされるため、パフォーマンスが過大評価されてしまいます。

チューニング、新機能、より関連性の高いデータにより、その後のイテレーションでのエラーを最小限に抑えることができます。 

デプロイする準備が整った ML モデルは、推論というプロセスを実行します。推論は、AI モデルがトレーニング中に学習した内容を適用してプロダクション環境で出力を提供する「アクションフェーズ」です。 

vLLM は、推論プロセスの効率化を図る推論サーバーおよびエンジンです。メモリー管理技術を用いて処理速度 (スループット) を最大化し、ユーザーが ML モデルから信頼性の高い結果を迅速に得ることができるようにします。 

Red Hat AI Inference Server

ニューラルネットワークは、機械学習で使用されるアルゴリズムの一種です。これらは、データ内に複雑な非線形関係が伴うタスクに特に適しています。 ディープラーニングは機械学習のサブセットであり、何層もの深さのニューラルネットワークを使用します。これらの深いニューラルネットワークは、データの階層表現を学習できるように適切に構造化されています。これによってディープラーニングは、画像認識、自然言語処理、音声認識などのタスクを強力にサポートします。

機械学習と人工知能を使用すると、ユーザーエクスペリエンスを向上させる、顧客の行動を予測する、システムを監視して不正行為を検出するといったことが可能になり、さらには医療従事者が生命を脅かす症状を検出するために役立てることもできます。私たちの多くは、日常的に機械学習の恩恵を受け、機械学習とやり取りしています。機械学習の一般的な用途には次のようなものがあります。

  • お気に入りのストリーミングサービスの推奨アルゴリズム
  • 自動ヘルプラインとチャットボット
  • ターゲット広告
  • 金融機関からの自動見積もり

予測型 AI と生成 AI を比較

生成 AI は今や多数の AI ツールの原動力となっていますが、それを可能にしているのがディープラーニングです。ディープラーニングは、大量のデータを分析および解釈するための機械学習の手法です。生成 AI のサブセットである大規模言語モデル (LLM) は、かつてない規模で人間の言語を理解し生成する能力を実証しており、機械学習の重要な適用例になっています。 

機械学習は多くの企業による利用が期待される機能になりつつあり、医療、金融サービス通信政府機関などの業界で、革新的な AI/ML のユースケースが生じています。

生成 AI のユースケースを見る
予測型 AI のユースケースの詳細

ML モデルではバイアスが生じる可能性がある:機械学習モデルは過去のデータのパターンから学習します。そのため、バイアスや差別を学習してしまう可能性があります。たとえば、社会における既存の人種、性別、社会経済的なバイアスがデータに反映されている可能性があります。トレーニングデータのバイアスが取り除かれていない場合、モデルはそれらのバイアスを永続させ、増幅する可能性があります。

同様に、機械学習モデルによって融資の承認、雇用、刑罰に関する判決などの決定が行われた場合、社会の主流とはされていないグループに不当な影響を与える可能性があります。さまざまなグループ全体に公平な結果を確保するために、公平性のフレームワークが存在しています。

ML モデルはその作業内容を示さない場合がある:一部の機械学習モデルは「ブラックボックス」となっており、そのようなモデルの内部プロセスを理解することはできません。透明性が欠如していると、モデルがどのように意思決定を行うかを人間が理解することは困難になります。それが信頼性の欠如につながる可能性があります。

これを解決する方法として、説明可能な AI (XAI) の手法を適用して AI の出力を人間にとってより理解しやいものにすることができます。XAI を実装するには、初期設計から監視まで、機械学習のライフサイクル全体の透明性を高める必要があります。 

説明可能な AI の詳細

Red Hat は、チームが AI アプリケーションと機械学習 (ML) モデルを透明性と制御性をもって構築し、デプロイするための共通のプラットフォームを提供します。 

Red Hat® OpenShift® AI は、お客様独自のデータを使用してお客様独自のユースケース向けに AI モデルをトレーニング、プロンプトチューニング、ファインチューニング、提供できるプラットフォームです。

大規模な AI デプロイメント向けに、Red Hat OpenShift は AI ワークロードに適したスケーラブルなアプリケーション・プラットフォームを提供しており、一般的なハードウェア・アクセラレーターへのアクセスを完備しています。

また、Red Hat は機械学習テクノロジーを応用して Red Hat® Ansible® Lightspeed (および IBM Watson Code Assistant)Red Hat OpenShift Lightspeed をはじめとする新たなサービスを構築し、IT プロフェッショナルの業務効率アップを促進するガイダンスも提供しています。

また、Red Hat の統合パートナーにより、オープンソース・プラットフォームと連携するよう構築された、信頼できる AI ツールのエコシステムへの扉が開かれます。

ブログ投稿

戦略の主権をどの程度保持していますか?Red Hat Sovereignity Readiness Assessment ツールの概要

Red Hat Sovereignty Readiness Assessment ツールは、Web ベースのセルフサービス評価ツールであり、7 つの重要ドメインにわたる組織のデジタル管理についての明確で客観的なベースラインを提供します。

すべての Red Hat 製品のトライアル

Red Hat の無料トライアルは、Red Hat 製品をハンズオンでお試しいただける無料体験版です。認定の取得に向けた準備をしたり、製品が組織に適しているかどうかを評価したりするのに役立ちます。

関連情報

医療 AI とは | Red Hat

医療 AI とは、医療に AI 技術を応用することを指します。機械学習でトレーニングされたアルゴリズムが医療の応用、医療の提供、医療の利用の 3 分野で活用されています。

ディープラーニングとは

ディープラーニングは、人間の脳をヒントに開発されたアルゴリズムを使用してコンピュータにデータを処理する方法を教える人工知能 (AI) 技法です。

生成 AI とは?をわかりやすく解説

生成 AI とは、人工知能テクノロジーの一種であり、大規模なデータセットで訓練されたディープラーニングモデルを使用して新しいコンテンツを作成するものです。

AI/MLリソース

関連記事