機械学習とは

URL をコピー

機械学習 (ML) は人工知能 (AI) のサブカテゴリであり、アルゴリズムを使用してパターンを識別し、一連のデータ内で予測を行います。このデータは数字やテキスト、さらには写真で構成されます。理想的な条件下では、機械学習は私たち人間が自分自身の力で解釈するよりも迅速かつ正確にデータを解釈することを可能にします。機械学習は数学的基礎に基づいており、アルゴリズムがデータから学習し、予測を行い、モデルを最適化することができます。

Red Hat AI の詳細

人工知能は、人間が機械の中に人間のような知性を合成的に作り出すことで開発されます。機械学習の場合は、知覚、学習、問題解決など、人間が生来備えている特定の認知機能を模倣するように機械をプログラミングします。 

機械が人間のように考えるようにするには、トレーニングを行って独自の予測モデルを構築させます。この予測モデルは、機械がデータを分析し、最終的に「学習する」機械になるための手段として機能します。このプロセスを開始するには、コンピュータにデータを提供し、学習モデルを選択してデータの処理方法を機械に指示する必要があります。

組織に機械学習プラクティスを導入する

機械学習モデルは、データを使用して最終的に 3 つの機能を提供できます。

  • 何が起こったかを説明する
  • 何が起こるかを予測する
  • 次に取るべき行動について提案する

機械をトレーニングするために選択される学習モデルは、タスクの複雑さと目的とする結果によって異なります。機械学習は通常、教師あり機械学習、教師なし機械学習、強化機械学習の 3 つの学習方法に分類されます。

教師あり学習アルゴリズムは、ラベル付けされたデータセットを使用してトレーニングされます。このモデルは、画像認識のようなタスクに使用されます。

教師なし学習モデルでは、ラベル付けされていないデータを調べて、共通点、パターン、傾向を見つけます。これは、顧客セグメンテーション、レコメンデーション・システム、一般的なデータ探索のようなタスクに使用されます。

強化学習モデルは、確立された報酬システム内で、試行錯誤のプロセスを使用してトレーニングされます。このスタイルの学習は、アクションが勝敗につながるゲームをコンピュータにプレイさせてトレーニングする場合などに使用されます。

コンピュータがデータの解釈方法に慣れると (学習モデルとトレーニングデータのおかげで)、新しいデータが提示されたときに予測を行い、タスクを実行できるようになります。コンピュータは継続的なデータストリームから学習するため、徐々に予測の精度が高まり、人間よりも短い時間かつ高い精度でタスクを実行できるようになります。

AI/ML ワークロード用のハイブリッドクラウド・プラットフォームを構築

Red Hat のリソース

機械学習のトレーニングフェーズにおいて、モデルは提供された一連のデータから学習します。このフェーズでは、開発者はモデルのパラメーターを調整し、出力のエラーを最小限に抑えることを目指します。AI モデルのトレーニングは、AI 推論の精度と速度の向上に役立ちます。

これは、モデルにデータを渡し、その予測を評価し、その予測を使用してモデルを改善するパイプラインを確立することによって行われます。多くの場合、このパイプラインには次の手順が組み込まれています。

  1. データの収集と準備:データを収集し、その後、それらのデータをトレーニングデータとテストデータに分離し、不要なものを削除して、均等に分散されるようにランダム化することでデータの準備が整います。データセットの重要な情報を保持しながら入力変数または入力機能の数を減らすことは、「次元削減」として知られています。
  2. モデルの選択:データサイエンティストとエンジニアが、音声認識、画像認識、予測などの異なるタスクに対応するさまざまな機械学習アルゴリズムを作成します。そこから選択を行います。
  3. トレーニング:準備された入力データはモデルを通じて送信され、パターンが検出され (パターン認識)、予測が行われます。
  4. 評価:トレーニング後、モデルの出力は、これまでに使用されていないデータのセットに対して評価されます。

チューニング:次に、開発者は前の評価ステップで得られた結果に基づいてパラメーターを調整し、モデルをさらに改善します。

トレーニングと評価におけるよくある課題

モデルがトレーニングデータでは良好なパフォーマンスを示しても、テストデータではパフォーマンスが低い場合は、オーバーフィッティングとなっている、つまり、トレーニングデータ内のノイズから学習しすぎている可能性があります。両方のセットでパフォーマンスが低いモデルは、アンダーフィッティングとなっている可能性があります。これは、基礎となるパターンの学習に失敗しているときに発生します。

LoRA と QLoRA は、リソース効率の高いファインチューニング技法であり、オーバーフィッティングを防ぐのに役立ちます。

トレーニングデータのオーバーフィッティングを防ぐために、別の検証データセットを使用することもあります。各イテレーションの後、検証データに対してモデルの出力を評価します。その後、オーバーフィッティングを防ぐために調整を行います。これが次元削減の適用です。オーバーフィッティングにつながる可能性のある無関係なデータを削除します。この削減は、アンダーフィッティングにならないよう慎重に行う必要があります。

アンダーフィッティングを修正するには、開発者はさらに役立つ機能を追加して、データ内の複雑な関係を捉えるモデルの能力を向上させる必要があります。

テストセットからの情報が誤ってトレーニングセットに漏洩することをデータ漏洩と言います。これが発生すると、優位性が不当にもたらされるため、パフォーマンスが過大評価されてしまいます。

チューニング、新機能、より関連性の高いデータにより、その後のイテレーションでのエラーを最小限に抑えることができます。 

ニューラルネットワークは、機械学習で使用されるアルゴリズムの一種です。これらは、データ内に複雑な非線形関係が伴うタスクに特に適しています。 ディープラーニングは機械学習のサブセットであり、何層もの深さのニューラルネットワークを使用します。これらの深いニューラルネットワークは、データの階層表現を学習できるように適切に構造化されています。これによってディープラーニングは、画像認識、自然言語処理、音声認識などのタスクを強力にサポートします。

機械学習と人工知能を使用すると、ユーザーエクスペリエンスを向上させる、顧客の行動を予測する、システムを監視して不正行為を検出するといったことが可能になり、さらには医療従事者が生命を脅かす症状を検出するために役立てることもできます。私たちの多くは、日常的に機械学習の恩恵を受け、機械学習とやり取りしています。機械学習の一般的な用途には次のようなものがあります。

  • お気に入りのストリーミングサービスの推奨アルゴリズム
  • 自動ヘルプラインとチャットボット
  • ターゲット広告
  • 金融機関からの自動見積もり

予測 AI と生成 AI を比較

生成 AI は今や多数の AI ツールの原動力となっていますが、それを可能にしているのがディープラーニングです。ディープラーニングは、大量のデータを分析および解釈するための機械学習の手法です。生成 AI のサブセットである大規模言語モデル (LLM) は、かつてない規模で人間の言語を理解し生成する能力を実証しており、機械学習の重要な適用例になっています。

機械学習は多くの企業による利用が期待される機能になりつつあり、医療金融サービス通信政府機関などの業界で、革新的な AI/ML のユースケースが生じています。

生成 AI ユースケースの詳細
予測 AI ユースケースの詳細

機械学習モデルは過去のデータから学習しますが、このデータには人間の意思決定に影響を与えるバイアスや差別が暗黙的に含まれていることがあり、これをモデルが学習してしまうことがあります。たとえば、社会における既存の人種、性別、社会経済的なバイアスがデータに反映されている可能性があります。トレーニングデータのバイアスが取り除かれていない場合、モデルはそれらのバイアスを永続させ、増幅する可能性があります。

同様に、機械学習モデルによって融資の承認、雇用、刑罰に関する判決などの決定が行われた場合、社会の主流とはされていないグループに不当な影響を与える可能性があります。さまざまなグループ全体に公平な結果を確保するために、公平性のフレームワークが存在しています。

機械学習モデルは、その内部プロセスが目に見えない、または理解できないため、「ブラックボックス」と見なされることがあります。透明性の欠如により、モデルがどのように意思決定を行うかを人間が理解することが困難になると、信頼性の欠如につながる可能性があります。

機械学習システムがバイアスや差別に基づいて決定するなどといった誤った決定を下した場合、誰がその説明責任を負うかを判断するのは難しい場合があります。機械学習モデルによる決定に責任を負うのは、開発者でしょうか、システムを使用する組織でしょうか、それともシステム自体でしょうか。

効果的なモデルをトレーニングするために、機械学習には大量のデータが必要なため、組織は大量の個人データを収集して保存する傾向にあります。これにより、プライバシーや悪用の可能性に関する懸念が生じます。

さらに、個人情報を含む大規模なデータセットを保存するとデータ侵害のリスクが高まります。個人情報の盗難、金融詐欺、または風評被害が発生すれば、個人に影響が及ぶことになります。

Red Hat は、チームが AI アプリケーションと機械学習 (ML) モデルを透明性と制御性をもって構築し、デプロイするための共通のプラットフォームを提供します。

Red Hat® OpenShift® AI は、お客様独自のデータを使用してお客様独自のユースケース向けに AI モデルをトレーニング、プロンプトチューニング、ファインチューニング、提供できるプラットフォームです。

大規模な AI デプロイメント向けに、Red Hat OpenShift は AI ワークロードに適したスケーラブルなアプリケーション・プラットフォームを提供しており、一般的なハードウェア・アクセラレーターへのアクセスを完備しています。

また、Red Hat は機械学習テクノロジーを応用して Red Hat® Ansible® Lightspeed (および IBM watsonx Code Assistant)Red Hat OpenShift Lightspeed をはじめとする新たなサービスを構築し、IT プロフェッショナルの業務効率アップを促進するガイダンスも提供しています。

また、Red Hat の統合パートナーにより、オープンソース・プラットフォームと連携するよう構築された、信頼できる AI ツールのエコシステムへの扉が開かれます。

OpenShift AI の詳細

リソース

エンタープライズ AI を始める:初心者向けガイド

この初心者向けガイドでは、Red Hat OpenShift AI と Red Hat Enterprise Linux AI によって AI 導入をどのように加速できるのかについて説明します。

すべての Red Hat 製品のトライアル

Red Hat の無料トライアルは、Red Hat 製品をハンズオンでお試しいただける無料体験版です。認定の取得に向けた準備をしたり、製品が組織に適しているかどうかを評価したりするのに役立ちます。

関連情報

ディープラーニングとは?をわかりやすく解説

ディープラーニングは、人間の脳をヒントに開発されたアルゴリズムを使用してコンピュータにデータを処理する方法を教える人工知能 (AI) 技法です。

生成 AI とは?をわかりやすく解説

生成 AI とは、人工知能テクノロジーの一種であり、大規模なデータセットで訓練されたディープラーニングモデルを使用して新しいコンテンツを作成するものです。

大規模言語モデルとは?をわかりやすく解説

大規模言語モデル (LLM) とは、人間の言語を理解し、生成するために機械学習技法を活用した人工知能モデルの一種です。

AI/MLリソース

関連記事