フィードを購読する

人工知能 (AI) が話題となるとき、通常は入出力を提供するチャットボットと、チャットボットが文章を形成するのに使うデータを提供する大規模言語モデル (LLM) の組み合わせのことを指します。LLM を使わない AI はあまり役に立ちません。そのため、AI の合法性と倫理をめぐる議論の多くは、生成 AI が使用する「知識」を構築するために何が使用されるかに関するものです。生成 AI が答えを作り出すために使用しているデータが信頼でき、信頼に値し、著作権の保護対象ではないことを、どのようにして知ることができるでしょうか。AI のナレッジベースを監査または専門化する最良の方法は、オープンソースを活用することであり、これを実現しているのが InstructLab プロジェクトです。

InstructLab とは

InstructLab は、誰もがオープンな形で貢献できるようにすることでユニバーサルなモデル作成を目指すオープンソース AI プロジェクトです。その目標は、知的財産権、著作権、プライバシー、信頼性、専門知識、アクセス性などに関する懸念からオープンソース LLM を必要とする場合かどうかにかかわらず、誰でも生成 AI を構築できるようにすることです。完全な LLM を設計することは大きな手間のかかる作業です。したがって、オープン LLM を構築するための最善の方法はオープンな方法で構築することです。InstructLab はオープンソースなので、誰でも開発に貢献して、オープンソースの言語モデルが生成 AI に最適な選択肢になるのを支援することができます。InstructLab を今すぐ始める 3 つの方法を紹介します。

専門知識を共有する

AI は確率を使用して応答を構築し、モデルとして提供される実際の情報に基づいて回答を提供します。AI が使用するファクトのコレクションは LLM の一部です。AI を活用したコンテンツの最適な基盤となるために、InstructLab は包括的な LLM を提供する必要があります。LLM の構築には、信頼性の高いコンテンツを格納したデータバンクの構築が必要です。InstructLab ではこれを「分類法」と呼び、「スキル」と「知識」という 2 つの主要なカテゴリがあります。

InstructLab のスキルは実行にかかわるものです。InstructLab のスキルを作成するときには、意味を変えずに文中の単語を並び替える、韻を踏む 2 つの単語を見つける、文字列をキャメルケースに変換するなど、具体的なことを行う方法を教えます。

知識は信頼できる情報源と関連付けられたファクトの集合です。言語モデルの知識を作成する場合は、直接的な質問に答えるために使用できるモデルデータを提供します。

スキルと知識はいずれも YAML の形式で保存されます。これは、キーと値のペア (「マッピング」) とリスト (「シーケンス」) という最小限の要素で構成されるファイル形式です。以下は、YAML で表現された知識の単純な例です。

---
version: 2
created_by: tux
domain: flowers
seed_examples:
 - answer: 'A carnation is a herbaceous perennial plant.'
   question: 'What kind of plant is a carnation?'
 - answer: 'Dianthus caryophyllus'
   question: 'What is the scientific name for a carnation?'
task_description: 'teach a language model about carnations'
document:
 repo: https://github.com/juliadenham/Summit_knowledge
 commit: 195fc4d83a40d8a1b60062e66e06cfc0bc9c8d35
 patterns:
   - dianthus_caryophyllus.md

以下は、YAML として表現されたスキルの単純な例です。

---
version: 2
task_description: 'Teach the model how to rhyme.'
created_by: juliadenham
seed_examples:
 - question: What are 5 words that rhyme with horn?
   answer: warn, torn, born, thorn, and corn.
 - question: What are 5 words that rhyme with cat?
   answer: bat, gnat, rat, vat, and mat.
 - question: What are 5 words that rhyme with poor?
   answer: door, shore, core, bore, and tore.
 - question: What are 5 words that rhyme with bank?
   answer: tank, rank, prank, sank, and drank.
 - question: What are 5 words that rhyme with bake?
   answer: wake, lake, steak, make, and quake.

知識とスキルの YAML の例を比べてみてください。知識には、特定のトピックに関する検証可能なデータが含まれています。スキルには特定のタスクの例が含まれています。

コントリビューションガイドを読んだ後、独自の qna.yaml ファイルを作成し、InstructLab に送信して LLM に含めることができます。ファイルの書式に誤りがあった場合は、ファイルが処理されてプロジェクトに統合されるためには修正が必要になることがあります。yamllint などのツールに慣れておくと便利です。こうした少しの努力で、オープンソース AI に意味のある貢献ができます。

ilab コマンドを使用してローカルで AI を実行する

AI のセットアップはかなり複雑な手作業のプロセスですが、InstructLab を使用すると、その作業は思うより簡単です。とはいえ仮想環境pip などの Python ツールに精通し、Bash などのターミナル環境を問題なく使える必要があります。また、システムに CUDA (または類似の並列コンピューティング・フレームワーク) が設定されていること、ドライブに十分な容量 (現在は 5 GB ですが、今後さらに増加します) があることも条件となります。

InstructLab リポジトリのインストールガイドに従ってインストールし、AI と InstructLab モデルを使ってみて、バグや機能リクエストを報告してください。

コードを提供する

現在、InstructLab プロジェクトは 12 のリポジトリで構成されています。コマンドライン・インタフェースの ilab、合成データ生成用の Python ライブラリ、設計ドキュメント、分類法ファイル、分類法 YAML 用の JSON スキーマなどがあります。あなたがプログラマーなら、クローズされていないバグレポートの問題や機能リクエストの中に、あなたが解決できるものがあるかもしれません。

大抵の場合、初めてのコントリビューションでは、開発チームのプロセスの理解に多くの時間をかけることができるよう、小さな問題を解決するとよいでしょう。簡単な修正で解決できるバグには「good first issue」というタグが付いているので、初めて扱うのにちょうどいい問題を探す場合は「is:open is:issue label:"Good first issue"」でフィルターしてください。また、初めてのコントリビューター向けのガイドも用意されており、開発環境のセットアップ方法と、マージをリクエストする前に新しいコードをテストする方法についての詳しい説明があります。

オープンソース AI は手の届くところにあり、他のあらゆる形式のオープンソースと同様に、AI の制御と条件はユーザーの手に委ねられています。専門的な領域を扱う場合、汎用 AI では必要な知識やスキルが備わっておらず、ユーザーの役に立たない可能性があります。機密データを扱う場合、汎用 AI ではユーザーが必要とする情報にアクセスすることすらできないかもしれません。InstructLab なら、汎用的でオープンな LLM の構築を支援したり、独自の LLM を構築したりすることが可能です。目標が何であれ、InstructLab を今すぐ始めましょう


執筆者紹介

Seth Kenlon is a Linux geek, open source enthusiast, free culture advocate, and tabletop gamer. Between gigs in the film industry and the tech industry (not necessarily exclusive of one another), he likes to design games and hack on code (also not necessarily exclusive of one another).

Read full bio
UI_Icon-Red_Hat-Close-A-Black-RGB

チャンネル別に見る

automation icon

自動化

テクノロジー、チームおよび環境に関する IT 自動化の最新情報

AI icon

AI (人工知能)

お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート

open hybrid cloud icon

オープン・ハイブリッドクラウド

ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。

security icon

セキュリティ

環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報

edge icon

エッジコンピューティング

エッジでの運用を単純化するプラットフォームのアップデート

Infrastructure icon

インフラストラクチャ

世界有数のエンタープライズ向け Linux プラットフォームの最新情報

application development icon

アプリケーション

アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細

Original series icon

オリジナル番組

エンタープライズ向けテクノロジーのメーカーやリーダーによるストーリー