Wie Sie noch heute in InstructLab einsteigen können

17. Juni 20244 Minuten (Lesedauer)KI/ML,

Linux geek

Wenn von künstlicher Intelligenz (KI) die Rede ist, geht es in der Regel um die Kombination aus einem Chatbot, der Input und Output liefert, und einem Large Language Model (LLM), das Daten bereitstellt, die der Chatbot zum Bilden von Sätzen verwenden kann. KI ist ohne LLM nicht besonders nützlich. Deshalb befassen sich die meisten Diskussionen über die rechtlichen und ethischen Aspekte der KI mit der Frage, was für den Aufbau des von der generativen KI verwendeten „Wissens“ verwendet wird. Wie lässt sich sicherstellen, dass die Daten, die eine generative KI zur Formulierung ihrer Antworten verwendet, zuverlässig, vertrauenswürdig und frei von Urheberrechten sind? Der beste Weg, die Wissensdatenbank von KI zu prüfen oder zu spezialisieren, ist die Verwendung von Open Source, und genau hier setzt das Projekt InstructLab an.

Was ist InstructLab?

InstructLab ist ein Open Source-KI-Projekt, das universelle Modellierung mit offenen Beiträgen fördert. Ziel des Projekts ist es, das Mitwirken an generativer KI einer breiten Öffentlichkeit zu ermöglichen, unabhängig davon, ob Sie ein Open Source-LLM aufgrund von Bedenken hinsichtlich des geistigen Eigentums und des Urheberrechts, des Datenschutzes, der Zuverlässigkeit, des Fachwissens, der Zugänglichkeit oder aus anderen Gründen benötigen. Die Entwicklung eines vollständigen LLM ist komplex. Der beste Weg, ein offenes LLM zu entwickeln, ist daher, es öffentlich zugänglich zu entwickeln. Da InstructLab auf Open Source basiert, können Sie dazu beitragen und helfen, dass Open Source-Sprachmodelle die beste Wahl für generative KI sind. Nachfolgend werden 3 Optionen erläutert, wie Sie noch heute in InstructLab einsteigen können.

Weitergeben von Expertise

KI nutzt die Wahrscheinlichkeitsrechnung, um ihre Antworten zu konstruieren, und stützt sich bei den einzelnen Antworten auf faktische Informationen, die als Modell dienen. Die Sammlung der von der KI verwendeten Fakten ist Teil eines LLM. Damit InstructLab die optimale Basis für KI-gestützte Inhalte bietet, muss es ein umfassendes LLM bieten. Zur Entwicklung eines LLM muss eine Datenbank mit zuverlässigen Inhalten erstellt werden. In der InstructLab-Terminologie wird dies als Taxonomie bezeichnet, die die beiden Hauptkategorien Skills und Wissen umfasst.

Ein Skill in InstructLab ist performativ. Wenn Sie einen Skill für InstructLab erstellen, bringen Sie ihm etwas Bestimmtes bei, beispielsweise das Umordnen von Wörtern in einem Satz unter Beibehaltung der gleichen Bedeutung, das Finden von zwei Wörtern, die sich reimen, oder das Umwandeln eines Strings in Camelcase.

Wissen ist eine Sammlung von Fakten mit Angabe einer zuverlässigen Quelle. Wenn Sie Wissen für ein Sprachmodell erstellen, stellen Sie die Modelldaten bereit, mit denen direkte Fragen beantwortet werden können.

Sowohl Skills als auch Wissen werden als YAML (Yet Another Markup Language) gespeichert, ein minimalistisches Dateiformat, das aus Schlüssel/Wert-Paaren (einer „Zuordnung“) und Listen (einer „Sequenz“) besteht. Hier ist ein einfaches Beispiel für Wissen in YAML:

---
version: 2
created_by: tux
domain: flowers
seed_examples:
 - answer: 'A carnation is a herbaceous perennial plant.'
   question: 'What kind of plant is a carnation?'
 - answer: 'Dianthus caryophyllus'
   question: 'What is the scientific name for a carnation?'
task_description: 'teach a language model about carnations'
document:
 repo: https://github.com/juliadenham/Summit_knowledge
 commit: 195fc4d83a40d8a1b60062e66e06cfc0bc9c8d35
 patterns:
   - dianthus_caryophyllus.md

Hier ist ein einfaches Beispiel für einen Skill, ausgedrückt in YAML:

---
version: 2
task_description: 'Teach the model how to rhyme.'
created_by: juliadenham
seed_examples:
 - question: What are 5 words that rhyme with horn?
   answer: warn, torn, born, thorn, and corn.
 - question: What are 5 words that rhyme with cat?
   answer: bat, gnat, rat, vat, and mat.
 - question: What are 5 words that rhyme with poor?
   answer: door, shore, core, bore, and tore.
 - question: What are 5 words that rhyme with bank?
   answer: tank, rank, prank, sank, and drank.
 - question: What are 5 words that rhyme with bake?
   answer: wake, lake, steak, make, and quake.

Vergleichen Sie die YAML-Beispiele für Wissen und Skills. Wissen enthält verifizierbare Daten zu einem bestimmten Thema. Ein Skill enthält Beispiele für eine bestimmte Aufgabe.

Nachdem Sie den Contribution Guide gelesen haben, können Sie eine eigene qna.yaml-Datei erstellen und sie zur Aufnahme in das LLM an InstructLab senden. Möglicherweise müssen Sie Ihren Beitrag überarbeiten, um sicherzustellen, dass dieser verarbeitet und in das Projekt integriert werden kann. Außerdem ist es nützlich, sich mit Tools wie yamllint vertraut zu machen. Aber mit nur wenig Aufwand können Sie einen wichtigen Beitrag zur Open Source-KI leisten.

Lokales Ausführen von KI mit dem Befehl ilab

Die Einrichtung von KI ist ein ziemlich komplexer und manueller Prozess, aber mit InstructLab ist es einfacher, als Sie vielleicht erwarten. Sie müssen sich mit Python-Tools wie dem Tool für virtuelle Umgebungen und pip auskennen und mit Terminalumgebungen wie Bash vertraut sein. Außerdem müssen auf Ihrem System CUDA (oder ein ähnliches Parallel Computing Framework) installiert haben und über ausreichend Festplattenspeicher verfügen (das LLM ist 5 GB groß und wächst).

Befolgen Sie die Installationsanleitung im InstructLab-Repository, und interagieren Sie dann mit der KI und dem InstructLab-Modell. Danach können Sie dann Fehler und Funktionsanfragen melden.

Schreiben von Code-Beiträgen

Derzeit besteht das InstructLab-Projekt aus 12 Repositories. Es gibt die Befehlszeile ilab, eine Python-Library zum Generieren synthetischer Daten, Designdokumente, Taxonomiedateien und das JSON-Schema für die Taxonomie-YAML und mehr. Wenn Sie selbst programmieren, finden Sie in den noch nicht abgeschlossenen Fehlerberichten vielleicht Probleme oder Funktionsanfragen, zu deren Lösung Sie beitragen können.

Für Ihren ersten Beitrag ist es oft sinnvoll, ein kleines Problem zu lösen, da Sie voraussichtlich sehr viel Zeit darauf verwenden werden, den Prozess des Entwicklungsteams zu verstehen. Fehler, die nur eine einfache Korrektur erfordern, sind mit good first issue gekennzeichnet. Verwenden Sie daher is:open is:issue label:"good first issue" als Filter, wenn Sie nach einem guten Einstiegspunkt suchen. Außerdem gibt es einen Guide für Erstmitwirkende, in dem im Detail erklärt wird, wie Sie Ihre Entwicklungsumgebung einrichten und, was ebenso wichtig ist, wie Sie Ihren neuen Code testen können, bevor Sie eine Zusammenführung anfordern.

Open Source-KI ist zum Greifen nah, und wie bei den anderen Formen von Open Source liegen die Kontrolle und die Bedingungen der KI in den Händen der Nutzenden. Wenn Sie in einem spezialisierten Bereich tätig sind, verfügt die allgemeine KI möglicherweise nicht über das erforderliche Wissen oder den notwendigen Skill, um für Ihre Nutzenden hilfreich zu sein. Wenn Sie es mit vertraulichen Daten zu tun haben, hat die allgemeine KI möglicherweise nicht einmal Zugriff auf die Informationen, die Ihre Nutzerinnen und Nutzer benötigen. Mit InstructLab können Sie bei der Entwicklung eines universellen und offenen LLM helfen oder sogar Ihr eigenes erstellen. Unabhängig von Ihrem Ziel, beginnen Sie noch heute mit InstructLab!

Über den Autor

Seth Kenlon

Linux geek

Seth Kenlon is a Linux geek, open source enthusiast, free culture advocate, and tabletop gamer. Between gigs in the film industry and the tech industry (not necessarily exclusive of one another), he likes to design games and hack on code (also not necessarily exclusive of one another).

Mehr erfahren

Nach Thema durchsuchen

Entdecken Sie alle Themen

Wie Sie noch heute in InstructLab einsteigen können

Was ist InstructLab?

Weitergeben von Expertise

Lokales Ausführen von KI mit dem Befehl ilab

Schreiben von Code-Beiträgen

Über den Autor

Seth Kenlon

Ähnliche Einträge

Mehr erfahren

Nach Thema durchsuchen

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Sprache auswählen

Red Hat legal and privacy links

Red Hat legal and privacy links