인공지능(Artificial Intelligence, AI)은 일반적으로 입력 및 출력을 생성하는 챗봇과 이 챗봇이 문장을 형성하는 데 사용하는 데이터를 제공하는 대규모 언어 모델(Large Language Model, LLM)의 조합으로 이해됩니다. LLM이 없는 AI는 그다지 유용하지 않습니다. 따라서 AI의 합법성 및 윤리에 대한 논의는 대부분 생성형 AI(생성 AI)가 사용하는 '지식'을 구축하는 데 무엇이 사용되는지에 집중합니다. 생성 AI가 답변을 생성하는 데 사용하는 데이터가 신뢰할 수 있고 저작권의 제약을 받지 않는다고 어떻게 확신할 수 있을까요? AI의 지식 기반을 감사하거나 전문화하는 가장 좋은 방법은 오픈소스를 사용하는 것이며, InstructLab 프로젝트를 통해 이를 실현할 수 있습니다.
InstructLab이란?
InstructLab은 개방형 기여를 통해 범용 모델링을 촉진하는 오픈소스 AI 프로젝트입니다. 지적 재산권 및 저작권, 개인 정보 보호, 신뢰성, 분야별 전문성, 접근성 등 여러 가지 우려로 인해 오픈소스 LLM이 필요한 사람이라면 누구나 생성 AI를 형성할 수 있도록 지원하는 것을 목표로 합니다. 완전한 LLM을 설계하는 것은 어려운 태스크이므로 개방형 LLM을 구축하는 가장 좋은 방법은 오픈소스 환경에서 구축하는 것입니다. InstructLab은 오픈소스이므로 이에 기여하여 오픈소스 언어 모델을 생성 AI에서 최대한 활용할 수 있습니다. 지금 바로 InstructLab을 시작할 수 있는 세 가지 방법을 소개합니다.
전문성 공유
AI는 확률을 사용하여 응답을 구축하고, 모델 역할을 하는 팩트 정보를 기반으로 각 답변을 생성합니다. AI가 사용하는 팩트 컬렉션은 LLM의 일부입니다. InstructLab이 AI 콘텐츠를 위한 최상의 기반을 구축하려면 빈틈없는 LLM을 제공해야 합니다. 그리고 LLM을 구축하려면 신뢰할 수 있는 콘텐츠로 구성된 데이터 뱅크를 구축해야 합니다. InstructLab 용어로는 이를 분류라고 하며, 여기에는 기술 및 지식이라는 두 가지 기본 범주가 포함됩니다.
InstructLab의 기술은 작업 수행 능력에 관한 것입니다. InstructLab에서 기술을 생성한다는 것은 구체적인 작업을 수행하는 방법을 가르친다는 뜻으로, 동일한 의미를 유지하면서 문장에서 단어를 재배열하거나 운율이 맞는 두 단어를 찾거나 문자열을 카멜표기법으로 변환하는 것 등이 해당합니다.
지식은 신뢰할 수 있는 출처에서 수집한 팩트 모음입니다. 언어 모델에 대한 지식을 생성할 때는 직접적인 질문에 답하는 데 사용할 수 있는 데이터를 모델에 제공합니다.
기술과 지식은 키 및 값 쌍('매핑')과 목록('시퀀스')으로 구성된 최소한의 파일 포맷인 또 다른 마크업 언어(YAML)로 저장됩니다. 다음은 YAML로 표현된 지식의 간단한 예시입니다.
---
version: 2
created_by: tux
domain: flowers
seed_examples:
- answer: 'A carnation is a herbaceous perennial plant.'
question: 'What kind of plant is a carnation?'
- answer: 'Dianthus caryophyllus'
question: 'What is the scientific name for a carnation?'
task_description: 'teach a language model about carnations'
document:
repo: https://github.com/juliadenham/Summit_knowledge
commit: 195fc4d83a40d8a1b60062e66e06cfc0bc9c8d35
patterns:
- dianthus_caryophyllus.md
다음은 YAML로 표현된 기술의 간단한 예입니다.
---
version: 2
task_description: 'Teach the model how to rhyme.'
created_by: juliadenham
seed_examples:
- question: What are 5 words that rhyme with horn?
answer: warn, torn, born, thorn, and corn.
- question: What are 5 words that rhyme with cat?
answer: bat, gnat, rat, vat, and mat.
- question: What are 5 words that rhyme with poor?
answer: door, shore, core, bore, and tore.
- question: What are 5 words that rhyme with bank?
answer: tank, rank, prank, sank, and drank.
- question: What are 5 words that rhyme with bake?
answer: wake, lake, steak, make, and quake.
지식과 기술에 대한 YAML 예시를 비교해 보면, 지식에는 특정 주제에 대한 검증 가능한 데이터가 포함된 반면 기술에는 특정 태스크의 예시가 포함되어 있습니다.
기여 가이드를 읽은 후에 qna.yaml
파일을 직접 생성하여 LLM에 포함하도록 InstructLab에 제출할 수 있습니다. 프로젝트에서 처리하고 통합할 수 있도록 작업을 수정해야 할 수 있으며, yamllint 와 같은 툴에 익숙해지는 것이 좋지만 약간의 노력만 들이면 오픈소스 AI에 의미 있는 기여를 할 수 있습니다.
ilab 명령을 사용하여 로컬에서 AI 실행
AI 설정은 상당히 복잡하고 손이 많이 가는 프로세스이지만 InstructLab을 사용하면 예상보다 쉬워집니다. 가상 환경 및 pip과 같은 Python 툴에 적응해야 하며 Bash와 같은 터미널 환경에도 익숙해져야 합니다. 또한 시스템에 CUDA(또는 유사한 병렬 컴퓨팅 프레임워크)가 설정되어 있고 충분한 드라이브 공간이 있어야 합니다(LLM은 5GB이며 계속 용량이 증가함).
InstructLab 리포지토리에서 설치 가이드를 따라 AI 및 InstructLab 모델과 상호작용한 다음 버그 및 기능 요청에 대해 보고합니다.
코드 기여
현재 InstructLab 프로젝트는 12개의 리포지토리로 구성되어 있으며, 여기에는 커맨드라인 인터페이스 ilab
, 합성 데이터 생성을 위한 Python 라이브러리, 설계 문서, 분류 파일, 분류 YAML을 위한 JSON 스키마 등이 포함됩니다. 프로그래머라면 해결되지 않은 버그 리포트에서 문제나 기능 요청을 찾아 해결할 수 있습니다.
처음으로 기여하는 경우 개발 팀의 프로세스를 이해하는 데 많은 시간을 할애할 확률이 높으니 사소한 문제를 해결하는 것이 좋습니다. 간단한 수정만 필요한 버그에는 good first issue
태그가 지정되므로 적절한 시작점을 찾을 때 is:open is:issue label:"good first issue
"로 필터링하세요. 처음으로 기여하는 사람들을 위한 가이드도 있습니다. 이 가이드는 개발 환경을 설정하는 방법과 병합을 요청하기 전에 새 코드를 테스트하는 방법을 자세히 설명합니다.
오픈소스 AI는 액세스 가능하며, 모든 형태의 오픈소스와 마찬가지로 AI의 제어 권한과 조건을 사용자에게 부여합니다. 일반 AI에는 전문적인 도메인을 다루는 사용자에게 필요한 지식이나 기술이 없을 수 있습니다. 또한 민감한 데이터를 다루는 사용자라면 필요한 정보에 일반 AI가 아예 액세스하지 못할 수도 있습니다. InstructLab을 사용하면 개방형 범용 LLM을 구축하거나 자체 LLM을 구축할 수 있습니다. 목표가 무엇이든 지금 바로 InstructLab을 시작하세요!
저자 소개
Seth Kenlon is a Linux geek, open source enthusiast, free culture advocate, and tabletop gamer. Between gigs in the film industry and the tech industry (not necessarily exclusive of one another), he likes to design games and hack on code (also not necessarily exclusive of one another).
유사한 검색 결과
채널별 검색
오토메이션
기술, 팀, 인프라를 위한 IT 자동화 최신 동향
인공지능
고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트
오픈 하이브리드 클라우드
하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요
보안
환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보
엣지 컴퓨팅
엣지에서의 운영을 단순화하는 플랫폼 업데이트
인프라
세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보
애플리케이션
복잡한 애플리케이션에 대한 솔루션 더 보기
오리지널 쇼
엔터프라이즈 기술 분야의 제작자와 리더가 전하는 흥미로운 스토리
제품
- Red Hat Enterprise Linux
- Red Hat OpenShift Enterprise
- Red Hat Ansible Automation Platform
- 클라우드 서비스
- 모든 제품 보기
툴
체험, 구매 & 영업
커뮤니케이션
Red Hat 소개
Red Hat은 Linux, 클라우드, 컨테이너, 쿠버네티스 등을 포함한 글로벌 엔터프라이즈 오픈소스 솔루션 공급업체입니다. Red Hat은 코어 데이터센터에서 네트워크 엣지에 이르기까지 다양한 플랫폼과 환경에서 기업의 업무 편의성을 높여 주는 강화된 기능의 솔루션을 제공합니다.