경험이라는 씨앗은 위대한 아이디어로 자라날 수 있습니다. 최근에 일본을 방문한 적이 있습니다. 일본은 문화가 풍부하고 체계적인 나라로, 언어와 문화가 얼마나 깊이 연관되어 있는지 다시 한번 느낄 수 있었습니다. 언어 구조는 사람들이 세상을 인식하는 방식을 반영하고 그러한 방식에 영향을 미칩니다. 예를 들어 문화에는 격식에 얽매이지 않는 문화가 있는 반면, 확고한 사회적 위계 속에 격식을 차리는 경향의 문화도 있습니다. 이는 문법에 반영되며, 사람들의 인사 방식, 질문의 형성 과정, 대화의 억양에도 나타납니다. 이 같은 경험을 통해 저는 한 가지 질문을 던지게 되었습니다. 새로운 세대의 AI를 개발할 때 어떻게 하면 모든 문화권의 언어를 구사하도록 학습시킬 수 있을까 하는 것입니다.
글로벌 AI
AI를 혁신적인 글로벌 툴이자 모든 인류를 위한 기술이라고 합니다. 그런데 AI가 집단 데이터를 통해 학습하고 있다면 정확히 어느 곳의 문화를 학습하는 것일까요? 보편적으로 지능적인 시스템의 가능성은 강력하지만 오늘날 가장 강력한 AI 모델이 문화적으로 중립적이지 않다는 점에서 중요한 문제를 감추고 있습니다. 오늘날 가장 강력한 AI 모델들은 압도적으로 영어 중심적이고 서구 편향된 학습 데이터를 직접적으로 반영합니다.
'AI 주권(sovereignty)'이라는 개념은 이러한 서구 편향된 모델 학습과 특히 관련이 높습니다. AI 주권에 있어서 중요한 것은 단순히 기술이나 하드웨어에 대한 액세스 권한을 갖는 것이 아니라 국가 또는 지역사회의 고유한 언어, 가치, 문화를 반영할 수 있는 AI를 구축하는 것입니다. Red Hat은 이를 실현하기 위한 비결이 오픈소스 AI의 세계에 있다고 믿습니다.
수치로 보는 AI의 언어 격차
특히 AI의 맥락에서 디지털 주권은 추상적인 개념에서 벗어나 중요한 실질적 문제로 빠르게 진화하고 있습니다. 전 세계 정부와 민간 부문이 디지털 미래의 확보를 위해 국내 AI 에코시스템 개발에 수십억 달러를 투자하고 있는 가운데 EU가 InvestAI 이니셔티브를 통해 AI '기가팩토리' 건설을 위한 200억 유로를 포함하여 총 2,000억 유로를 AI 개발에 동원하고 기업의 민간 투자가 2023년부터 2024년까지 44.5% 증가하는 등 관련 수치가 이를 증명합니다. AI 모델의 정교함과 범위가 계속 늘어남에 따라 데이터의 학습 및 운영에 사용되는 데이터의 위치와 제어는 국가 안보, 경제적 경쟁력, 윤리적 거버넌스에 중요한 영향을 미칩니다. 이러한 데이터 제어는 이론적인 문제일 뿐만 아니라 확실한 영향을 끼치는 실질적인 문제입니다.
우리가 일반적으로 알고 있는 파운데이션 모델은 주로 영어를 기반으로 합니다. 예를 들어 Meta의 Llama 2에 사용된 사전 학습 데이터의 89.7%가 영어였습니다. Llama 3.1의 경우에도 15조 개의 토큰 데이터셋에서 영어가 아닌 언어는 8%에 불과했습니다. 마찬가지로 OpenAI의 GPT-3은 약 93%가 영어로 구성된 데이터셋을 기반으로 학습했습니다. 모델의 자체 데이터시트에서 추출한 이러한 통계가 시사하는 바는 큽니다.
학습 데이터의 주요 소스인 웹 자체도 유사하게 편향되어 있습니다. 많은 모델을 학습시키는 데 사용되는 인터넷의 스냅샷인 Common Crawl 데이터셋이 대표적인 예입니다. 최근 버전에서는 문서의 46%가 영어로 작성되었으며, 그 다음으로 많은 언어인 독일어와 러시아어는 각각 6% 미만을 차지했습니다. 그런데 2022년 CIS 월드 팩트북에 따르면 전 세계적으로 영어를 사용하는 인구는 19%에 조금 못미칩니다.
이러한 불균형의 가져오는 결과는 단순한 언어 번역 이상의 것에 영향을 미쳐 모델의 문화적 정렬을 형성합니다. 연구에 따르면 대규모 언어 모델(Large Language Model, LLM)은 서구의(Western) 교육받은(Educated) 산업화된(Industrialized) 부유한(Rich) 민주적(Democratic): "WEIRD" 사회의 문화적 가치에 부합하는 경향이 있는 것으로 나타났습니다. 이는 학습한 데이터의 소스로부터 영향을 받았기 때문입니다.
언어는 문화의 가치, 신념, 세계관을 직접적으로 반영하므로 언어를 기반으로 AI 모델을 학습시키는 것은 문화적 패턴을 나타내고 재현하는 강력한 방법이 될 수 있습니다. AI는 특정 언어 및 문화적 그룹의 방대한 텍스트를 분석하여 해당 문화의 미묘한 차이를 모방하는 방법을 학습합니다.
아재 개그(dad joke)의 번역
AI 모델의 학습에는 어휘와 문법에 대한 이해뿐만 아니라 언어의 실제 적용에 대한 이해가 포함됩니다. 즉, 말의 직역을 넘어 풍자, 반어, 유머, 그리고 대화에 내재된 모든 사회 예절을 포함해야 합니다. 소위 간단한 '아재 개그'에도 이 모든 요소들이 반영되어 있다는 것을 알 수 있습니다. 예를 들어 공개 GPT 모델에 '아재 개그'를 요청했는데 다음과 같은 결과가 나왔습니다.
I'm afraid for the calendar. Its days are numbered.
위의 영문을 직역하면 '달력이 걱정돼. 숫자가 매겨져 있으니까.'이지만 실은 '달력 큰일이네. 하루하루 사라지고 있잖아.'라는 뜻으로 별의미 없는 말장난입니다. 이 농담은 서구 문화에서 흔히 볼 수 있는 관용구이기 때문에 영어로는 재미있을 수 있지만 영어가 모국어가 아닌 사람들은 어리둥절할 수 있습니다. 아재 개그에서도 때때로 볼 수 있는 풍자와 유머는 방대한 양의 말뭉치, 문헌 자료, 소셜 미디어 상호작용, 나아가 일상어를 처리할 때만 실질적 의미가 드러납니다. 이로써 AI 모델은 반복되는 주제, 강력한 사회적 집단을 대변하는 지배적 이야기, 그리고 문화의 정체성을 형성하는 기반 인지 프레임워크를 모방할 수 있습니다.
새로운 경로를 개척하는 오픈소스
커뮤니티는 처음부터 자체 모델을 빌드할 필요가 없습니다. 오픈소스의 장점은 대체 경로를 제공한다는 점입니다. 커뮤니티는 강력한 오픈소스 '기본 모델'(예: Llama)을 선택해 이를 미세 조정할 수 있습니다. 즉, 커뮤니티의 문화에 특화된 데이터를 기반으로 모델을 추가로 학습시킬 수 있습니다. 그 결과 모델은 커뮤니티의 언어, 역사 및 법적 프레임워크의 미묘한 차이를 학습합니다.
문화적 미세 조정은 단순한 이론이 아니라 현재 실제로 일어나고 있는 현상입니다. 예시는 다음과 같습니다.
- 마사카네(Masakhane)의 범아프리카 자연어 처리(NLP): Masakhane는 대략적으로 해석하면 '함께 만들어 간다'라는 뜻의 줄루어로, 아프리카 전역의 연구원들로 구성된 민간 커뮤니티입니다. 이들은 자체 문제를 해결하기 위해 노력하는 커뮤니티의 완벽한 예입니다. 연구원들은 아프리카 지역의 10개 언어에 대해 최초의 개체명 인식(Named Entity Recognition, NER) 데이터셋(MasakhaNER)을 생성했으며, 30개 이상의 아프리카 언어에 대한 번역 모델을 구축했습니다.
- 토착어 보존: AI의 적용 범위는 소멸 위기 언어를 보호하는 데까지 확장됩니다. 캐나다 국립 연구 위원회(National Research Council of Canada, NRC)의 토착 언어 기술 프로젝트, 브라질의 Guarani Mbya와 같은 언어들과 관련된 IBM의 프로젝트 등은 AI 기술이 문화 보존을 지원하는 데 어떻게 사용될 수 있는지 보여주는 흥미로운 예입니다.
AI 주권을 위한 노력 확대
기술 작업과 동시에 광범위한 정치적 움직임이 AI 주권의 개념과 관련하여 일어나고 있습니다. AI 주권은 국가가 자체 AI 개발을 관리하여 다른 국가(또는 지역)로부터 독립적인 상태를 유지하는 것을 의미합니다. 소버린 AI란 국경 내에서 민감한 데이터를 제어하고, 중요 시스템에 대한 전략적 독립성을 유지하고, 현지 문화를 반영하고 국가 가치에 부합하는 AI를 개발하고, 국내 경제를 활성화하고, 체계와 규제(예: 유럽 연합의 EU 인공지능법)를 수립하는 것을 의미합니다.
이러한 법적, 정치적 움직임은 Masakhane와 같은 커뮤니티들의 활동을 촉진하여 많은 국가에서 그저 좋은 아이디어로 생각할 뿐만 아니라 국가적 우선순위로 삼는 계기가 됩니다. 그렇기 때문에 로컬 데이터셋을 수집하고 소버린 AI 기능을 구축하는 대규모 작업이 필요합니다. 결국 어떤 국가의 모든 데이터가 자국의 문화적 맥락을 반영하지 않는 외국 모델을 통해 처리될 경우 그 나라는 AI 주권을 실현할 수 없습니다. 오픈소스 모델의 로컬 미세 조정은 이러한 정책 요구 사항을 처리하는 데 도움이 됩니다.
다국어 AI의 미래
AI의 기본 경로는 문화 획일화의 하나일 수 있습니다. 즉, 전 세계 문화 간 미묘한 차이들이 좁은 범위의 인적 경험을 기반으로 학습된 모델에 의해 단조로워지는 것입니다. 현재 헌신적인 커뮤니티들이 오픈소스 툴과 모델을 사용하여 더욱 공평하고 다양한 AI 에코시스템을 구축하고 있습니다.
오픈소스의 원칙은 상당히 강력하며, AI에 대한 커뮤니티 중심의 접근 방식을 지지하는 것이 중요합니다. 투명성, 협업, 공동 개발을 수용하는 과정에서 오픈소스는 혁신을 가속화하는 데 도움이 됩니다. 오픈소스는 다양한 관점과 기여를 결합합니다. 이를 통해 AI의 미래가 형성될 수 있습니다.
예를 들어 Red Hat은 InstructLab, vLLM과 같은 프로젝트에 참여함으로써 데이터 사이언티스트뿐만 아니라 누구라도 자신의 지식과 전문성을 LLM에 기여할 수 있는 기회를 제공하고 있습니다. 이러한 협업적 접근 방식은 광범위한 사회적 요구와 문화적 규범을 반영하는 AI 기술을 구축하는 데 도움이 됩니다. 그리고 권한이 소수에게 집중되는 것을 줄이고 모든 사람이 최첨단 기술을 더욱 쉽게 이용하는 데 도움이 됩니다.
더 많은 모델, 더 적은 편향
모델 편향은 일반적으로 모델을 학습시키는 데 사용되는 데이터에서 비롯됩니다. 모델이 다양하지 않거나 현실 세계를 대표하지 않는 데이터셋을 기반으로 학습하는 경우 불가피하게 이러한 내재된 편향을 반영하고 증폭시키게 됩니다. Red OpenShift Hat AI는 개발자가 다양한 AI 모델 중에서 선택할 수 있도록 지원하여 편향을 해결하는 데 도움이 될 수 있습니다. 이러한 유연성 덕분에 편향 가능성이 있는 단일 모델이 적용되지 않으며, 사용자는 특정 컨텍스트에 가장 적합한 모델과 더욱 다양한 데이터셋을 기반으로 학습한 모델을 선택할 수 있습니다. 또한 OpenShift AI의 오픈소스 특성은 투명성을 촉진하고 다양한 기여자로 구성된 커뮤니티를 지원하여 이러한 내재된 편향을 줄이는 데 더욱 도움이 됩니다.
커뮤니티 중심의 접근 방식은 기술 발전을 가속화하는 데 도움이 될 뿐만 아니라 AI 개발을 민주화하여 수많은 개인과 조직이 이러한 혁신적인 기술에 기여하고 혜택을 누릴 수 있도록 지원합니다. AI의 미래가 밋밋한 모노컬처(monoculture)일 필요는 없습니다. 전 세계의 헌신적인 오픈소스 커뮤니티 덕분에 모두가 함께 구축하는 활기찬 에코시스템이 될 수 있습니다.
더욱 공평하고 다양한 AI 에코시스템을 지원할 준비가 되셨나요? World Summit AI 2025에 참여하여 오픈소스가 AI 주권의 미래를 어떻게 형성하고 있는지 알아보세요. InstructLab, Red Hat AI Inference Server와 같은 프로젝트를 비롯해 개방형 AI에 대한 Red Hat의 노력에 대해 자세히 알아보고 AI 개발의 민주화에 기여할 수 있는 방법을 확인하세요. 이벤트에 대한 자세한 내용은 여기를 참조하세요.
리소스
엔터프라이즈를 위한 AI 시작하기: 입문자용 가이드
저자 소개
Adam Wealand's experience includes marketing, social psychology, artificial intelligence, data visualization, and infusing the voice of the customer into products. Wealand joined Red Hat in July 2021 and previously worked at organizations ranging from small startups to large enterprises. He holds an MBA from Duke's Fuqua School of Business and enjoys mountain biking all around Northern California.
유사한 검색 결과
Resilient model training on Red Hat OpenShift AI with Kubeflow Trainer
Red Hat to acquire Chatterbox Labs: Frequently Asked Questions
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
채널별 검색
오토메이션
기술, 팀, 인프라를 위한 IT 자동화 최신 동향
인공지능
고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트
오픈 하이브리드 클라우드
하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요
보안
환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보
엣지 컴퓨팅
엣지에서의 운영을 단순화하는 플랫폼 업데이트
인프라
세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보
애플리케이션
복잡한 애플리케이션에 대한 솔루션 더 보기
가상화
온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래