머신 러닝이란?

공개 2025년 4월 24일•4분 읽기

머신 러닝(ML)은 알고리즘을 사용하여 데이터 세트 내에서 패턴을 식별하고 예측하는 인공지능(AI)의 하위 범주입니다. 이 데이터는 숫자, 텍스트 또는 사진으로 구성될 수 있습니다.

이상적인 조건에서 인간은 직접 데이터를 해석할 때보다 머신 러닝을 활용할 때 더 빠르고 정확하게 데이터를 해석할 수 있습니다. 머신 러닝은 알고리즘이 데이터로부터 학습하고, 예측하며, 모델을 최적화할 수 있도록 하는 수학적 기반에서 비롯됩니다.

Red Hat AI 살펴보기

하이브리드 클라우드의 AI 모델을 위한 개방형 플랫폼

인공지능은 인간이 머신 내에서 인간과 같은 지능 감각을 인위적으로 생성할 때 발달합니다. 머신 러닝의 관점에서 인공지능은 인식, 학습, 문제 해결과 같이 인간이 자연적으로 가지고 있는 특정 인지 기능을 모방하도록 머신을 프로그래밍하는 것을 의미합니다.

머신이 인간처럼 생각하도록 하려면 어떻게 해야 할까요? 자체 예측 모델을 생성하도록 머신을 학습시켜야 합니다. 이 예측 모델은 머신이 데이터를 분석하고 궁극적으로 '학습'하는 머신이 되는 수단입니다. 이 프로세스를 시작하려면 컴퓨터에 데이터를 입력하고 머신에 데이터 처리 방법을 지시할 학습 모델을 선택해야 합니다.

기업에서 AI를 활용할 수 있는 방식 알아보기
머신 러닝 모델은 데이터를 사용하여 궁극적으로 다음 세 가지 기능을 제공할 수 있습니다.

발생한 이벤트 설명
발생할 이벤트 예측
다음에 취해야 할 조치에 대한 제안

머신을 학습시키기 위해 선택하는 학습 모델은 태스크의 복잡성과 원하는 결과에 따라 다릅니다. 일반적으로 머신 러닝은 지도 머신 러닝, 비지도 머신 러닝, 강화 머신 러닝 등 3가지 학습 방법으로 분류됩니다.

지도 학습 알고리즘은 지정된 데이터 세트로 학습합니다. 이 모델은 이미지 인식과 같은 태스크에 사용됩니다.

비지도 학습 모델은 레이블이 지정되지 않은 데이터를 살펴보고 공통점, 패턴, 추세를 찾습니다. 고객 세분화, 추천 시스템, 일반 데이터 탐색과 같은 태스크에 사용됩니다.

강화 학습 모델은 기존 보상 시스템 내에서 시행착오 프로세스를 사용하여 학습합니다. 이 학습 방식은 작업이 승패로 이어지는 게임을 하도록 컴퓨터를 학습시키는 것과 같은 일에 사용됩니다.

컴퓨터가 (학습 모델과 학습 데이터를 통해) 사용자가 원하는 데이터 해석 방식에 익숙해지면 새로운 데이터가 제시될 때 예측하고 태스크를 수행할 수 있습니다. 컴퓨터는 연속적인 데이터 스트림을 통해 학습하면서 점차 예측의 정확도를 높이고 인간보다 더 빠르고 정확하게 태스크를 수행할 수 있게 됩니다.

AI/ML 워크로드를 위한 하이브리드 클라우드 플랫폼 구축

제공된 데이터 세트로부터 모델이 학습하는 단계가 머신 러닝의 학습 단계입니다. 이 단계에서 개발자는 모델의 매개 변수를 조정하고 출력 오류를 최소화하는 것을 목표로 합니다.

이것은 파이프라인을 구축하여 모델을 통해 데이터를 전달하고, 예측을 평가하며, 예측을 사용해 모델을 개선하는 방식으로 이뤄집니다. 파이프라인에는 주로 다음과 같은 단계가 수반됩니다.

데이터 수집 및 준비: 데이터를 수집한 후 학습 데이터와 테스트 데이터로 나누고, 원치 않는 데이터를 제거하고, 균등한 분배를 위해 임의 추출하는 방식으로 데이터를 준비합니다. 중요한 정보는 유지하면서 데이터 세트의 입력 변수 또는 특성의 개수를 줄이는 것을 '차원 축소'라고 합니다.
모델 선택: 데이터 사이언티스트와 엔지니어들은 음성 인식, 이미지 인식, 예측 등 여러 태스크를 수행하기 위해 다양한 머신 러닝 알고리즘을 개발했습니다.
학습: 준비된 입력 데이터가 모델을 통해 전송되어 패턴을 찾고(패턴 인식) 예측을 수행합니다.
평가: 학습이 끝나면 모델의 출력을 과거에 사용하지 않은 데이터 세트와 비교 평가합니다.

조정: 그런 다음 개발자는 앞선 평가 단계의 결과를 토대로 모델을 더 개선하기 위해 매개 변수를 조정합니다.

학습 및 평가 단계의 일반적인 문제

모델이 학습 데이터에서는 제대로 작동하지만 테스트 데이터에서는 그러지 못한다면 학습 데이터의 노이즈로부터 지나치게 학습하는 과대적합 문제가 원인일 수 있습니다. 반면 모델이 학습 데이터 세트와 테스트 데이터 세트에서 모두 제대로 작동하지 않는다면 기반 패턴을 학습하지 못하는 과소적합 문제가 원인일 수 있습니다.

LoRA와 QLoRA는 사용자의 과대적합을 방지하는 데 도움이 되는 리소스 효율적인 미세 조정(fine-tuning) 기술입니다.

별도의 검증 데이터 세트를 사용하면 학습 데이터에 대한 과대적합을 예방할 수 있습니다. 반복이 끝날 때마다 모델의 출력을 검증 데이터를 토대로 평가합니다.

그런 다음 조정을 통해 과대적합을 방지합니다. 이렇게 과대적합을 야기할 수 있는 관련 없는 데이터를 제거하여 차원 축소를 실행합니다. 이러한 축소는 신중하게 수행해야 과소적합을 방지할 수 있습니다.

과소적합을 수정하려면 개발자는 더 유익한 특성을 추가해 모델이 데이터에서 복잡한 관계를 파악할 수 있는 기능을 개선해야 합니다.

테스트 세트의 정보가 실수로 학습 세트로 유출되는 데이터 유출은 불공정한 경쟁 우위를 제공하여 성능이 과대 평가되는 결과를 낳습니다.

조정, 새로운 특성, 관련성 높은 데이터로 향후 반복 시 오류를 최소화할 수 있습니다.

ML 모델이 배포될 준비가 되면 추론이라는 프로세스를 실행합니다. 추론은 AI 모델이 학습 과정에서 배운 내용을 적용하여 프로덕션 환경에서 출력을 제공하는 '행동 단계'입니다.

vLLM은 추론 프로세스의 효율성을 높이는 추론 서버이자 엔진입니다. vLLM은 메모리 관리 기술을 사용하여 처리 속도(처리량)를 극대화하므로 사용자가 ML 모델에서 빠르고 안정적인 결과를 얻을 수 있습니다.

Red Hat AI Inference Server

신경망은 머신 러닝에서 사용되는 알고리즘의 한 유형으로, 데이터의 복잡한 비선형 관계가 포함된 태스크에 특히 적합합니다. 딥러닝은 심층 신경망을 사용하는 머신 러닝의 하위 집합입니다. 이러한 심층 신경망은 데이터의 계층적 표현을 학습하도록 체계화되어 있습니다. 따라서 딥러닝은 이미지 인식, 자연어 처리, 음성 인식과 같은 태스크에 매우 강력한 기능을 발휘합니다.

머신 러닝 및 인공지능은 사용자 환경을 향상하고, 고객 행동을 예측하고, 시스템을 모니터링하여 사기를 탐지하고, 나아가 의료진이 생명이 위험한 상태를 감지하는 것까지 도울 수 있습니다. 많은 사람들이 매일 머신 러닝과 상호작용하며 그 혜택을 누리고 있습니다. 일반적인 머신 러닝 활용 사례는 다음과 같습니다.

애용하는 스트리밍 서비스의 추천 알고리즘
자동 전화 상담 및 챗봇
타겟팅 광고
금융 기관의 자동화된 견적

예측 AI와 생성형 AI 비교

현재 많은 AI 툴을 구동하는 생성형 AI는 대량의 데이터를 분석하고 해석하기 위한 머신 러닝 기술인 딥러닝으로 구현되었습니다. 대규모 언어 모델(LLM)은 생성형 AI의 하위 집합으로, 전례 없는 규모로 인간의 언어를 이해하고 생성하는 역량을 입증함으로써 머신 러닝의 중요한 애플리케이션을 대표하고 있습니다.

머신 러닝은 많은 기업에서 사용할 것으로 예상되는 기능이 되고 있으며, 혁신적인 AI/ML 활용 사례는 의료, 금융 서비스, 통신, 정부 및 기타 산업 전반에 걸쳐 나타나고 있습니다.

생성형 AI 활용 사례 살펴보기
예측 AI 활용 사례 살펴보기

머신 러닝 모델은 편향될 수 있습니다. 머신 러닝 모델은 과거 데이터의 패턴으로 학습하므로, 그 과정에서 편향과 차별까지 학습할 수 있습니다. 예를 들어 데이터가 사회에 이미 존재하는 인종, 성별 또는 사회 경제적 편향을 반영할 수 있습니다. 학습 데이터에서 편향이 삭제되지 않을 경우 모델은 그러한 편향을 보존하고 확장할 수 있습니다.

또한 대출 승인, 채용 또는 양형 결정 등 머신 러닝 모델이 내리는 결정이 소외 계층에 불리하게 작용할 수 있습니다. 따라서 여러 집단에게 공정한 결과를 보장하기 위해 공정성 프레임워크가 존재합니다.

ML 모델은 작업 과정을 감출 수 있습니다. 일부 머신러닝 모델은 내부 프로세스를 이해할 수 없는데 이것을 블랙박스라고 합니다. 이러한 투명성의 결여 때문에 모델의 결정 방식을 사람이 이해하기가 어려워지며, 이는 신뢰도 저하로 이어질 수 있습니다.

이를 해결하기 위해 인공지능의 결과물을 사람이 더 잘 이해할 수 있도록 만드는 설명 가능한 AI(XAI) 기술을 적용할 수 있습니다. XAI를 구현하기 위해서는 초기 설계부터 모니터링에 이르기까지, 머신러닝 라이프사이클 전반에 걸쳐 더 높은 투명성을 확보하려는 노력이 필요합니다.

설명 가능한 AI 더 알아보기

Red Hat은 팀이 투명성과 제어 권한을 가지고 AI 애플리케이션과 머신 러닝(ML) 모델을 빌드하고 배포할 수 있는 공통 기반을 제공합니다.

Red Hat® OpenShift® AI는 조직의 자체 데이터로 AI 모델을 고유의 활용 사례에 맞게 학습시키고, 프롬프트 튜닝(prompt-tuning) 및 미세 조정(fine-tuning)을 거쳐 제공할 수 있는 플랫폼입니다.

대규모로 AI를 배포하는 경우에는 주요 하드웨어 가속기에 대한 액세스 권한을 갖춘 Red Hat OpenShift가 AI 워크로드에 적합한 확장 가능한 애플리케이션 플랫폼을 제공합니다.

또한 Red Hat은 Red Hat® Ansible® Lightspeed with IBM watsonx Code Assistant, Red Hat OpenShift Lightspeed 등 IT 전문가의 업무 효율성 제고를 돕기 위한 지침을 제공하는 새로운 서비스의 구축에 머신 러닝 기술을 적용했습니다.

또한 Red Hat의 파트너 통합 제품은 오픈소스 플랫폼과 연동되도록 구축한 신뢰할 수 있는 AI 툴의 에코시스템을 활용할 수 있는 기회를 제시합니다.

추가 자료

llm-d란?

llm-d는 규모에 맞는 분산형 LLM 추론을 가속화하는 쿠버네티스 네이티브 오픈소스 프레임워크입니다.

딥러닝이란? 딥러닝 뜻, 딥러닝 모델, 딥러닝사례, 딥러닝 기술

딥러닝이란 무엇일까요? 딥러닝 뜻부터 핵심 개념, 주요 딥러닝 모델, 실제 활용 사례까지 한 번에 이해할 수 있도록 정리한 딥러닝 기술 가이드입니다.

검색 증강 생성(RAG)이란?

검색 증강 생성(RAG)은 외부 리소스를 LLM에 연결하여 생성형 AI 모델의 출력 정확성을 향상합니다.

머신 러닝이란?

Red Hat 리소스

학습 및 평가 단계의 일반적인 문제

데이터 주권 전략 준비: Red Hat Sovereignty Readiness Assessment 툴 소개

모든 Red Hat 제품 체험판

추가 자료

llm-d란?

딥러닝이란? 딥러닝 뜻, 딥러닝 모델, 딥러닝사례, 딥러닝 기술

검색 증강 생성(RAG)이란?

AI/ML 리소스

플랫폼

툴

체험, 구매 & 영업

커뮤니케이션

Red Hat 소개

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links