AI 시스템의 보안 및 안전

2024년 6월 13일3분 읽기AI/ML, 오픈소스, 보안

Senior Principal Product Security Engineer - AI security, safety and trustworthiness

인공지능(AI)의 힘으로 개선되지 않은 현대적인 컴퓨터 시스템은 상상하기 어렵습니다. 예를 들어, 스마트폰 카메라로 사진을 찍을 때 평균적으로 20개 이상의 딥러닝(DL) 모델이 작동하여 물체 감지에서 깊이 인식에 이르기까지 모두 협력하여 완벽한 사진을 찍을 수 있도록 지원합니다.

비즈니스 프로세스, 생산성 애플리케이션, 사용자 경험은 모두 일종의 AI를 사용하여 개선할 수 있으며, 동일한 규모, 속도, 도달 범위로 성장한 기술은 거의 없습니다. 그러나 다른 기술과 마찬가지로 AI에도 자체 위험이 따르며, 이 경우 보안 및 안전은 물론 법적 의무까지 수반될 수 있습니다. 이 문서에서는 이러한 안전 및 보안 문제, 특히 생성형 AI(gen AI)와 관련된 몇 가지 우려 사항을 간략하게 살펴보고 더 안전하고 신뢰할 수 있는 AI 시스템을 개발하는 방법을 살펴보겠습니다.

보안과 안전의 차이점

다른 컴퓨터 시스템(하드웨어 또는 소프트웨어)과 마찬가지로 AI 시스템은 제일브레이킹(jailbreaking), 프롬프트 인젝션(prompt injection), 적대적 학습(adversarial training) 등 악의적인 목적으로 사용될 수 있습니다. 그러나 AI 시스템은 출력 데이터의 안전성이라는 개념이라는 새로운 패러다임을 업계에 도입하고 있습니다. 이는 주로 다음과 같은 이유로 발생합니다.

AI 출력은 종종 모델의 이전 교육을 기반으로 생성되며, 출력의 품질은 교육에 사용된 데이터의 품질에 따라 달라집니다. 잘 알려진 모델은 사용 가능한 데이터를 최대한 많이 사용하는 데 자부심을 갖고 있으며, 이는 종종 모델을 훈련하는 데 사용되는 토큰 수로 측정됩니다. 이론은 더 많은 토큰을 사용할수록 모델의 훈련이 더 효과적이라는 것입니다.
모델의 출력은 비즈니스, 사용자 및 기술 관련 의사 결정을 내리는 데 도움이 될 수 있습니다. 이로 인해 재정적 손실의 위험이 있을 뿐만 아니라 안전 및 법적 문제가 발생할 수 있습니다. 예를 들어, 인터넷에는 안전하지 않은 코드가 부족하지 않으므로 이를 기반으로 훈련된 모든 모델은 결과적으로 안전하지 않은 코드를 생성할 위험이 있습니다. 이렇게 생성된 코드가 소프트웨어 프로젝트에 직접 사용되는 경우 완전히 새로운 종류의 공급망 공격이 될 수 있습니다.

AI 보안과 안전의 일부 측면은 서로 얽혀 있지만, 대부분의 안전 프레임워크는 이를 개별적으로 처리하는 경향이 있습니다. 컴퓨터에 대한 안전 표준은 대부분의 기업에서 비교적 새로운 패러다임이며, Red Hat은 여전히 이를 중심으로 작업을 진행하고 있습니다.

AI 모델 사용 시 안전(safety) 고려 사항

간단히 말해, gen AI 모델은 문장의 다음 단어를 예측하여 작동합니다. 이러한 모델은 훨씬 더 발전된 형태로 발전했지만 여전히 기본적으로 이 원칙을 기반으로 작동합니다. 이는 AI 안전에 관해 이야기할 때 고려해야 할 몇 가지 흥미로운 사항이 있음을 의미합니다.

가비지 인, 가비지 아웃(Garbage in, garbage out)

가비지 인, 가비지 아웃은 AI 모델에 여전히 적용할 수 있는 매우 기본적인 컴퓨팅 원칙이지만 방식은 약간 다릅니다. 생성형 AI 모델은 훈련 단계에서 특정 데이터 세트에서 "학습"합니다. 일반적으로 이 교육 단계는 두 부분으로 나뉩니다. 첫 번째 부분은 사전 교육 단계로, 주로 인터넷에서 얻은 대량의 데이터를 사용합니다. 두 번째 부분은 미세 조정 단계로, 모델의 목적에 맞는 데이터를 사용하여 더 집중된 작업 또는 일련의 작업에서 모델을 개선합니다. 일부 모델은 모델의 아키텍처 및 목적에 따라 2단계 이상을 거치는 경우도 있습니다.

민감하고 안전하지 않으며 불쾌한 콘텐츠를 필터링하지 않고 인터넷에서 대량으로 얻은 데이터를 기반으로 모델을 훈련하면 예기치 않은 부정적인 결과가 발생할 수 있습니다.

모델 환각성(hallucination)

저는 종종 AI 모델을 어린아이에 비유합니다. 아이들이 질문에 대한 답을 모를 때, 완전히 거짓이지만 설득력 있는 이야기를 만들어내는 경우가 많습니다. 모델은 여러 면에서 유사하지만, 특히 모델이 재무, 사회 또는 보안에 영향을 미칠 수 있는 답변을 생성하는 경우 그 결과가 더 위험하거나 피해를 줄 수 있습니다.

안전 테스트 및 벤치마킹

AI 산업은 아직 초기 단계에 있지만, 다음과 같이 흥미롭고 주목할 가치가 있는 벤치마킹 표준에 대한 몇 가지 제안이 있었습니다.

MLCommons AI 안전 작업 그룹은 MLCommons AI 안전 v0.5 벤치마크 개념 증명 (POC)을 발표했습니다. POC는 여러 위험 범주 전반에서 프롬프트에 대한 모델의 응답을 평가하여 대규모 언어 모델(LLM)의 안전성을 측정하는 데 중점을 둡니다.
미국 상무부 산하의 국립표준기술연구소(NIST)는 인공지능 위험 관리 프레임워크(AI RMF 1.0)를 게시했습니다.AI RMF는 위험을 정량화 및 감지하고 위험의 징후, 영향, 관리를 이해하는 방법을 설명합니다.
Trusty AI는 AI 편향과 관련된 문제를 완화하기 위해 Red Hat에서 시작한 오픈소스 프로젝트입니다.

가드레일 구축

Guardrail 애플리케이션 및 모델은 다양한 방법을 사용하여 모델의 출력이 설정된 안전 및 보안 요구 사항을 준수하는지 확인합니다. 이러한 가드레일을 설정하는 데 도움이 될 수 있는 다양한 오픈소스 툴과 프로젝트가 있습니다. 그러나 가드레일은 소프트웨어의 또 다른 부분에 불과하며 위험과 제한이 따릅니다. 모델을 프로덕션에 적용하기 전에 모델의 유해성을 측정하고 벤치마킹하는 메커니즘을 구축하는 것은 모델 작성자에게 달려 있습니다.

오픈소스가 차별화된 이유

업계에서는 AI를 위한 오픈소스 모델을 구성하는 요소와 그 모델이 무엇인지에 대해 여전히 논의하고 있는 중이지만, IBM과 Red Hat은 Red Hat이 제공하는 AI 모델에 대한 오픈 표준과 오픈 데이터를 구현하여 이 분야를 주도하고 있습니다. 여기에는 다음이 포함됩니다:

Red Hat Enterprise Linux(RHEL) AI와 함께 제공되는 IBM의 granite 기반 모델은 오픈 데이터를 기반으로 사전 훈련됩니다. 즉, 모든 데이터 소스가 게시되어 검사에 사용할 수 있습니다. 사전 교육 데이터에도 여러 데이터 스크럽 기술이 사용되어 잠재적으로 민감하고 안전하지 않으며 불쾌한 콘텐츠를 모델에 제공하기 전에 필터링하는 데 도움이 됩니다.
Red Hat의 InstructLab 프로젝트는 모델 교육의 미세 조정 단계를 간소화하는 데 도움이 됩니다. 무엇보다도 이렇게 하면 모델 출력의 잠재적인 보안 및 윤리 문제를 줄이는 데 도움이 됩니다. 최근 연구의 상당 부분이 이 이론을 뒷받침합니다. 자세한 내용은 Google 블로그의 차등 프라이빗 합성 훈련 데이터로 사용자 보호에서 확인할 수 있습니다.

Red Hat은 AI Alliance의 창립 멤버이기도 합니다. AI 기술, 애플리케이션, 거버넌스를 선도하는 기업, 스타트업, 대학, 연구 기관, 정부 기관, 비영리 재단으로 구성된 협업 네트워크입니다. 이러한 제휴의 일환으로 Red Hat은 고객뿐만 아니라 오픈소스 커뮤니티 전체를 위해 진정으로 개방되고 안전하며 보안이 강화된 AI 환경을 조성하기 위해 노력하고 있습니다.

요약

인공 지능은 개발 초기 단계에 있으며, 이후 단계에서 추가하려고 하기보다는 지금 보안과 안전에 대해 생각하는 것이 중요합니다. Red Hat은 오픈소스와 오픈 시스템이 매우 중요한 차이를 만들 수 있는 AI 개발 영역 중 하나라고 생각합니다.

RHEL AI에 대해 자세히 알아보기

저자 소개

Huzaifa Sidhpurwala

Senior Principal Product Security Engineer - AI security, safety and trustworthiness

Huzaifa Sidhpurwala is a Senior Principal Product Security Engineer - AI security, safety and trustworthiness, working for Red Hat Product Security Team.

유사한 검색 결과

Blog post

자세히 알아보기

채널별 검색

모든 채널 탐색