성공 사례

Google Cloud와 Red Hat을 통한 하드웨어 유연성으로 AI 비용을 감축한 디지털 미디어 제공업체

산업:
미디어 및 기술

지역:
글로벌/여러 지역

본사:
미국 캘리포니아주 마운틴뷰

규모:
18만 명 이상

개요

2026 에코시스템 이노베이션 어워드 수상자 알아보기

Google Cloud는 사용자 정의 칩, 생성형 AI 모델, 개발 플랫폼, AI 기반 애플리케이션을 포함해 완전히 통합되고 최적화된 대규모 AI 플랫폼을 제공합니다. Google Cloud는 2026 Red Hat® 에코시스템 이노베이션 어워드에서 올해의 AI 비저너리 파트너로 선정되었습니다.

한 글로벌 디지털 미디어 기술 플랫폼은 신뢰 및 안전 워크로드의 효율성을 높이기 위해 Google Cloud와 Red Hat 전문 서비스를 선택했습니다. 이 팀은 그래픽 처리 장치(GPU)와 Google Cloud의 텐서 처리 장치(TPU) 간 전환이 가능한 유연한 솔루션을 구축했으며, TPU를 통해 더 빠른 성능을 달성했습니다. 또한 TPU를 사용하면 비용도 절감되어 안전 워크로드 실행 비용은 92%, 생성형 AI 워크로드 실행 비용은 62% 절감할 수 있습니다. 이러한 비용 및 효율성 측면의 장점은 고객이 응답 시간을 단축해 사용자 경험을 개선하는 동시에 사용자를 보호하고 신뢰를 유지하는 데 도움이 됩니다.

과제

신뢰 및 안전 시스템을 더 효율적이고 낮은 비용으로 운영

모든 사용자 상호작용을 실시간으로 평가해 피해를 방지하고 컴플라이언스를 보호하며 사용자 신뢰를 유지해야 하는 지금, 신뢰 및 안전 시스템은 디지털 플랫폼의 필수 요소입니다.

글로벌 디지털 미디어 및 기술 플랫폼 제공업체로서, 고객에게는 AI 기반 콘텐츠와 신뢰 및 안전 프로토콜을 지원하기 위해 확장 가능한 추론 솔루션이 필요했습니다. 거의 즉각적인 응답을 보장하기 위해 이 회사의 안전 시스템은 전 세계 사용자 쿼리를 50밀리초 미만의 엄격한 대기 시간 서비스 수준 목표(SLO)에 맞춰 스캔해야 했습니다. 전 세계적으로 더 빠르고 저렴하게 출시해야 한다는 압박 속에서 이 고객은 GPU 부족과 관련된 리스크를 완화하고 운영 비용을 절감하고자 했습니다. 또한 대규모 언어 모델(LLM)의 고성능을 유지하면서도 특정 하드웨어에 대한 의존도를 줄일 수 있는 솔루션이 필요했습니다.

솔루션

하드웨어 전반에서 AI 워크로드 최적화

고객은 Google Cloud 및 Red Hat과 협력하여 최신 Google Cloud TPU에서 가상 대형 언어 모델(vLLM) 추론 엔진을 사용하는 솔루션을 구축했습니다. 신경망 머신 러닝을 위해 Google이 특별히 설계한 TPU는 GPU보다 더 빠르고 효율적인 대안을 제공합니다. 동시에 vLLM은 고객의 엄격한 대기 시간 SLO를 충족하는 데 필요한 높은 처리량의 추론 서빙 엔진을 지원했습니다. 이 솔루션은 오픈소스 분산 컴퓨팅 프레임워크인 Ray와 함께 vLLM을 사용하며, Ray를 오케스트레이션 계층으로 활용해 확장 가능한 온라인 서빙과 배치 추론을 지원합니다.

고객은 Red Hat이 오픈소스 vLLM 프로젝트의 주요 기여자이며 이를 제품 포트폴리오에 통합했다는 점을 고려해 Red Hat과 협력하기로 했습니다. 도입 전략에는 기존 GPU 설정과 TPU 성능을 비교하는 벤치마킹이 포함되었습니다. 또한 저수준 시스템 코드를 최적화한 결과, 작은 입력에 대한 성능이 400% 향상되었습니다. 이 과정에서 Google Kubernetes Engine을 사용하면 GPU에서 TPU로의 전환도 간단하다는 점이 확인되었습니다. 구성 설정을 업데이트하고 vLLM TPU 이미지를 사용하기만 하면 되었습니다.

Google Cloud에서 사용하는 소프트웨어 및 서비스

Red Hat 전문 서비스

자세히 알아보기

비즈니스 성과

비용 절감과 동시에 AI 성능 향상

Google Cloud 및 Red Hat과의 프로젝트를 통해 고객은 이제 엄격한 대기 시간 SLO를 충족하면서 신뢰 및 안전 워크로드를 실행할 수 있게 되었습니다. Google Cloud 선임 제품 관리자 Brittany Rockwell은 말합니다. "성능이 빨라지면 사용자 경험도 개선됩니다. TPU를 신뢰 및 안전 워크로드에 사용하면 속도가 향상될 뿐만 아니라 비용도 크게 절감된다는 점을 고객에게 입증했습니다."

주로 수신 쿼리를 처리하는 안전 워크로드의 경우, 이 솔루션은 GPU 하드웨어 대비 TPU 사용 시 비용을 92% 절감하면서도 성능은 400% 향상합니다. 대기 시간에 민감한 생성형 AI 기능에서도 GPU 사용 대비 비용을 62% 줄일 수 있습니다. 또한 이 시스템은 대규모 데이터 입력을 빠르고 비용 효율적으로 처리합니다. 엔터티 매핑을 위한 배치 처리에서 초당 14,000개 토큰의 처리량을 실현하면서도 비용은 100만 토큰당 0.48달러에 불과했습니다. 이 고객은 향후 6개월 동안 기존 클러스터 내에 TPU를 프로비저닝할 계획이며, 일반적인 워크로드에 대한 성능 최적화도 계속 진행하고 있습니다.