✅

260108_1743_GPT-OSS-120B NVIDIA GPU 추론 최적화

참고자료

How we run GPT OSS 120B at 500+ tokens per second on NVIDIA GPUs

How we optimized GPT OSS 120B for state-of-the-art latency and throughput on launch day.

https://www.baseten.co/blog/sota-performance-for-gpt-oss-120b-on-nvidia-gpus/

OpenAI가 최신 오픈소스 대형 언어 모델 GPT-OSS-120B를 공개함과 동시에, Baseten은 NVIDIA GPU 환경에서 해당 모델의 최고 수준 추론 성능(SOTA) 구현에 도전했다.

Baseten은 OpenAI의 공식 런치 파트너로서, 모델 공개 직후부터 실제 사용자 환경에서 안정적이고 빠른 추론 성능을 제공하는 것을 목표로 최적화를 진행했다.

그 결과, 초당 500토큰 이상의 처리 성능과 전체 컨텍스트 윈도우 지원, 그리고 100% 가동 시간을 동시에 달성했다.

개요: 왜 GPT-OSS-120B 최적화인가

GPT-OSS-120B는 OpenAI가 공개한 최신 오픈소스 LLM으로, 성능과 확장성을 동시에 고려한 아키텍처를 갖는다.

Baseten은 다음과 같은 강점을 바탕으로 최적화 작업을 빠르게 진행할 수 있었다.

•

OpenAI 공식 런치 파트너로서의 초기 접근성

•

OpenRouter를 통해 확보한 실 사용자 트래픽 기반 성능 데이터

•

Flexible Inference Stack과 숙련된 모델 엔지니어 팀

•

시간 단위로 패치를 적용·검증할 수 있는 빠른 반복 구조

실제로 블로그를 작성하는 몇 시간 동안에도 초당 약 100토큰의 추가 성능 향상이 이뤄졌으며, 서비스 중단 없이 개선이 지속되었다.

성능 최적화 전략 개요

Baseten은 단일 프레임워크에 의존하지 않고, 다음과 같은 다양한 추론 스택을 병렬로 테스트했다.

•

TensorRT-LLM

•

vLLM

•

SGLang

또한, NVIDIA의 최신 GPU 아키텍처인

•

Hopper (H100)

•

Blackwell (B200)

환경을 모두 지원하는 것을 목표로 삼았다.

이 과정에서 다음과 같은 검증된 최적화 기법을 단계적으로 적용했다.

•

KV cache-aware routing

•

Eagle 기반 speculative decoding

•

텐서 병렬화(Tensor Parallelism)

•

Blackwell 전용 TensorRT-LLM MoE Backend

Step 1: 최초 추론(Baseline Inference) 빠르게 세우기

모든 최적화의 출발점은 “어떤 방식으로든 빠르게 최초 추론을 실행하는 것”이다.

Baseten의 엔지니어들은 GPU 팀의 개발 방식에서 영감을 받아,

여러 명이 동시에 서로 다른 프레임워크를 실험했다.

•

vLLM

•

SGLang

•

TensorRT-LLM

그 결과, TensorRT-LLM이 가장 우수한 성능과 안정성을 보였고, 이를 기준 스택으로 채택했다.

또한,

•

H100 기반 Hopper 환경

•

B200 기반 Blackwell 환경

모두에서 TensorRT-LLM을 성공적으로 구동하며, 아키텍처 전환에 따른 제약을 최소화했다.

Baseten Inference Runtime의 유연성 덕분에 새로운 모델과 툴 교체가 빠르게 이뤄질 수 있었다.

Step 2: 호환성 버그 수정과 오픈소스 기여

새로운 모델 아키텍처가 등장하면, 기존 추론 프레임워크와의 호환성 문제는 필연적으로 발생한다.

GPT-OSS-120B에는

•

Harmony 응답 포맷과 같은 신규 기능이 포함되어 있었고,

이로 인해 기존 프레임워크와 통합 과정에서 여러 버그가 발견되었다.

Baseten은 속도뿐 아니라 정확성까지 보장하기 위해,

•

반복적인 수정

•

성능·정확성 검증

•

효과적인 수정 사항의 오픈소스 기여

를 병행했다.

이러한 글로벌 오픈소스 커뮤니티와의 협업 덕분에, 버그 수정과 최적화 경로가 빠르게 축적되고 있다.

Step 3: 모델 병렬화 전략 최적화

OpenAI는 GPT-OSS-120B가 단일 H100에서도 동작 가능하다고 명시했지만,

실제 운영 환경에서는 4~8 GPU 병렬화가 성능 면에서 훨씬 유리했다.

Baseten은 두 가지 병렬화 전략을 비교했다.

Tensor Parallelism

•

장점: 낮은 지연 시간(latency)

•

단점: 처리량 증가에는 한계

Expert Parallelism (MoE)

•

장점: 높은 처리량(throughput)

•

단점: 지연 시간 증가

Baseten의 목표는 저지연 추론이었기 때문에

Tensor Parallelism을 최종적으로 선택했다.

특히 Blackwell 환경에서는

•

기존 Triton 백엔드 대신

•

TensorRT-LLM MoE Backend를 적용해

CUDA 커널 성능을 크게 향상시켰다.

현재 Model API의 기본 설정은 Blackwell 기반 최적 세팅을 사용하고 있다.

추가 성능 최적화: Speculative Decoding

1차 최적화만으로도 SOTA 수준의 성능을 달성했지만,

Baseten은 여기서 멈추지 않는다.

다음 주요 성능 향상 포인트는 Speculative Decoding이다.

Speculative Decoding이란?

•

작은 draft 모델이 먼저 여러 토큰을 예측

•

메인 모델이 이를 빠르게 검증

•

한 번에 여러 토큰을 처리해 속도 향상

Baseten은 기본적으로 Eagle 3를 권장하지만,

•

추론 스택 내 10개 이상의 알고리즘을

•

워크로드에 따라 유연하게 선택·조합한다.

이를 통해 지연 시간과 처리량을 동시에 개선할 계획이다.

마무리

GPT-OSS-120B 최적화는 단순한 프레임워크 선택 문제가 아니라,

•

하드웨어 아키텍처 이해

•

병렬화 전략 선택

•

커널 수준 최적화

•

오픈소스 협업

•

실 사용자 데이터 기반 검증

이 모두가 결합된 엔지니어링 문제였다.

Baseten은 Flexible Inference Stack과 빠른 반복 개발 문화를 통해,

GPT-OSS-120B를 NVIDIA GPU 환경에서 가장 빠르고 안정적으로 제공하는 구현체 중 하나로 끌어올렸다.

향후 speculative decoding을 포함한 추가 최적화로,

더 높은 성능과 효율을 지속적으로 달성할 예정이다.

안녕하세요

•

관련 기술 문의와 R&D 공동 연구 사업 관련 문의는 “glory@keti.re.kr”로 연락 부탁드립니다.

Hello

•

For technical and business inquiries, please contact me at “glory@keti.re.kr”

GloryKim - Overview

Kubeflow, Tensorflow, Front-End, IoTivity, Go, Microservice Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Mon Wed Fri Created 14 commits in 4 repositories Opened their first pull request on GitHub in a private repository First pull request Opened 1 other pull request in 1 repository Reviewed 1 pull request in 1 repository GloryKim/Go 1 pull request Opened their first issue on GitHub in a private repository First issue 246 contributions in private repositories Jan 1 - Jan 26 You can't perform that action at this time.

https://github.com/GloryKim

scholar.google.com

https://scholar.google.com/citations?user=UA378XgAAAAJ&hl=ko