새로운 OpenAI 모델 출시? GPT-OSS 살펴보자!

AI 이슈: 새로운 OpenAI 모델 GPT-OSS

OpenAI, 오픈 웨이트 언어 모델로 GPT-OSS-120B 및 GPT-OSS-20B 출시

주요 내용

OpenAI는 Apache 2.0 라이선스 하에 사용할 수 있는 두 가지 최신 오픈-웨이트 언어 모델인 GPT-OSS-120B와 GPT-OSS-20B를 출시했습니다.
이 모델들은 HealthBench, AIME, TauBench 등의 벤치마크에서 GPT-4o, o3-mini, o4-mini와 같은 독점 시스템과 일치하거나 더 나은 성능을 보입니다.
GPT-OSS-120B는 단일 80GB GPU에서 실행되며, 더 작은 GPT-OSS-20B는 16GB 메모리만 있는 엣지 디바이스에서 작동합니다.
이 모델은 도구 사용, CoT(Chain-of-Thought) 추론, 구조화된 출력, 지연 시간-성능 트레이드오프를 위한 조정 가능한 추론 노력을 지원합니다.
OpenAI는 대비 프레임워크에 따라 독립적인 전문가들의 검토와 미세 조정을 포함한 광범위한 안전성 평가를 수행했습니다.

OpenAI, 개방형 AI 개발을 발전시키기 위해 GPT-OSS 모델 출시

OpenAI에서 정말 중요한 일이 일어났습니다.

Apache 2.0 라이선스로 누구나 사용할 수 있는 두 가지 새로운 오픈 웨이트 언어 모델, GPT-OSS-120B와 GPT-OSS-20B를 내놨어요.

이 모델들은 추론 작업, 도구 사용, 비용 효율적인 배포에 특화되어 있습니다.

특히 소비자용 하드웨어에서도 잘 돌아가도록 만들어져서, 완전히 맞춤 설정할 수 있고 체계화된 출력도 지원해요.

GPT-OSS-120B는 추론 벤치마크에서 o4-mini와 거의 비슷한 성능을 보여주면서, 단일 80GB GPU에서 작동합니다.

GPT-OSS-20B는 o3-mini와 비슷한 결과를 내면서도 16GB 메모리만 있으면 돼서, 온디바이스나 로컬 추론에 딱 맞아요.

이 모델들은 복잡한 작업에서 다른 오픈 시스템들의 성능을 뛰어넘었습니다.

특히 GPT-OSS-120B는 도구 사용, 함수 호출, 생각의 사슬(CoT) 추론에서 뛰어난 모습을 보여줘요.

HealthBench 지표에서는 o1이나 GPT-4o 같은 독점 모델들까지 넘어섰습니다.

게다가 OpenAI의 응답 API와도 매끄럽게 연결되고, 뛰어난 명령 추종으로 에이전트 워크플로우를 지원해요.

지연 시간 요구사항에 따라 추론 강도도 조절할 수 있습니다.

모델 구조와 성능

OpenAI는 다양한 배포 환경에서 추론, 효율성, 실제 쓸만함에 중점을 두고 최첨단 사전 학습과 사후 학습 기술을 사용해서 GPT-OSS 모델을 학습시켰어요.

이전에도 Whisper나 CLIP 같은 모델을 오픈 소스로 공개한 적이 있지만, GPT-2 이후 처음으로 오픈 웨이트 언어 모델을 개발한 거예요.

각 모델은 효율성을 높이기 위해 토큰당 매개변수의 일부만 활성화하는 전문가 혼합(MoE) 설계가 적용된 트랜스포머 구조를 사용합니다.

모델	총 파라미터	활성 파라미터	레이어	전문가	활성 전문가	컨텍스트 길이
GPT-OSS-120B	117B	5.1B	36	128	4	128k
GPT-OSS-20B	21B	3.6B	24	32	4	128k

추론과 메모리 효율성을 더욱 높이기 위해 두 모델 모두 고밀도와 로컬 밴드형 희소 주의 패턴(GPT-3과 비슷해요)과 그룹 크기가 8인 그룹화된 다중 쿼리 주의 패턴을 번갈아 사용해요.

위치 인코딩에는 회전식 위치 임베딩(RoPE)을 사용합니다.

이 모델들은 최대 128,000개의 토큰 길이를 지원해요.

대부분 영어로 된 텍스트 전용 데이터셋으로 학습했고, STEM, 코딩, 일반 지식에 대한 강력한 표현이 들어있어요.

토큰화는 이번 출시와 함께 오픈 소스로 공개되는 새로운 o200k_harmony 토큰화 도구를 사용해서 진행했습니다.

자세한 내용은 모델 카드에서 확인하실 수 있어요.

사후 학습과 추론 제어

사후 학습은 감독된 미세 조정과 강화학습(RL) 단계를 포함해서 OpenAI의 o4-mini에 사용된 것과 같은 방법을 따랐어요.

모델들은 OpenAI 모델 사양에 맞게 조정되어서 연쇄 추론, 도구 사용, 명령 추종을 지원합니다.

OpenAI의 최첨단 독점 추론 모델에 사용되는 것과 같은 기술을 적용해서 GPT-OSS 모델들은 추론 작업 전반에서 강력한 학습 후 성능을 보여줍니다.

OpenAI의 독점적인 o 시리즈와 마찬가지로 이 모델들은 낮음, 중간, 높음 추론 모드를 제공해요.

그래서 개발자들이 시스템 메시지 매개변수를 조정해서 지연 시간이나 성능을 최적화할 수 있습니다.

테스트 결과

코딩, 경쟁 수학, 건강 관련 추론, 에이전트 도구 사용 능력을 평가하기 위해 표준 학술 벤치마크에서 GPT-OSS-120B와 GPT-OSS-20B를 테스트했어요.

이런 평가에서 이 모델들은 o3, o3-mini, o4-mini를 포함한 OpenAI의 독점적인 추론 모델들과 꾸준히 비슷하거나 더 나은 결과를 보여줬습니다.

Codeforces(경쟁 코딩):

GPT-OSS-120B는 o3-mini보다 더 높은 Elo 등급을 달성하고 o4-mini와 비슷한 성능을 발휘해서, 경쟁 프로그래밍 작업에서 강력한 결과를 보여줬어요.

Codeforces 경진 대회의 Elo 등급 비교를 나타내는 막대 그래프. 여러 모델의 성능이 도구 사용 여부에 따라 평가됨. — GPT-OSS 모델들은 도구 지원과 독립형 시나리오 모두에서 강력한 성능으로 Codeforces 코딩 과제에서 높은 Elo 점수를 얻었습니다.
*이미지 출처: OpenAI*

여러 분야의 전문가 수준의 문제:

다양한 전문가 수준의 학문적 영역에서 추론 능력을 테스트하는 이 벤치마크에서 GPT-OSS-120B와 GPT-OSS-20B는 특히 툴 지원 시나리오에서 경쟁력 있는 성능을 보였어요.

o4-mini 같은 독점 모델들이 이 분야를 이끌고 있지만, GPT-OSS 모델들은 여전히 고도로 전문화된 프롬프트에서 의미 있는 결과를 제공해서 광범위한 적용 가능성을 입증했습니다.

그래프: 인류의 마지막 시험, 전문가 수준 질문의 정확도(%)를 나타내는 막대 그래프. — GPT-OSS 모델들은 도구와 비도구 시나리오 모두에서 120B가 20B를 약간 앞서며 여러 주제에 걸쳐 전문가 수준의 질문에서 경쟁적으로 순위를 매겼어요.
*이미지 출처: OpenAI*

건강&의료에 대한 대화:

표준 평가와 하드 평가 모두에서 GPT-OSS-120B와 GPT-OSS-20B는 GPT-4o, o3, o3-mini보다 성능이 뛰어나서 건강 관련 추론 벤치마크에서 특히 강세를 보였어요.

HealthBench 성과를 비교하는 바 그래프. 왼쪽은 현실적인 건강 대화에 대한 점수, 오른쪽은 도전적인 건강 대화에 대한 점수. — GPT-OSS-120B는 표준과 하드 헬스 벤치 평가에서 모두 선두를 차지하며 실제 의료 추론에서 다른 개방형과 독점 모델들보다 뛰어난 성능을 보여줍니다.
*이미지 출처: OpenAI*

AIME 2024 및 2025(경쟁 수학):

두 모델 모두 높은 정확도를 달성했는데, AIME 2024에서 GPT-OSS-120B는 97.9%, GPT-OSS-20B는 98.7%의 점수를 기록했어요.

AIME 2025에서는 두 모델 모두 o3-mini보다 성능이 더 뛰어나며, GPT-OSS-20B는 더 작은 크기에도 불구하고 특정 작업에서 o3를 넘어섰습니다.

AIME 2024 도구 사용 관련 경쟁 수학 정확도를 보여주는 그래프, GPT-OSS-120B와 GPT-OSS-20B의 성능이 강조됨. — GPT-OSS 모델들은 AIME 2024와 2025 경쟁 수학 벤치마크에서 강력한 성능을 발휘하며, 20B 모델은 때때로 더 큰 독점 모델들을 넘어서기도 해요.
*이미지 출처: OpenAI*

AIME Competition math accuracy graph comparing GPT-OSS-120B and GPT-OSS-20B across various token lengths. — GPT-OSS 모델들은 CoT와 답 길이가 증가함에 따라 더 높은 수학 정확도를 달성하며, 모든 토큰 길이에 걸쳐 GPT-OSS-120B가 꾸준히 GPT-OSS-20B보다 우수한 성능을 보여줍니다.
*이미지 출처: OpenAI*

Tau-Bench(도구 사용과 함수 호출):

이 모델들은 소수 샷 함수 호출, 긴 답변 생성, 생각의 사슬(CoT) 추론에서 강력한 성능을 보여주며, 도구 증강 평가 전반에서 o4-mini와 o3의 정확도를 밀접하게 따라했어요.

Tau-Bench 소매 함수 호출의 정확도를 비교하는 그래프, gpt-oss-120b가 67.8%, gpt-oss-20b가 54.8%, o3가 70.4%, o4-mini가 65.6%로 표시됨. — Tau-Bench에서 GPT-OSS-120B는 함수 호출에서 경쟁력 있는 점수를 얻었으며, 소매 사용 사례에서는 o3의 바로 뒤, o4-mini보다 앞섰습니다.
*이미지 출처: OpenAI*

GPQA(박사급 과학 추론):

GPT-OSS-120B는 특히 깊은 도메인 지식을 테스트하는 고급 과학 추론 작업에서 o4-mini와 경쟁력이 있으며, o3-mini와 o3보다 앞선 성능을 발휘해요.

막대 그래프가 PhD 수준의 과학 질문에 대한 정확도(%)를 나타내며, GPT-OSS-120B, GPT-OSS-20B, O3, O4-mini, O3-mini의 성능을 비교하고 있음. — 도구가 없는 경우, GPT-OSS-120B는 박사급 과학 문제에서 독점적인 기준선에 가까운 성능을 보이며, o3와 o4-mini보다 약간 뒤처져요.
*이미지 출처: OpenAI*

그래프 표시: GPT-OSS-120B와 GPT-OSS-20B의 PhD 수준 과학 질문에 대한 정확도를 나타내는 GPQA Diamond 차트. — GPT-OSS 모델들은 토큰 한도가 증가함에 따라 GPQA에서 개선되며, GPT-OSS-120B는 가장 높은 과학 추론 정확도를 달성합니다.
*이미지 출처: OpenAI*

MMLU(다중 주제 학술 지식):

이 모델들은 MMLU 카테고리 전반에서 견고한 성능을 보였어요.

GPT-OSS-120B는 o4-mini에 가까운 점수를, GPT-OSS-20B는 o3-mini를 넘어서는 점수를 달성해서 일반적인 학문적 이해에 강점을 보였습니다.

MMLU 벤치마크 결과를 보여주는 막대 그래프, GPT-OSS-120B, GPT-OSS-20B, o3, o4-mini, o3-mini의 정확도 비율 표시 — GPT-OSS 모델들은 MMLU에서 견고한 성능을 보였으며, GPT-OSS-120B는 다양한 학문 과목에서 o3와 o4-mini 점수에 가까웠어요.
*이미지 출처: OpenAI*

안전 교육과 대적 테스트

특히 개방형 모델을 출시할 때 안전은 OpenAI의 접근 방식에서 여전히 기본이에요.

포괄적인 안전 교육과 평가와 더불어, 팀은 준비 프레임워크에 따라 GPT-OSS-120B를 대적으로 미세 조정한 버전을 테스트했습니다.

이 모델은 내부 벤치마크에서 OpenAI의 프론티어 시스템과 비슷한 성능을 보였으며, 최신 독점 모델과 같은 안전 표준을 충족했어요.

평가 방법론은 외부 전문가들의 검토를 거쳤으며, 연구 논문과 모델 카드를 통해 공유된 결과는 개방형 AI 시스템에 대한 새로운 안전 규범을 설정하는 데 중요한 진전을 이뤘습니다.

사전 훈련 과정에서 화학, 생물학, 방사능, 핵(CBRN) 위협과 관련된 콘텐츠를 포함해서 유해한 데이터를 필터링했어요.

사후 교육에서는 심의적 정렬과 지시 계층 기법을 사용해서 안전하지 않은 프롬프트에 대한 거부를 가르치고, 성급한 주입을 방어하며, 윤리적 경계를 유지하도록 했습니다.

최악의 오용 시나리오를 시뮬레이션하기 위해 OpenAI는 특수한 생물학적과 사이버 보안 데이터셋에서 잠재적인 공격자의 행동을 모방해서 GPT-OSS 모델의 적대적 버전을 미세 조정했어요.

이런 변종들은 대비 프레임워크에 따라 테스트되었으며, 세 개의 독립적인 전문가 그룹이 방법론을 검토했습니다.

이 모델들은 고위험 기능 임계값에 도달하지 않아서 공개를 지지해요.

테스트 방법과 권장 사항은 안전 백서와 모델 카드에서 확인할 수 있습니다.

커뮤니티 주도의 안전 연구를 장려하고 더 안전한 오픈소스 생태계에 기여하기 위해 OpenAI는 50만 달러의 상금이 걸린 레드팀 챌린지를 시작했어요.

연구자, 개발자, 애호가들을 초대해서 새로운 취약점을 찾을 수 있는 기회를 제공합니다.

챌린지가 끝나면 결과가 공개되고 오픈소스로 공개될 예정이에요.

자세한 내용을 알아보거나 참여하려면 OpenAI의 공식 웹사이트를 방문해 보세요.

배포와 사용 가능성

이 모델들은 이제 Hugging Face에서 무료로 다운로드할 수 있으며 효율적인 배포를 위해 MXFP4로 정량화되어 제공돼요.

GPT-OSS-120B는 80GB 내에서 실행됩니다.
GPT-OSS-20B는 16GB 이내에서 실행돼요.

통합을 도와주기 위해 OpenAI는 하모니 프롬프트 형식과 하모니 렌더러(Python과 Rust에서 사용 가능)를 모두 출시하며, PyTorch와 Apple Metal에 대한 추론 참조와 함께 더 쉽게 도입할 수 있는 샘플 도구 모음도 함께 제공해요.

출시에 앞서 배포 파트너로는 Azure, Hugging Face, Ollama, vLLM, AWS, Together AI, Databricks, Cloudflare 등이 있습니다.

하드웨어 측면에서 OpenAI는 다양한 배포 환경에서 모델 성능을 최적화하기 위해 NVIDIA, AMD, Cerebras, Groq 등 업계 리더들과 협력했어요.

또한 OpenAI는 AI Sweden, Orange, Snowflake를 비롯한 얼리어답터들과 협력해서 개방형 모델의 실제 적용 사례를 탐색했습니다.

이런 사용 사례는 데이터 보안을 위한 온프레미스 배포부터 특수 데이터셋에 대한 미세 조정에 이르기까지 다양해요.

API 호스팅 옵션과 함께 동급 최고의 개방형 모델을 제공함으로써 OpenAI는 개인 개발자부터 기업, 정부에 이르기까지 모든 사람이 자체 인프라에서 AI를 실행하고 맞춤화할 수 있는 유연성을 제공하는 것을 목표로 합니다.

또한 Microsoft는 파운드리 로컬과 VS 코드용 AI 툴킷에서 사용할 수 있는 ONNX 런타임을 통해 Windows 디바이스에서 GPU에 최적화된 GPT-OSS-20B 추론을 도와줘요.

멀티모달 지원, 빌트인 도구 또는 OpenAI 플랫폼과의 긴밀한 통합이 필요한 개발자에게는 API를 통해 접근하는 독점 모델이 여전히 가장 적합해요.

OpenAI는 개발자의 피드백에 귀를 기울이고 있으며 앞으로 GPT-OSS에 대한 API 지원을 검토할 수 있다고 밝혔습니다.

개발자들은 OpenAI의 오픈 모델 플레이그라운드에서 모델을 탐색하고 다양한 생태계 제공업체를 사용하거나 모델을 미세 조정하기 위한 자세한 가이드에 접근할 수 있어요.

오픈 모델이 중요한 이유

OpenAI는 기능, 안전성, 사용자 지정 기능의 균형을 갖춘 강력한 개방형 모델을 제공하는 데 있어 GPT-OSS-120B와 GPT-OSS-20B가 이정표가 될 것이라고 설명해요.

특히 인프라에 제약이 있는 개발자들에게 고성능의 자체 호스팅 옵션을 제공함으로써 호스팅 모델을 보완합니다.

이번 출시는 특히 신흥 시장, 연구소, 정부 애플리케이션을 위한 AI 대중화라는 광범위한 목표를 돕습니다.

유연한 배포와 미세 조정을 가능하게 함으로써 OpenAI는 여러 분야의 새로운 발전을 가속화하는 동시에 투명성과 조정 연구를 진전시키는 것을 목표로 해요.

Q&A

질문: GPT-OSS-120B와 GPT-OSS-20B란 무엇인가요?

답: 추론, 도구 사용, 효율적인 배포를 위해 최적화된 OpenAI의 두 가지 개방형 언어 모델이에요.

질문: GPT-4o나 o3-mini 같은 독점 모델과 비교하면 어떤 차이가 있나요?

답: 특히 도구 사용이 활성화된 상태에서 수학, 건강, 코딩 분야의 벤치마크에서 해당 모델들과 비슷하거나 더 나은 성능을 보여줍니다.

질문: 어떤 종류의 하드웨어가 필요하나요?

답: GPT-OSS-120B는 단일 80GB GPU에서 실행되며, GPT-OSS-20B는 16GB에서 실행되어서 로컬이나 온디바이스 추론에 적합해요.

질문: 출시 전에 어떤 안전 조치를 취했나요?

답: OpenAI는 적대적 미세 조정을 포함한 강력한 안전성 평가를 실행하고 외부 전문가가 결과를 검토했습니다.

질문: 개발자들은 모델과 지원 도구를 어디서 구할 수 있나요?

답: 모델은 오픈 소스 토큰라이저, 렌더러, 배포 참조와 함께 허깅 페이스에서 사용할 수 있어요.

시사점

GPT-OSS-120B와 GPT-OSS-20B를 출시함으로써 OpenAI는 오픈 웨이트 모델 기능과 책임 있는 배포를 위한 새로운 표준을 제시하고 있어요.

이 모델들은 독점 시스템에 필적하는 맞춤형 고성능 도구를 제공함으로써 전 세계 개발자들의 진입 장벽을 낮춥니다.

GPT-OSS의 출시로 OpenAI는 이제 다른 최첨단 시스템과 경쟁할 수 있는 수준의 폐쇄형과 개방형 모델을 모두 만들게 되었어요.

이런 이중 접근 방식은 개발자, 기업, 정부가 호스팅된 API를 선호하든 자체 관리형 인프라를 선호하든, AI에 접근하고 배포하고 미세 조정하는 방식에 있어 더 많은 선택권을 제공합니다.

AI 인프라가 더욱 분산되고 다양해짐에 따라 GPT-OSS 같은 접근 가능한 모델을 통해 클라우드 플랫폼을 넘어 새로운 발전이 번성할 수 있어요.

이번 출시는 안전, 성능, 투명성이 함께 성장할 수 있는 건강한 오픈 소스 생태계의 가치를 강화합니다.

독점적인 라인업과 함께 최상위 개방형 모델을 제공함으로써 OpenAI는 최첨단 AI로 무엇을 만들 수 있는지, 어디서 만들 수 있는지의 범위를 확대하고 있어요.

임패커스 블로그 | GPT-5 출시 및 ChatGPT 광고 도입 예고? 더 보러가기

출처: Alicia Shapiro, AiNews, “OpenAI Releases GPT-OSS-120B & GPT-OSS-20B as Open-Weight Language Models”, https://www.ainews.com/p/openai-releases-gpt-oss-120b-gpt-oss-20b-as-open-weight-language-models, (2025. 8. 5)

새로운 OpenAI 모델 출시? GPT-OSS 살펴보자!

OpenAI, 오픈 웨이트 언어 모델로 GPT-OSS-120B 및 GPT-OSS-20B 출시

OpenAI, 개방형 AI 개발을 발전시키기 위해 GPT-OSS 모델 출시

모델 구조와 성능

사후 학습과 추론 제어