LLM 지형 — 폐쇄형·오픈·한국어 특화·평가·가격

LLM 시장의 지형은 빠르게 바뀝니다. 폐쇄형 API 와 오픈 가중치, 영어 중심과 다국어, 클라우드와 자체호스팅, 한국어에 특화된 모델이 함께 자리 잡고 있습니다.

1. 폐쇄형 (API · 가중치 비공개)

제공자	대표 모델군	첫 공개
OpenAI	GPT-3.5 · GPT-4 · GPT-4o · o1 · o3	ChatGPT 2022-11-30.
Anthropic	Claude · Claude 2 · 3 · 3.5 · 4 시리즈	Claude 2023-03.
Google DeepMind	Gemini 1.0 · 1.5 · 2.0 · 2.5	Gemini 2023-12-06.
Mistral AI	Mistral Large · Pixtral	2023~.
Cohere	Command R · R+	2021~.
xAI	Grok 시리즈	2023-11.

같은 제공자 안에서도 세대·날짜로 모델 능력이 빠르게 바뀝니다.

2. 오픈 가중치

가중치를 내려받아 직접 추론할 수 있는 모델군. 라이선스 조건은 모델마다 다릅니다.

모델군	출자	메모
Llama 2 / 3 / 3.1 / 3.2 / 3.3	Meta	자체 라이선스 (조건부 상업).
Mistral · Mixtral · Codestral	Mistral AI	Apache 2.0 변형과 비상업 변형 혼재.
Gemma · Gemma 2 / 3	Google	Gemma 라이선스.
Qwen / Qwen2 / Qwen2.5 / Qwen3	Alibaba	Apache 2.0 변형 다수.
DeepSeek (V2 · V3 · R1)	DeepSeek	라이선스 조건 모델별 상이.
Phi 시리즈	Microsoft	작은 크기로 알려짐.
Yi 시리즈	01.AI	2023~.
Falcon	TII (UAE)	2023~.
OLMo	Allen AI	학습 데이터까지 공개 표방.
StableLM · StableCode	Stability AI	2023~.

"오픈" 의 정도는 모델마다 다릅니다. 가중치만 공개, 학습 코드 공개, 학습 데이터까지 공개의 차이가 있습니다. 그래서 "오픈소스" 보다 "오픈 가중치 (open weights)" 가 더 정확하다는 견해가 있습니다.

3. 한국어 특화 · 한국 기업 모델

모델	출자	메모
HyperCLOVA X	네이버	2023 공개. 자체 학습 한국어 LLM.
A.X (에이닷 X)	SK텔레콤	자체 한국어 모델군.
Solar	Upstage	오픈 가중치 변형 공개.
EXAONE	LG AI Research	일부 오픈 가중치 공개.
KoAlpaca · Polyglot-Ko	커뮤니티	한국어 파인튜닝 시도.

한국어 능력은 모델별 평가가 더 큰 의미를 가집니다. 같은 글로벌 모델이라도 세대에 따라 한국어가 크게 달라진다는 관찰.

4. 추론 모델 · 멀티모달 · 컨텍스트 길이

추론 모델 (reasoning model) — 2024 년 후반부터 OpenAI o1 · o3, DeepSeek R1, Claude 의 extended thinking, Gemini 2.5 의 thinking 모드 같은 흐름. 모델이 응답 전에 더 긴 내부 추론을 거치고, 그 분량만큼 토큰·시간을 더 씁니다.

멀티모달 — 이미지·오디오·비디오·문서를 함께 입력으로 받는 모델이 표준. GPT-4o · Gemini · Claude 3.x.

컨텍스트 길이 확장:

모델	컨텍스트
GPT-4 (초기)	8k · 32k
GPT-4-Turbo / GPT-4o	128k
Claude 3 / 3.5	200k
Gemini 1.5 Pro	1M (출시 시점 기준)

큰 컨텍스트가 항상 정답은 아닙니다. "lost in the middle" 같은 위치 효과와 비용·지연을 함께.

5. 평가 사이트

사이트	운영	특징
LMArena	LMSYS · UC Berkeley	사람의 두 모델 블라인드 비교 → Elo.
LiveBench	Abacus.AI	정기 갱신 평가 셋 (데이터 누출 완화).
MMLU	Hendrycks et al. 2020	다과목 객관식.
BigBench / BBH	Google Research	다양한 어려운 과제 모음.
HumanEval / MBPP	OpenAI · Google	코딩 평가 표준.
SWE-bench	Princeton	실제 GitHub 이슈 해결률.
GAIA	Hugging Face · Meta	일반 보조 작업.
Open LLM Leaderboard	Hugging Face	오픈 가중치 모델 종합.

평가의 한계:

학습 데이터 누출 의심 (벤치마크가 학습 데이터에 들어간 사례).
영어 중심 평가가 다수.
단일 점수가 자기 도메인 성능과 직결되지 않음.

6. 가격 모델

토큰 단위 과금 (API) — 대부분의 폐쇄형 모델은 입력·출력 토큰에 별도 단가. 출력 토큰이 보통 더 비쌈. 컨텍스트 캐싱 · prompt caching 도입 후 캐시된 입력에 할인이 붙는 모양.

요청당 비용 ≈ (입력 토큰 × 입력 단가) + (출력 토큰 × 출력 단가)

구독 모델 (사용자용) — ChatGPT Plus / Team / Enterprise · Claude Pro / Team · Gemini Advanced · Perplexity Pro. UI · 한도 · 추가 기능 묶음.

자체호스팅 — 오픈 가중치 + 자기 GPU 또는 클라우드 GPU. 단가가 사라지는 대신 GPU 시간 · MLOps 인력 · 모델 업데이트 · 평가 · 운영 부담이 생깁니다. 소량의 가벼운 작업이면 API 가, 큰 트래픽 · 강한 데이터 통제 요구는 자체호스팅. 임계점은 워크로드별.

데이터 사용 정책 — 같은 제공자라도 무료 티어 · API 유료 · 엔터프라이즈에서 정책이 다릅니다. 약관과 모델 카드에서 매번 확인.

7. 선택 가닥

빠르고 싸게 많이 — GPT-4o-mini / Claude Haiku / Gemini Flash / 작은 오픈 모델.
품질 우선 — GPT-4 / Claude Sonnet · Opus / Gemini Pro / 큰 오픈 모델.
추론 강화 — o1 · o3 / Claude extended thinking / Gemini Thinking / DeepSeek R1.
온디바이스 · 프라이버시 — Llama · Gemma · Phi · Qwen 작은 변형 + LM Studio · Ollama.
한국어 비중 큼 — 한국어 특화 모델 · 다국어 강한 글로벌 모델 자기 도메인 평가.

8. 자주 걸리는 자리

모델 alias 의 변동 — gpt-4 · gemini-1.5-pro-latest 같은 alias 는 시점에 따라 가리키는 모델이 바뀝니다. 운영은 날짜 핀 고정.

벤치마크 맹신 — 1 위가 자기 도메인 1 위가 아닙니다.

라이선스 다름 — 오픈 가중치라고 모두 상업 사용 가능한 것은 아닙니다. 모델 카드 확인.

데이터 학습 사용 — 무료 / 유료 / 엔터프라이즈에서 정책이 다를 수 있습니다. 입력에 민감 정보 가지 않도록.

세대 변경 회귀 — 새 모델이 옛 모델을 모든 면에서 이기지는 않습니다. 자기 작업에서 회귀가 보이기도.

컨텍스트 길이 광고와 실제 — 광고된 한도와 모델별 입력·출력 한도가 다른 경우.

추론 모델의 토큰 — thinking 토큰이 응답에 포함되거나 별도 과금되는 모양이 제공자마다 다름.

"AGI" · "초인적" 표현 — 마케팅 표현은 평가 결과를 해석할 때 걸러서.

하고픈 말

LLM 지형은 빠르게 바뀌어 단일 모델에 의존한 운영은 회귀 위험이 따라옵니다. 모델 핀 고정 + 자기 도메인 평가셋 + 환경 변수 한 줄로 모델 교체 가능한 모양 + 비용 모니터링 — 이 네 자리가 안정적인 운영의 표준입니다.

(ai 끝)

LMArena · LiveBench · Open LLM Leaderboard · OpenAI Models · Anthropic Models · Gemini Models · Meta Llama · Mistral · DeepSeek 를 참고합니다.

LLM 지형 — 폐쇄형·오픈·한국어 특화·평가·가격

1. 폐쇄형 (API · 가중치 비공개)

제공자	대표 모델군	첫 공개
OpenAI	GPT-3.5 · GPT-4 · GPT-4o · o1 · o3	ChatGPT 2022-11-30.
Anthropic	Claude · Claude 2 · 3 · 3.5 · 4 시리즈	Claude 2023-03.
Google DeepMind	Gemini 1.0 · 1.5 · 2.0 · 2.5	Gemini 2023-12-06.
Mistral AI	Mistral Large · Pixtral	2023~.
Cohere	Command R · R+	2021~.
xAI	Grok 시리즈	2023-11.

같은 제공자 안에서도 세대·날짜로 모델 능력이 빠르게 바뀝니다.

2. 오픈 가중치

가중치를 내려받아 직접 추론할 수 있는 모델군. 라이선스 조건은 모델마다 다릅니다.

모델군	출자	메모
Llama 2 / 3 / 3.1 / 3.2 / 3.3	Meta	자체 라이선스 (조건부 상업).
Mistral · Mixtral · Codestral	Mistral AI	Apache 2.0 변형과 비상업 변형 혼재.
Gemma · Gemma 2 / 3	Google	Gemma 라이선스.
Qwen / Qwen2 / Qwen2.5 / Qwen3	Alibaba	Apache 2.0 변형 다수.
DeepSeek (V2 · V3 · R1)	DeepSeek	라이선스 조건 모델별 상이.
Phi 시리즈	Microsoft	작은 크기로 알려짐.
Yi 시리즈	01.AI	2023~.
Falcon	TII (UAE)	2023~.
OLMo	Allen AI	학습 데이터까지 공개 표방.
StableLM · StableCode	Stability AI	2023~.

3. 한국어 특화 · 한국 기업 모델

모델	출자	메모
HyperCLOVA X	네이버	2023 공개. 자체 학습 한국어 LLM.
A.X (에이닷 X)	SK텔레콤	자체 한국어 모델군.
Solar	Upstage	오픈 가중치 변형 공개.
EXAONE	LG AI Research	일부 오픈 가중치 공개.
KoAlpaca · Polyglot-Ko	커뮤니티	한국어 파인튜닝 시도.

한국어 능력은 모델별 평가가 더 큰 의미를 가집니다. 같은 글로벌 모델이라도 세대에 따라 한국어가 크게 달라진다는 관찰.

4. 추론 모델 · 멀티모달 · 컨텍스트 길이

멀티모달 — 이미지·오디오·비디오·문서를 함께 입력으로 받는 모델이 표준. GPT-4o · Gemini · Claude 3.x.

컨텍스트 길이 확장:

모델	컨텍스트
GPT-4 (초기)	8k · 32k
GPT-4-Turbo / GPT-4o	128k
Claude 3 / 3.5	200k
Gemini 1.5 Pro	1M (출시 시점 기준)

큰 컨텍스트가 항상 정답은 아닙니다. "lost in the middle" 같은 위치 효과와 비용·지연을 함께.

5. 평가 사이트

사이트	운영	특징
LMArena	LMSYS · UC Berkeley	사람의 두 모델 블라인드 비교 → Elo.
LiveBench	Abacus.AI	정기 갱신 평가 셋 (데이터 누출 완화).
MMLU	Hendrycks et al. 2020	다과목 객관식.
BigBench / BBH	Google Research	다양한 어려운 과제 모음.
HumanEval / MBPP	OpenAI · Google	코딩 평가 표준.
SWE-bench	Princeton	실제 GitHub 이슈 해결률.
GAIA	Hugging Face · Meta	일반 보조 작업.
Open LLM Leaderboard	Hugging Face	오픈 가중치 모델 종합.

평가의 한계:

학습 데이터 누출 의심 (벤치마크가 학습 데이터에 들어간 사례).
영어 중심 평가가 다수.
단일 점수가 자기 도메인 성능과 직결되지 않음.

6. 가격 모델

요청당 비용 ≈ (입력 토큰 × 입력 단가) + (출력 토큰 × 출력 단가)

구독 모델 (사용자용) — ChatGPT Plus / Team / Enterprise · Claude Pro / Team · Gemini Advanced · Perplexity Pro. UI · 한도 · 추가 기능 묶음.

데이터 사용 정책 — 같은 제공자라도 무료 티어 · API 유료 · 엔터프라이즈에서 정책이 다릅니다. 약관과 모델 카드에서 매번 확인.

7. 선택 가닥

빠르고 싸게 많이 — GPT-4o-mini / Claude Haiku / Gemini Flash / 작은 오픈 모델.
품질 우선 — GPT-4 / Claude Sonnet · Opus / Gemini Pro / 큰 오픈 모델.
추론 강화 — o1 · o3 / Claude extended thinking / Gemini Thinking / DeepSeek R1.
온디바이스 · 프라이버시 — Llama · Gemma · Phi · Qwen 작은 변형 + LM Studio · Ollama.
한국어 비중 큼 — 한국어 특화 모델 · 다국어 강한 글로벌 모델 자기 도메인 평가.

8. 자주 걸리는 자리

모델 alias 의 변동 — gpt-4 · gemini-1.5-pro-latest 같은 alias 는 시점에 따라 가리키는 모델이 바뀝니다. 운영은 날짜 핀 고정.

벤치마크 맹신 — 1 위가 자기 도메인 1 위가 아닙니다.

라이선스 다름 — 오픈 가중치라고 모두 상업 사용 가능한 것은 아닙니다. 모델 카드 확인.

데이터 학습 사용 — 무료 / 유료 / 엔터프라이즈에서 정책이 다를 수 있습니다. 입력에 민감 정보 가지 않도록.

세대 변경 회귀 — 새 모델이 옛 모델을 모든 면에서 이기지는 않습니다. 자기 작업에서 회귀가 보이기도.

컨텍스트 길이 광고와 실제 — 광고된 한도와 모델별 입력·출력 한도가 다른 경우.

추론 모델의 토큰 — thinking 토큰이 응답에 포함되거나 별도 과금되는 모양이 제공자마다 다름.

"AGI" · "초인적" 표현 — 마케팅 표현은 평가 결과를 해석할 때 걸러서.

하고픈 말

(ai 끝)

LMArena · LiveBench · Open LLM Leaderboard · OpenAI Models · Anthropic Models · Gemini Models · Meta Llama · Mistral · DeepSeek 를 참고합니다.

LLM 지형 — 폐쇄형·오픈·한국어 특화·평가·가격

LLM 지형 — 폐쇄형·오픈·한국어 특화·평가·가격

1. 폐쇄형 (API · 가중치 비공개)

2. 오픈 가중치

3. 한국어 특화 · 한국 기업 모델

4. 추론 모델 · 멀티모달 · 컨텍스트 길이

5. 평가 사이트

6. 가격 모델

7. 선택 가닥

8. 자주 걸리는 자리

하고픈 말

Next

ai 카테고리의 다른 글

LLM 지형 — 폐쇄형·오픈·한국어 특화·평가·가격

LLM 지형 — 폐쇄형·오픈·한국어 특화·평가·가격

1. 폐쇄형 (API · 가중치 비공개)

2. 오픈 가중치

3. 한국어 특화 · 한국 기업 모델

4. 추론 모델 · 멀티모달 · 컨텍스트 길이

5. 평가 사이트

6. 가격 모델

7. 선택 가닥

8. 자주 걸리는 자리

하고픈 말

Next

ai 카테고리의 다른 글