Gemini — Google 의 멀티모달 LLM 라인업

Gemini 는 Google DeepMind 가 2023 년 말에 공개한 모델 시리즈입니다. 텍스트뿐 아니라 이미지·오디오·비디오·코드를 함께 다루는 멀티모달 입력, 1.5 부터 들어온 매우 긴 컨텍스트가 특징으로 거론됩니다.

1. Gemini 에 대한 이야기

Google DeepMind 가 2023 년 12 월 6 일에 Gemini 1.0 을 공개했습니다. 그 전까지 Bard 라는 이름으로 제공되던 챗봇이 Gemini 로 통합됐고, Pixel 8 Pro 같은 디바이스에 Nano 변형이 탑재되며 데스크탑·모바일·서버 전반으로 라인업이 펼쳐졌습니다.

시점	모델	메모
2023-12	Gemini 1.0 (Ultra · Pro · Nano)	첫 공개.
2024-02	Gemini 1.5 Pro	1M 토큰 컨텍스트.
2024-05	Gemini 1.5 Flash	빠르고 싼 변형.
2024-12	Gemini 2.0 (Flash 등)	멀티모달 출력·도구 사용 강화.
2025	Gemini 2.5 Pro · Flash	추론 강화 변형.

세대가 지나며 위치 정리:

Pro · Ultra — 가장 큰 능력. 비용·지연이 큼.
Flash — 가벼운 변형. 처리량 위주.
Nano — 디바이스 내장 (온디바이스) 작은 변형.

세대·날짜에 따라 정확한 모델 이름과 가용성이 자주 바뀌므로 공식 문서의 모델 카드를 그때그때 확인합니다.

2. 1M 토큰 컨텍스트

Gemini 1.5 Pro 가 일반 가용성 시점에 표준 1M 토큰 컨텍스트를 지원한다고 공개됐습니다 (연구 발표에서는 2M 까지 함께 소개). 컨텍스트가 매우 길면 책 한 권 · 동영상 · 코드 베이스 통째로 입력하는 사용 패턴이 가능해집니다.

"lost in the middle" 같은 위치 효과는 여전히 관찰되므로 큰 컨텍스트가 항상 정답은 아닙니다.

3. API 진입점 두 가지

Google AI Studio (ai.google.dev) — 개인 개발자·실험. API 키 한 개로 시작.
Vertex AI (Google Cloud) — GCP 프로젝트 · IAM · 로깅 · 과금이 통합된 엔터프라이즈 진입점. 데이터 거주지 (region) · VPC-SC 같은 통제.

같은 모델이지만 인증 · 과금 · 기능 가용성 · SLA 가 다른 경우가 있습니다.

4. 호출 모양

from google import genai

client = genai.Client(api_key="...")
response = client.models.generate_content(
    model="gemini-2.0-flash",
    contents="한국어로 한 문단 요약해 주세요.",
)
print(response.text)

REST 도 같은 결을 따릅니다. 이미지·PDF·오디오·비디오 같은 입력은 Part 단위로 나눠 contents 에 담습니다.

5. 멀티모달 입력

입력	메모
이미지	PNG · JPEG · WEBP · HEIC.
오디오	음성 · 음악. 자막 · 요약 · 분석.
비디오	MP4. 프레임 단위 또는 타임스탬프 기반.
PDF	페이지 · 이미지 · 텍스트 혼합 문서.

업로드 한도·가용한 형식은 모델·세대마다 다릅니다.

6. Function calling · JSON mode

Function calling — 함수 시그니처를 모델에 전달하면 모델이 호출 파라미터 (JSON) 를 만들어 반환. 실제 호출은 호출자가 수행.
JSON mode · response schema — 출력 형식을 JSON 으로 강제. JSON Schema 또는 Pydantic 으로 스키마.

7. 다른 모델과의 객관 비교

모델군	제공자	출시	특징
Gemini	Google DeepMind	2023-12	멀티모달 폭 · 매우 긴 컨텍스트 · GCP 통합.
GPT (4 · 4o · o1 · o3)	OpenAI	2022-11	도구 생태계 · 폭넓은 채택 · 추론 모델군.
Claude (3 · 3.5 · 4)	Anthropic	2023-03	긴 컨텍스트 · 글쓰기·코딩 강세.
Mistral · Codestral	Mistral AI	2023	유럽 기반 · 오픈 가중치 변형.
Llama (3 · 3.1 · 3.2)	Meta	2023~	오픈 가중치 (라이선스 별도).
Qwen	Alibaba	2023~	오픈 가중치 · 다국어.

세대·시점에 따라 강·약점은 빠르게 바뀝니다. 단일 벤치마크보다 자기 도메인 평가가 신뢰도가 높습니다.

8. 가격 · 컨텍스트 캐싱

가격 — 토큰당 과금 (input · output 분리, 캐시 · context-caching 별도). 무료 티어가 있는 곳도 있고 가용 한도·제약이 다릅니다. Vertex AI 는 GCP 의 일반 빌링과 묶여 다른 서비스 (저장 · 로깅 · 네트워크) 비용이 함께 듭니다.

컨텍스트 캐싱 — 큰 시스템 프롬프트 · 문서를 매번 다시 보내지 않도록 서버에 캐시해 두는 기능이 1.5 세대부터 도입됐습니다. Anthropic · OpenAI 도 비슷한 캐시 기능을 가지고 있고 가격 · TTL · 키 정의가 제공자마다 다릅니다.

9. 안전 설정 · 환경 변수

Gemini API 는 카테고리별 안전 분류기 임계값을 설정할 수 있습니다 (폭력 · 성적 · 괴롭힘 · 위험행위). 기본값과 변경값의 차이를 자기 데이터로 검증.

export GOOGLE_API_KEY=...           # macOS · Linux
$env:GOOGLE_API_KEY = "..."          # Windows PowerShell

Vertex AI 의 인증은 보통 gcloud auth application-default login 으로 받은 ADC (Application Default Credentials) 또는 서비스 계정 키 파일.

10. 자주 걸리는 자리

모델 이름 변동 — gemini-1.5-pro-latest 같은 alias 와 날짜 핀 (gemini-1.5-pro-002) 의 의미가 다릅니다. 운영은 핀 고정이 안전.

지역 제약 — 일부 모델·기능이 특정 region 에서만. Vertex AI 의 location 설정 주의.

컨텍스트 한도와 실제 한도 — 1M 토큰을 광고해도 입력·출력 합계와 모델별 한도가 따로 정의됩니다. 출력 토큰은 보통 별도 작은 상한.

이미지·비디오 토큰 환산 — 비텍스트 입력은 내부적으로 토큰으로 환산. 가격 계산 시 텍스트 토큰만 보면 어긋남.

차단·필터링 — 안전 분류가 입력·출력을 막는 사례. 이유·카테고리 코드를 응답에서 확인.

대답 길이 제한 — max_output_tokens 를 작게 두고 잊으면 응답이 잘립니다.

AI Studio vs Vertex AI 차이 — 같은 코드가 한쪽에서 동작하고 다른 쪽에서는 추가 권한·설정이 필요.

데이터 사용 정책 — AI Studio 무료 키와 Vertex AI 의 데이터 학습 사용 정책이 다르다는 안내. 약관 확인.

하고픈 말

Gemini 의 매력은 멀티모달 폭과 매우 긴 컨텍스트입니다. 다만 모델 이름 · 가격 · 한도가 자주 변하므로 운영에서는 모델 핀 고정 + 자기 도메인 평가셋 + WireMock 으로 외부 의존을 끊은 dev 검증이 안전합니다.

embeddings-deep
agents-overview

Google AI for Developers · Vertex AI Generative AI · Gemini API Models · Google DeepMind Gemini · Gemini 1.5 보고서 · LMArena · LiveBench 를 참고합니다.

Gemini — Google 의 멀티모달 LLM 라인업

1. Gemini 에 대한 이야기

시점	모델	메모
2023-12	Gemini 1.0 (Ultra · Pro · Nano)	첫 공개.
2024-02	Gemini 1.5 Pro	1M 토큰 컨텍스트.
2024-05	Gemini 1.5 Flash	빠르고 싼 변형.
2024-12	Gemini 2.0 (Flash 등)	멀티모달 출력·도구 사용 강화.
2025	Gemini 2.5 Pro · Flash	추론 강화 변형.

세대가 지나며 위치 정리:

Pro · Ultra — 가장 큰 능력. 비용·지연이 큼.
Flash — 가벼운 변형. 처리량 위주.
Nano — 디바이스 내장 (온디바이스) 작은 변형.

세대·날짜에 따라 정확한 모델 이름과 가용성이 자주 바뀌므로 공식 문서의 모델 카드를 그때그때 확인합니다.

2. 1M 토큰 컨텍스트

"lost in the middle" 같은 위치 효과는 여전히 관찰되므로 큰 컨텍스트가 항상 정답은 아닙니다.

3. API 진입점 두 가지

Google AI Studio (ai.google.dev) — 개인 개발자·실험. API 키 한 개로 시작.
Vertex AI (Google Cloud) — GCP 프로젝트 · IAM · 로깅 · 과금이 통합된 엔터프라이즈 진입점. 데이터 거주지 (region) · VPC-SC 같은 통제.

같은 모델이지만 인증 · 과금 · 기능 가용성 · SLA 가 다른 경우가 있습니다.

4. 호출 모양

from google import genai

client = genai.Client(api_key="...")
response = client.models.generate_content(
    model="gemini-2.0-flash",
    contents="한국어로 한 문단 요약해 주세요.",
)
print(response.text)

REST 도 같은 결을 따릅니다. 이미지·PDF·오디오·비디오 같은 입력은 Part 단위로 나눠 contents 에 담습니다.

5. 멀티모달 입력

입력	메모
이미지	PNG · JPEG · WEBP · HEIC.
오디오	음성 · 음악. 자막 · 요약 · 분석.
비디오	MP4. 프레임 단위 또는 타임스탬프 기반.
PDF	페이지 · 이미지 · 텍스트 혼합 문서.

업로드 한도·가용한 형식은 모델·세대마다 다릅니다.

6. Function calling · JSON mode

Function calling — 함수 시그니처를 모델에 전달하면 모델이 호출 파라미터 (JSON) 를 만들어 반환. 실제 호출은 호출자가 수행.
JSON mode · response schema — 출력 형식을 JSON 으로 강제. JSON Schema 또는 Pydantic 으로 스키마.

7. 다른 모델과의 객관 비교

모델군	제공자	출시	특징
Gemini	Google DeepMind	2023-12	멀티모달 폭 · 매우 긴 컨텍스트 · GCP 통합.
GPT (4 · 4o · o1 · o3)	OpenAI	2022-11	도구 생태계 · 폭넓은 채택 · 추론 모델군.
Claude (3 · 3.5 · 4)	Anthropic	2023-03	긴 컨텍스트 · 글쓰기·코딩 강세.
Mistral · Codestral	Mistral AI	2023	유럽 기반 · 오픈 가중치 변형.
Llama (3 · 3.1 · 3.2)	Meta	2023~	오픈 가중치 (라이선스 별도).
Qwen	Alibaba	2023~	오픈 가중치 · 다국어.

세대·시점에 따라 강·약점은 빠르게 바뀝니다. 단일 벤치마크보다 자기 도메인 평가가 신뢰도가 높습니다.

8. 가격 · 컨텍스트 캐싱

9. 안전 설정 · 환경 변수

export GOOGLE_API_KEY=...           # macOS · Linux
$env:GOOGLE_API_KEY = "..."          # Windows PowerShell

Vertex AI 의 인증은 보통 gcloud auth application-default login 으로 받은 ADC (Application Default Credentials) 또는 서비스 계정 키 파일.

10. 자주 걸리는 자리

모델 이름 변동 — gemini-1.5-pro-latest 같은 alias 와 날짜 핀 (gemini-1.5-pro-002) 의 의미가 다릅니다. 운영은 핀 고정이 안전.

지역 제약 — 일부 모델·기능이 특정 region 에서만. Vertex AI 의 location 설정 주의.

컨텍스트 한도와 실제 한도 — 1M 토큰을 광고해도 입력·출력 합계와 모델별 한도가 따로 정의됩니다. 출력 토큰은 보통 별도 작은 상한.

이미지·비디오 토큰 환산 — 비텍스트 입력은 내부적으로 토큰으로 환산. 가격 계산 시 텍스트 토큰만 보면 어긋남.

차단·필터링 — 안전 분류가 입력·출력을 막는 사례. 이유·카테고리 코드를 응답에서 확인.

대답 길이 제한 — max_output_tokens 를 작게 두고 잊으면 응답이 잘립니다.

AI Studio vs Vertex AI 차이 — 같은 코드가 한쪽에서 동작하고 다른 쪽에서는 추가 권한·설정이 필요.

데이터 사용 정책 — AI Studio 무료 키와 Vertex AI 의 데이터 학습 사용 정책이 다르다는 안내. 약관 확인.

하고픈 말

embeddings-deep
agents-overview

Google AI for Developers · Vertex AI Generative AI · Gemini API Models · Google DeepMind Gemini · Gemini 1.5 보고서 · LMArena · LiveBench 를 참고합니다.

Gemini — Google 의 멀티모달 LLM 라인업

Gemini — Google 의 멀티모달 LLM 라인업

1. Gemini 에 대한 이야기

2. 1M 토큰 컨텍스트

3. API 진입점 두 가지

4. 호출 모양

5. 멀티모달 입력

6. Function calling · JSON mode

7. 다른 모델과의 객관 비교

8. 가격 · 컨텍스트 캐싱

9. 안전 설정 · 환경 변수

10. 자주 걸리는 자리

하고픈 말

Next

ai 카테고리의 다른 글

Gemini — Google 의 멀티모달 LLM 라인업

Gemini — Google 의 멀티모달 LLM 라인업

1. Gemini 에 대한 이야기

2. 1M 토큰 컨텍스트

3. API 진입점 두 가지

4. 호출 모양

5. 멀티모달 입력

6. Function calling · JSON mode

7. 다른 모델과의 객관 비교

8. 가격 · 컨텍스트 캐싱

9. 안전 설정 · 환경 변수

10. 자주 걸리는 자리

하고픈 말

Next

ai 카테고리의 다른 글