codingstairs
노트에듀라이프연락
⌕검색⌘K
koen

Navigation

  • Intro
  • Blog
  • Life

연락하기

로그인 없이도 보낼 수 있어요. 답변이 필요하면 이메일을 함께 적어 주세요.

  • 익명 폼으로 의견 남기기 →
  • ✉ warragon112@gmail.com
  • 카카오톡 오픈채팅 ↗

© 2026 codingstairs

  • 노트
  • 에듀
  • 검색
  • 라이프
  • 연락
  • 약관
  • RSS
  • GitHub
에듀›로컬 LLM · pgvector · RAG 챗봇 만들기›1단계

1단계

왜 로컬 LLM · LM Studio 시작

0회 조회

왜 로컬 LLM · LM Studio 시작

ChatGPT 호출 한 줄은 빠르고 편합니다. 그래도 로컬 LLM 이 답인 자리가 있어요.

1. 로컬이 유리한 네 가지 자리

  • 외부 반출 불가 — 사내 문서 · 의료 · 금융
  • 요청당 비용 누적 — 초당 수십 호출이 일상인 백엔드
  • latency 예측 — 클라우드 tail latency 500ms+
  • 오프라인 · 개인 기기 — Tauri 데스크탑 앱 내장 AI

단, 품질 · 컨텍스트 길이는 여전히 Claude Opus · GPT-4 class 가 앞섭니다.

2. LM Studio — 로컬 모델의 표준 런처

무료 · macOS / Windows / Linux 지원. GGUF 파일 선택만으로 Gemma · Llama · Qwen · Mistral 실행.

# LM Studio 다운로드 후
# 모델 검색 → gemma-2-9b-it · llama-3.2-3b · qwen2.5-coder
# Load Model → Server tab → Start Server (기본 http://localhost:1234)

3. OpenAI 호환 endpoint

LM Studio 는 OpenAI SDK 그대로 호출 가능.

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

resp = client.chat.completions.create(
    model="gemma-2-9b-it",
    messages=[{"role": "user", "content": "한국어로 짧게 답해 줘: 1 + 1 은?"}],
    temperature=0.3,
)
print(resp.choices[0].message.content)

base_url · model 만 바꾸면 클라우드 ↔ 로컬 스위치.

4. VRAM 가이드

파라미터 양자화 권장 VRAM
3B Q4_K_M 4 GB
7 ~ 9B Q4_K_M 8 ~ 12 GB
14B Q4_K_M 16 GB
32B Q4_K_M 24 GB +

CPU 전용도 가능하지만 토큰 생성이 느림 (초당 1 ~ 5 tok). 실시간성이 필요하면 GPU.

5. 모델 고르기

  • 코드 · RAG 요약 — Qwen2.5-Coder · Gemma 2 9B
  • 한국어 품질 — Gemma 2 9B · Gemma 4 e2b-it (2026)
  • 낮은 VRAM — Llama 3.2 3B · Phi-3 mini

처음에는 Gemma 2 9B Q4_K_M 을 권장. 한국어 · 영어 · 코드 모두 평균 이상.

6. 자주 걸리는 자리

  • model 이름 불일치 — curl /v1/models 가 반환한 id 를 그대로 사용
  • temperature 너무 높음 — RAG 은 0.1 ~ 0.4, 창작은 0.7 ~ 1.0
  • 연속 호출 시 컨텍스트 누적 — OpenAI 와 달리 자동 트림 없음. 직접 자르거나 새 세션

하고픈 말

첫 RAG 은 Gemini · OpenAI 로 연결해 동작 확인 후, 다음 단계에서 로컬로 바꾸는 순서가 빠릅니다. 로컬이 만능이 아니라 "필요할 때 스위치" 가 가장 실용적.

Next

  • 02-embeddings

2단계 →

임베딩 — 텍스트를 벡터로