Skip to content

태그: LLM

총 9개의 글이 있습니다.

vLLM은 LLM 추론과 서빙을 위한 고성능 엔진이다. 같은 모델을 HuggingFace transformers로 돌릴 때와 비교해 수배~수십 배 빠른 처리량을 보여주는데, 이는 GPU 메모리 관리, 커널 최적화, 스케줄링 등 여러 계층에서의 최적화가 결합된 결과이다. 같은 모델인데 추론 엔진에 따라 성능 차이가 나는 이유를 이해하려면, LLM 추론이 왜 느린지부터 알아야 한다. LLM 추론의 병목 LLM의 텍스트 생성은 autoregressive 방식이다. 토큰 하나를 생성하려면 이전까지의 모든 토큰에 대한 attention 계산이 필요하고, 이 과정이 토큰 수만큼 반복된다. 100 토큰을 생성하면 모델의 forward pass가 100번 실행되는 것이다. 여기서 두 가지 핵심 병목이 발생한다. 메모리

GPTQ(GPT Quantization)는 LLM 가중치를 양자화하는 기법이다. 70B 모델이 FP16으로 약 140GB VRAM을 잡아먹는데, INT4로 양자화하면 약 35GB까지 줄일 수 있다. 양자화 방식 레이어별로 가중치 행렬을 순차 양자화하는데, 하나를 양자화할 때 나머지를 보정(compensation)해서 출력 오차를 최소화한다. Hessian 역행렬로 어떤 가중치가 더 중요한지 판단하고, 캘리브레이션 데이터는 128~256 샘플이면 된다. 양자화된 가중치는 group 단위로 scale과 zero-point를 갖는다. group_size=128이면 128개 가중치가 FP16 scale/zero-point 하나를 공유하고, 추론할 때 dequantized_weight = scale × (quanti

Checkpoint Shard

Checkpoint shard는 대규모 모델의 가중치(weight) 파일을 여러 개의 작은 파일로 분할한 것이다. LLM처럼 수십~수백 GB에 달하는 모델을 학습하거나 배포할 때, 가중치를 단일 파일에 저장하면 여러 문제가 발생한다. Checkpoint shard는 이 문제를 해결하기 위해 모델 파라미터를 여러 파일에 나누어 저장하는 방식이다. 모델이 커지면서 단일 파일 저장 방식에는 아래같은 한계가 생긴다. 파일 크기 제한: GitHub LFS는 파일당 5GB, Hugging Face Hub도 단일 파일 업로드에 제한이 있다. 70B 모델의 FP16 가중치는 약 140GB에 달하기 때문에 하나의 파일로는 저장 자체가 불가능하다. 메모리 문제: 단일 파일을 로드하려면 파일 전체를 한 번에 메모리에 올려야

Bradley-Terry 모델은 쌍대비교(pairwise comparison)로부터 항목들의 순위를 추정하는 확률 모델이다. 1952년 Ralph Bradley와 Milton Terry가 제안했으며, 스포츠 랭킹, 추천 시스템, 그리고 LLM alignment(RLHF)의 reward model 학습에서 핵심적으로 사용된다. A와 B 중 어느 것이 더 좋은지 비교한 데이터가 주어졌을 때, 각 항목의 “강도(strength)“를 추정하고, 이를 통해 임의의 두 항목 간 승률을 예측하는 것이 목표이다. 기본 개념 Bradley-Terry 모델의 핵심 아이디어는 각 항목 i에 양수 파라미터 pᵢ 0을 부여하고, 두 항목 i와 j가 비교될 때 i가 선호될 확률을 다음과 같이 정의하는 것이다. P(i j) = pᵢ

GGUF(GPT-Generated Unified Format)는 llama.cpp에서 사용하는 LLM 모델 파일 포맷이다. llama.cpp 개발자 Georgi Gerganov가 설계했으며(이름의 GG가 이니셜), 이전 포맷인 GGML의 한계를 극복하기 위해 등장했다. 기존에 LLM 모델을 배포하려면 여러 파일이 필요했다. PyTorch의 경우 가중치 파일(.bin 또는 .safetensors), 토크나이저 설정(tokenizer.json, tokenizer_config.json), 모델 설정(config.json), 생성 설정(generation_config.json) 등을 모두 갖춰야 추론이 가능하다. GGUF 이전에 사용되던 GGML 포맷은 모델 가중치를 하나의 파일로 담을 수 있었지만, 다음과 같은

Qwen3는 Alibaba Qwen 팀에서 2025년 5월에 공개한 LLM 시리즈다. Dense 모델 6개(0.6B~32B)와 MoE 모델 2개(30B-A3B, 235B-A22B), 총 8개 모델로 구성된다. 전 모델이 thinking(Chain-of-Thought) 모드를 기본 지원하며, 사용자가 thinking ON/OFF를 전환할 수 있는 “hybrid thinking” 설계가 특징이다. (Qwen3 Blog, Technical Report) 모델 Dense 모델 Dense 모델은 모든 파라미터가 항상 활성화되는 일반적인 Transformer 구조다. 입력 토큰이 들어오면 모든 레이어의 모든 가중치를 거쳐 출력이 나온다. 각 레이어는 Multi-Head Attention과 Feed-Forward Net

참고 Continuous Thought Machine(CTM)은 생각한다는 행위를 계산 가능한 절차로 환원하기 위해 개발된 인공지능 아키텍처이다. 크게 Internal Ticks, MLM, SR 세 가지 개념으로 모델을 구성한다. 내부 사고 차원(Internal Ticks) CTM의 internal tick은 모델 내부에서 자율적으로 진행되는 사고 단계이다. 독립적

Curcuit Tracing

위 글의 이해를 위한 번역, 정리글입니다. Circuit Tracing: Revealing Computational Graphs in Language Models 딥러닝 모델은 수많은 계산 단위(인공 뉴런)의 작용으로 출력을 생성한다. 딥러닝 모델을 인간이 이해 가능한 언어로 설명하는 것은 바이너리 프로그램을 리버스 엔지니어링하는 것과 유사한 역추적이 필요하며, 이 분야에 대한 연구를 Mechanistic interpretability(MI)라고 부른다. Anthropic 팀은 이를 이해하기 위해 우선 모델이 계산에 사용하는 특징(feature

Prompt Engineering

Multi-head Attention Head는 하나의 어텐션 매커니즘을 의미, 입력 텍스트의 해석을 하나의 관점이 아닌 여러 관점에 집중 Head의 예시 문법적인 요소, 시제에 집중 Entity (사란, 장소, 물건 등)의 관계에 집중 문장 내에서 일어나는 환동에 집중 Word Rhyme(단어의 운율)의 집중 Query, Key, Value 벡터를 각각 h번 Linear projection으로 변환 Linear Projection(선형 투영)은 선형 대수학에서 나오는 개념, 여기서는 고차원의 벡터를 저차원으로 나눌 때 사용한다. Long context prompting tips 긴 문서나 입력을 프롬프트의 상단에 배치 (지시사항, 질문, 예시보다 더) 질문을 마지막에 배치하거나, 마지막