Bradley-Terry 모델은 쌍대비교(pairwise comparison)로부터 항목들의 순위를 추정하는 확률 모델이다. 1952년 Ralph Bradley와 Milton Terry가 제안했으며, 스포츠 랭킹, 추천 시스템, 그리고 LLM alignment(RLHF)의 reward model 학습에서 핵심적으로 사용된다. A와 B 중 어느 것이 더 좋은지 비교한 데이터가 주어졌을 때, 각 항목의 “강도(strength)“를 추정하고, 이를 통해 임의의 두 항목 간 승률을 예측하는 것이 목표이다.
기본 개념
Bradley-Terry 모델의 핵심 아이디어는 각 항목 i에 양수 파라미터 pᵢ > 0을 부여하고, 두 항목 i와 j가 비교될 때 i가 선호될 확률을 다음과 같이 정의하는 것이다.
P(i > j) = pᵢ / (pᵢ + pⱼ)pᵢ는 항목 i의 “강도”를 나타내는 파라미터다. pᵢ가 클수록 다른 항목에 대해 선호될 확률이 높아진다.
구체적인 숫자로 살펴보자. 세 팀 A, B, C의 강도가 각각 pₐ = 5, p_B = 3, p_C = 2라면:
P(A > B) = 5 / (5 + 3) = 0.625 → A가 B를 이길 확률 62.5%P(A > C) = 5 / (5 + 2) ≈ 0.714 → A가 C를 이길 확률 71.4%P(B > C) = 3 / (3 + 2) = 0.600 → B가 C를 이길 확률 60.0%이 모델의 중요한 성질은 비율만 의미가 있다는 것이다. pₐ = 5, p_B = 3과 pₐ = 50, p_B = 30은 정확히 같은 확률을 생성한다. 따라서 보통 Σpᵢ = 1이나 특정 항목의 강도를 1로 고정하여 스케일을 정한다.
로지스틱 형태
실제로는 pᵢ를 직접 다루는 대신, βᵢ = log pᵢ로 치환하여 로그 스케일에서 작업하는 것이 일반적이다. 이렇게 하면 확률이 로지스틱 함수(sigmoid) 형태로 변환된다.
P(i > j) = pᵢ / (pᵢ + pⱼ) = eᵝⁱ / (eᵝⁱ + eᵝʲ) = 1 / (1 + e⁻⁽ᵝⁱ⁻ᵝʲ⁾) = σ(βᵢ − βⱼ)여기서 σ(x) = 1 / (1 + e⁻ˣ)는 시그모이드 함수다.
왜 이 변환이 유용할까?
- 수치 안정성: pᵢ > 0 제약이 사라지고, βᵢ는 실수 전체에서 자유롭게 값을 가질 수 있다.
- 차이만 중요: P(i > j) = σ(βᵢ − βⱼ)이므로, 강도의 절대값이 아니라 차이만으로 확률이 결정된다. βₐ = 3, β_B = 1과 βₐ = 103, β_B = 101은 동일한 확률을 준다.
- 로지스틱 회귀와의 연결: 이 형태는 종속변수가 “i가 j를 이김”인 로지스틱 회귀와 동일하다. 따라서 로지스틱 회귀의 모든 최적화 기법과 이론을 그대로 활용할 수 있다.
최대우도추정
Bradley-Terry 모델의 파라미터를 추정하려면, 관찰된 비교 데이터의 우도(likelihood)를 최대화한다.
n번의 비교에서 i가 j를 이긴 횟수를 wᵢⱼ라 하면, 전체 로그 우도는 다음과 같다.
ℓ(β) = Σ_{(i,j)} [ wᵢⱼ · log σ(βᵢ − βⱼ) + wⱼᵢ · log σ(βⱼ − βᵢ) ]시그모이드 함수의 성질 σ(−x) = 1 − σ(x)를 활용하면, 이는 곧 이진 크로스엔트로피 손실과 동일한 구조임을 알 수 있다.
βᵢ에 대한 그래디언트는 다음과 같다.
∂ℓ/∂βᵢ = Σ_{j≠i} [ wᵢⱼ − (wᵢⱼ + wⱼᵢ) · σ(βᵢ − βⱼ) ]직관적으로 해석하면, wᵢⱼ는 i가 j를 이긴 실제 횟수이고 (wᵢⱼ + wⱼᵢ) · σ(βᵢ − βⱼ)는 현재 모델이 예측하는 기대 승리 횟수다. 그래디언트가 0이 되는 지점, 즉 실제 승리 횟수와 기대 승리 횟수가 일치하는 지점이 MLE(Maximum Likelihood Estimate)다.
이 최적화 문제는 로그 우도가 오목(concave)하므로 전역 최솟값이 보장된다. 실제로는 경사하강법 또는 Newton-Raphson 방법으로 풀 수 있고, MM(Minorization-Maximization) 알고리즘을 사용한 반복법도 널리 쓰인다.
Elo 레이팅과의 관계
체스에서 사용되는 Elo 레이팅 시스템은 사실 Bradley-Terry 모델의 특수한 경우다.
Elo에서 플레이어 A의 레이팅이 Rₐ, B의 레이팅이 R_B일 때 A의 기대 승률은 다음과 같다.
Eₐ = 1 / (1 + 10^((R_B − Rₐ) / 400))Bradley-Terry의 로지스틱 형태 P(A > B) = σ(βₐ − β_B)와 비교했을 때, β = (ln 10 / 400) · R ≈ 0.00576 · R로 치환하면 정확히 같은 수식이 된다.
차이점은 Elo가 각 게임 후 레이팅을 온라인으로 갱신하는 반면, Bradley-Terry는 전체 데이터에 대해 일괄적으로 MLE를 구한다는 것이다. Elo의 K-factor 기반 업데이트는 확률적 경사하강법(SGD)의 특수한 형태로 볼 수 있다. 따라서 Elo는 온라인 학습 버전의 Bradley-Terry라고 이해할 수 있다.
RLHF에서 활용
Bradley-Terry 모델이 가장 주목받는 분야는 LLM의 RLHF(Reinforcement Learning from Human Feedback)다. 구체적으로 reward model 학습에 핵심적으로 사용된다.
RLHF의 전체 파이프라인은 다음과 같다.
- SFT(Supervised Fine-Tuning): 지시를 따르도록 사전 학습된 모델을 fine-tuning
- Reward Model 학습: 인간 선호도 데이터로 보상 모델 학습 ← Bradley-Terry 모델 적용
- RL 최적화: reward model의 점수를 보상으로 사용하여 PPO 등으로 정책 최적화
Reward Model 학습
프롬프트 x에 대해 모델이 두 개의 응답 y_w(선호됨)와 y_l(비선호됨)을 생성하고, 인간 평가자가 y_w를 선택한 데이터가 주어진다. reward model r_θ(x, y)는 프롬프트-응답 쌍에 대해 스칼라 점수를 출력하는 함수다.
Bradley-Terry 모델을 적용하면, y_w가 y_l보다 선호될 확률은 다음과 같다.
P(y_w > y_l | x) = σ(r_θ(x, y_w) − r_θ(x, y_l))여기서 reward r_θ(x, y)가 Bradley-Terry의 β 파라미터 역할을 한다. 응답의 “강도”를 reward 점수로 모델링하고, 두 응답 간 reward 차이에 시그모이드를 적용하여 선호 확률을 구하는 것이다.
학습 목표(loss)는 다음과 같다.
L(θ) = −E_{(x, y_w, y_l)} [ log σ(r_θ(x, y_w) − r_θ(x, y_l)) ]이 loss를 최소화하면, 인간이 선호하는 응답에 높은 reward를, 비선호 응답에 낮은 reward를 부여하는 모델이 학습된다.
구체적인 예를 들면:
프롬프트: "양자 컴퓨팅을 설명해줘"
응답 y_w (선호): "양자 컴퓨팅은 큐비트를 사용하여..." → r(x, y_w) = 2.3응답 y_l (비선호): "양자 컴퓨팅은 컴퓨터입니다..." → r(x, y_l) = -0.5
P(y_w > y_l) = σ(2.3 − (−0.5)) = σ(2.8) ≈ 0.943→ 모델이 94.3% 확률로 올바른 선호를 예측reward model 학습에 Bradley-Terry를 사용하는 이유는 다음과 같다.
- 스칼라 보상의 자연스러운 도출: 쌍대비교 데이터(어느 응답이 더 나은지)로부터 각 응답의 절대적인 점수(reward)를 추정할 수 있다. 이 reward는 이후 RL 단계에서 보상 신호로 직접 사용된다.
- 전이성(transitivity): r(yₐ) > r(y_B)이고 r(y_B) > r(y_C)이면 r(yₐ) > r(y_C)가 자동으로 성립한다. 모든 응답이 단일 스칼라 축 위에 놓이므로 전체적인 순서가 일관된다.
- 확률적 해석: reward 차이가 선호 확률로 직접 변환되므로, 모델의 예측에 확률적 의미를 부여할 수 있다.
vs DPO
DPO(Direct Preference Optimization)는 별도의 reward model 학습 없이 LLM을 직접 최적화하는 방법이다. DPO의 이론적 토대가 Bradley-Terry 모델이다.
RLHF의 RL 단계에서 최적 정책(optimal policy)은 다음과 같이 유도된다.
π*(y|x) = (1/Z(x)) · π_ref(y|x) · exp(r(x,y) / β)여기서 π_ref는 SFT 모델(reference policy), β는 KL 제약의 강도, Z(x)는 정규화 상수다.
이를 reward에 대해 역으로 풀면 다음과 같다.
r(x, y) = β · log(π*(y|x) / π_ref(y|x)) + β · log Z(x)이 표현을 Bradley-Terry의 선호 확률 수식에 대입하면, Z(x)가 소거되고 다음이 남는다.
P(y_w > y_l | x) = σ(β · log(π*(y_w|x) / π_ref(y_w|x)) − β · log(π*(y_l|x) / π_ref(y_l|x)))DPO는 여기서 π*를 학습 중인 정책 π_θ로 대체하여, 별도의 reward model과 RL 루프 없이 선호 데이터로부터 직접 LLM을 최적화한다.
L_DPO(θ) = −E_{(x, y_w, y_l)} [ log σ(β · log(π_θ(y_w|x) / π_ref(y_w|x)) − β · log(π_θ(y_l|x) / π_ref(y_l|x))) ]결국 DPO는 “Bradley-Terry reward model 학습 + RL 최적화”를 단일 supervised learning 문제로 축소한 것이다. Bradley-Terry 모델의 구조가 이 축소를 가능하게 하는 수학적 토대를 제공한다.
한계
Bradley-Terry 모델은 강력하지만 몇 가지 구조적 한계가 있다.
- 비전이적 선호를 표현할 수 없다: Bradley-Terry는 모든 항목을 1차원 스칼라 위에 배치한다. 따라서 “A > B > C > A”와 같은 순환적 선호(가위바위보 구조)를 모델링할 수 없다. LLM 응답의 선호도에서도 이런 비전이성이 관찰될 수 있다. 예를 들어, 응답 A가 정확도에서 B를 이기고, B가 유창성에서 C를 이기고, C가 창의성에서 A를 이길 수 있다. 다차원적 선호를 하나의 스칼라로 압축하면 이러한 구조가 소실된다.
- 비교 독립성 가정(IIA): Bradley-Terry는 두 항목 간 선호 확률이 다른 항목의 존재에 영향을 받지 않는다고 가정한다. 즉, P(A > B)는 C가 존재하든 안 하든 동일하다. 실제로는 문맥에 따라 선호가 바뀔 수 있다.
- 동점(tie) 미지원: 기본 모델은 “비김”을 모델링하지 않는다. Rao-Kupper 확장이나 Davidson 모델이 동점을 다루는 변형이다.
이러한 한계에도 불구하고, Bradley-Terry의 단순성과 이론적 견고함 때문에 실용적인 선택지로 널리 사용된다. 특히 RLHF에서는 대규모 선호 데이터에 대해 효율적으로 학습할 수 있고, 이후 RL 단계에서 사용할 스칼라 reward를 자연스럽게 생성한다는 점에서 널리 사용되고 있다
참고