Curcuit Tracing

2025.04.10 22:07

https://transformer-circuits.pub/2025/attribution-graphs/methods.html#global-weights 위 글의 이해를 위한 번역, 정리글입니다.

딥러닝 모델은 수많은 계산 단위(인공 뉴런)의 작용으로 출력을 생성한다.
딥러닝 모델을 인간이 이해 가능한 언어로 설명하는 것은 바이너리 프로그램을 리버스 엔지니어링하는 것과 유사한 역추적이 필요하며, 이 분야에 대한 연구를 Mechanistic interpretability(MI)라고 부른다.
Anthropic 팀은 이를 이해하기 위해
1. 우선 모델이 계산에 사용하는 특징(feature)을 식별하고,
2. 이러한 특징들이 상호 작용하여 모델 출력을 생성하는 과정을 설명하려 했다.
기본적으로 활성화 함수와 가중치로 계산하는 작은 단위의 원시 뉴런으로 모델을 설명할 수 있다.
- 이전 연구에서 이 방법으로 비전 모델에서 흥미로운 회로를 찾아내기도 했다. (https://distill.pub/2020/circuits)
- 그러나 모델 뉴런은 종종 다의미적(polysemantic), 즉 여러 관련 없는 개념의 혼합을 나타낸다.
- 이는 모델이 뉴런 수보다 더 많은 개념을 표현해야 해서, 개념 표현이 여러 뉴런에 번져있기 때문이다.
- 하여 계산 단위와 의미 단위의 불일치는 여전히 연구 발전의 장애물로 남아있었다.
최근 몇 년간, sparse autoencoders(SAEs), transcoder, crosscoders 같은 sparse coding model이 중첩(superposition)된 방식으로 표현된 해석 가능한 특징(interpretable features)을 식별하는 데 유망한 도구로 주목받고 있다
- (희소 코딩(sparse coding)은 모델이 모든 뉴런을 동시에 사용하는 게 아니라, 소수의 뉴런만 활성화시켜서 정보를 표현하게 만드는 기법이다.)
- 현재의 희소 부호화 방법들은 특징을 식별하는 데 완벽하진 않지만(7절 한계 참고), 충분히 해석 가능한 결과를 제공할 수 있다 판단하고 연구를 진행했다.
따라서, 이어지는 글에서 Anthropic 팀이 현재 사용하고 있는 접근 방식과 이에 포함된 여러 핵심 방법론적 결정을 설명하고자 한다:
1. 트랜스코더(Transcoders)
- SAEs(희소 오토인코더) 대신 트랜스코더의 변형을 사용해 특징을 추출한다.
- 이를 통해 원래 모델의 대체 역할을 할 수 있는, 해석 가능한 “대체 모델(replacement model)“을 구성할 수 있다.
- 이 방식은 특히 특징 간 직접 상호작용을 분석할 수 있다는 점에서 중요하다.
1. 크로스-레이어(Cross-Layer)
- CLT(Cross Layer Transcoder)를 기반으로 분석을 수행한다.
- 여기서 각각의 feature는 한 레이어의 residual stream을 읽고, 이후 모든 MLP 레이어에 기여한다.
- 이 구조는 회로를 단순화시켜준다. 놀랍게도, Anthropic 팀은 학습된 CLT 특징들을 모델의 MLP 대신 사용하면서도, 약 50%의 경우에서 원래 모델과 같은 출력을 얻을 수 있다고 한다.
1. 속성 그래프(Attribution Graphs)
- 각 토큰 출력에 어떤 특징이 얼마나 기여했는지를 그래프 형태로 시각화한 **속성 그래프(attribution graphs)**를 분석 대상으로 삼는다.
  - (이는 모델의 “생각 흐름”을 따라가는 것과 유사하다) 참고
- 그래프의 노드는 활성화된 특징들, 프롬프트의 토큰 임베딩, 재구성 오류, 출력 로짓 등을 나타내고, 엣지는 노드 간의 **선형적 효과(linear effect)**를 표현한다.
1. 특징 간 선형적 귀속(Linear Attribution Between Features)
- 입력에 대해 특징 간의 직접 상호작용이 선형이 되도록 한다.
- 일반적으로 MLP는 ReLU 같은 비선형 함수 때문에 해석이 어려운 연산을 한다.
  - 이를 위해 선형으로 만들기 위해 트랜스코더 특징들이 MLP의 비선형 연산을 ‘건너뛰며’(bridge over) 이를 대체하는 방식으로 작동시키고,
  - 이 외에 남아있는 비선형성—어텐션 패턴과 정규화 분모—를 고정(freeze)한다.
- 엄밀히 말하면, 특징의 **사전 활성화 값(pre-activation)**이 이전 특징들의 활성화에 대해 선형이다.
- attention을 freezing하는 패턴은 일반적인 접근 방식으로, 트랜스포머를 이해하는 문제를 두 단계로 나누는 것이다:
  1. 고정된 어텐션 패턴이 주어졌을 때 모델이 어떻게 동작하는지 이해하기
  2. 모델이 왜 특정 위치에 어텐션을 주는지 이해하기.
- 어텐션 패턴을 따로 떼어놓고 이해하는 방식은 몇 가지 문재를 초래할 수 있으나, (결손된 어텐션 회로 문제)
- A Mathematical Framework에서 제시했듯 QK 회로(Query-Key Circuits)를 분석하는 방식을 해결책으로 따라갈 수 있다.
1. 가지치기(Pruning)
- 특징들이 희소해졌더라도, 하나의 프롬프트에 대해 너무 많은 특징이 활성화된다면 그래프 해석이 어렵다.
- 따라서 특정 토큰 출력에 가장 크게 기여하는 노드와 엣지를 식별하여 그래프를 제외한 나머지를 가지치기한다.
- 이렇게 하면 간결하고 해석 가능한 계산 그래프를 얻을 수 있다. (참고)
1. 인터페이스(Interface)
- 팀에서 속성 그래프를 시각적으로 탐색하고, 그 안의 특징들을 분석할 수 있는 인터랙티브 인터페이스를 개발하여 사용했다.
- 연구자는 이 도구를 통해 핵심 메커니즘을 빠르게 식별하고 하이라이트할 수 있다. (자랑을 이렇게..)
1. 검증(Validation)
- 이러한 회로 분석 방식은 간접적이기 때문에, 대체 모델이 원래 모델과 다른 메커니즘을 사용할 수도 있다.
- 따라서 그래프에서 찾은 메커니즘이 타당한지를 검증하기 위해 **교란 실험(perturbation experiments)**을 수행한다.
- 즉, 특정 특징의 방향으로 교란을 가했을 때, 다른 특징의 활성화나 모델 출력이 속성 그래프와 일치하는지를 측정한다.
1. 글로벌 가중치(Global Weights)
- 본 논문은 개별 프롬프트에 대한 속성 그래프 분석에 주로 초점을 맞추지만, 이 방법론을 사용하여 **대체 모델의 가중치 자체(글로벌 가중치)**를 직접 분석하는 것도 가능하다.
- 글로벌 가중치는 다양한 프롬프트에 공통적으로 작동하는 메커니즘을 나타낸다.
- 그러나 아래에서 설명하듯, 글로벌 가중치는 그래프보다 해석이 어렵고, 가중치 간 간섭 문제가 발생할 수 있다. 그럼에도 불구하고, 이를 사용해 작은 수 덧셈 회로를 성공적으로 분석할 수 있었다.

이 논문의 목표는 몇 가지 사례 연구를 통해 우리의 방법론을 상세히 설명하고 검증하는 것이다. 본 내용을 아래의 목차로 이어서 설명한다.

대체 모델(replacement model), 속성 그래프(attribution graph)* 구성
- 두 가지 사례 연구—§ 3.7 사실 회상(Factual Recall), § 3.8 덧셈(Addition)—로 이를 설명
글로벌 회로(global circuits) 구성
**크로스-레이어 트랜스코더(CLT)**와 그 결과로 생성된 속성 그래프의 정량적 평가
- CLT가 기존 뉴런이나 레이어별 트랜스코더에 비해 **파레토 개선(Pareto-improvements)**을 보인다는 지표를 통해 그 효과를 입증
동반 논문(companion paper) 소개
- 이 방법을 Claude 3.5 Haiku 모델에 적용하여, 복수 단계 추론, 계획(planning), 환각(hallucination) 등의 다양한 행동을 분석함
한계점 논의.
- 여기에는 어텐션 패턴의 역할, 재구성 오류의 영향, 억제 회로(suppression motifs)의 식별,
- 글로벌 회로를 이해하는 데 따르는 어려움 등이 포함됨.
- 이러한 한계를 극복하고 나면, 모델의 추가적인 작동 메커니즘들이 드러날 가능성이 있으며, 이는 향후 연구에서 매우 유망한 방향입니다.
속성 그래프를 생성하는 방법의 설계 공간에 대한 폭넓은 논의 (§ 8 논의)를 하고,
- 우리 접근법의 구성 요소들이 다른 기법들과 어떻게 조합될 수 있는지를 설명합니다.
- 그리고 관련 연구에 대한 개요로 논문을 마무리합니다 (§ 9 관련 연구).

참고

<https://distill.pub/2020/circuits/curve-circuit

자연어처리BERT 자연어처리LSA와 LDA aiCNN aiDocument Question Answering aiDropOut aiKeras