[Paper review] ReFT: Representation Finetuning for Language Models

activation steering

[Paper review] ReFT: Representation Finetuning for Language Models

ro1ex-ai 2024. 8. 2. 16:48

https://arxiv.org/abs/2404.03592

parameter performance tradeoff를 고려하지 않더라도 instruction tuning, commonsense에서 sota를 달성

이외 GLUE, arithmetic에서도 동일 수준 parameter에서 월등이 좋은 성능을 보임.

Related works

adapter

attention 혹은 mlp output에 mlp(adapter) 를 달아서 PEFT

LoRA와는 다르게 weight을 다른 component에 fold할 수 없기때문에 inference에 추가적인 overhead가 발생

LoRA

low rank matrix a,b로 train과정에서 weight update를 approximate한다. weight을 fold할 수 있기 때문에 추가적인 overhead는 없다. 현재 PEFT의 sota

DII

b 를 인풋으로 했을때의 activation b를, s 를 인풋으로 했을때의 activation s로 activation patching 할때 low rank, row wise orthonormal, learnable R로 특정 subspace에 옮겨서 하는 아이디어 (https://arxiv.org/abs/2303.02536). 이게 activation patching을 잘 한다면 이 방법으로 model steering도 할 수 있어보임

Method

특정 레이어의 residual output을 h라 할때

와 같이 residual을 수정한다. R은 위 식과 마찬가지로 rowise orthnoraml, low rank, learnable projection.

위 식에서 R x s 가 learnable한 W,b로 바뀌었다.

orthogonal constraint를 제거한 method도 제공한다. subtraction이 없고 orthogonal constraint가 없기 때문에 train time이 더 짧다. LoRA를 weight가 있는 곳이 아니라 activation에 그대로 적용하는 것과 동치

위와같은 intervention/adapter를 만들고,

특정 레이어 특정 포지션에 적용, 각 레이어, 포지션 마다 parameter는 다르다. 이 위치가 hyperparameter가 됨. prompt 일부분에 간섭해서 learable parameter가 존재한다는 점에서 추가적인 prefix가 따로 존재하지는 않지만 prefix tuning 스러운 느낌도 있다.

기존 language mdoeling loss로 LoReFT 기준 W,R,b를 학습한다.

위에서 언급한 포지션, 레이어 외에 레이어별 각 포지션에 적용할 phi 연산의 parameter를 tie할지 (한 레이어 에서의 각 포지션에 대한 intervention의 parameter를 동일하게 할지) 도 hyper parameter가 된다.

gsm8k 데이터셋 실험시 hyperparameter sweep 범위. underline된 값이 최종적으로 선정된 hyperparameter. test셋이 아닌 dev셋으로 선정했다.

prefix position 11 : prompt 앞에서 11번째 토큰(포지션) 에 intervention

suffix position 11 : prompt 뒤에서 11번째 토큰(포지션) 에 intervention

실제로 생성하는 부분에는 직접적으로 intervene하지 않는다

Experiment / Result

Commonsense Reasoning

PEFT 방식의 commonsense reasoning 성능을 벤치마킹 해놓은 https://aclanthology.org/2023.emnlp-main.319.pdf 를 따라간다.

여러가지 llama모델을 BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC-e, ARC-c, OBQA 8개의 commonsenseQA 데이터셋을 합친 데이터셋으로 학습시키고 평가. (위 논문과 같은 방식)

adapter P 는 parrarel adapter (https://openreview.net/forum?id=0RDcd5Axok)

adapter S는 series adapter (https://arxiv.org/abs/1902.00751)

가장 적은 parameter로 대부분의 데이터셋에서 SOTA를 달성하고 평균으로는 전부 SOTA를 달성함.

Instruction following

Ultrafeedback 데이터셋으로 학습및 평가. hyperparameter는 Alpaca-52K 데이터셋으로 결정.

평가는 Alpaca-Eval v1.0 으로 진행. text-davinci-003이 생성한 텍스트와의 비교를 GPT-4에 요청해서 승률을 report.

가장 적은 parameter로 가장 높은 승률을 기록.

Natural language understanding

RoBERTa base, large의 nlu 평가. 학습은 일반적으로 하듯, classification head를 붙이고 그 head와 ReFT 파라미터를 학습시킨다. large에서는 평균적으로 sota, 그 외에도 가장 적은 파라미터로 comparable한 성능을 달성.

Arithmatic

타 방법에 비해서 확실히 성능이 떨어진다.

논문에서 설명은 없지만 이유를 생각해보면

1. arithmatic을 위해서는 실제로 추가적인 parameter가 더 필요함

2. hyperparameter search

3. prompt에서만 intervene하는것이 부족함 (다른 방법은 decoding과정; 실제 생성시에도 intervene한다고 볼 수 있다)

Discussion

1. interpretability 연구에서의 insight로 practical한 결과를 만들어냄

2. 기존 activation addition, model steering 연구의 follow up으로 보면 기존에 post hoc하게 activation을 가져와서 분석 / 모델에 적용하는것을 넘어서 intervention을 train하는 연구가 됨

3. prefix tuning의 follow up으로 보면 추가적인 prefix를 따로 만들지 않고 input의 형태를 유지하면서 특정포지션, 레이어 선별적으로 굉장히 fine grained한 soft prompting 으로 볼 수 있음

4. residual stream에 직접적으로 adapter를 적용하는 연구임

residual stream에 adapter를 적용하는 연구는 이전에도 있었음. Speach recognition에서 transfer learning하는데에 사용; 모델 역시 transformer였음 (https://arxiv.org/pdf/2109.06952)

5. concurrent work (https://arxiv.org/pdf/2402.15179)

6. related work (https://arxiv.org/pdf/2304.00740)

'activation steering' 카테고리의 다른 글

[Paper Review] Programming Refusal with Conditional Activation Steering (0)	2024.09.26
[Paper review]Refusal in Language ModelsIs Mediated by a Single Direction (0)	2024.07.10
[Paper review]Inference-Time Intervention:Eliciting Truthful Answers from a Language Model (1)	2024.07.05

현재글[Paper review] ReFT: Representation Finetuning for Language Models

mech. interp blogpost

mechanistic interpretability. 딥러닝 모델을 리버스 엔지니어링하는 연구입니다. alien neuroscience :)

XAI, controllable generation, answer attribution, input attribution, tuned lens, mechanistic interpretability, activation patching, future lens, toxicity, multitoken, linear representation, supporting factor, 논문리뷰, mechanistical interpretability, activation steering, representation engineering, patch patching, multi-hop qa, reft, linear representation hypothesis,

Today :
Yesterday :

mech. interp blogpost