https://arxiv.org/pdf/2406.11717IntroductionRelated works1. Features as direction : Model steering 등에서 contrastive한 pair를 통해 모델의 activation을 추출, feature를 찾아낼 수 있고 이 feature vectors를 residual stream에 더해 모델의 behaviour를 바꿀 수 있음.1.1. 또한 feature가 linear하게 표현된다는 가정하에 모델에서 concept removal을 시행하는 여러 work가 존재함2. Undoing safety tuning : harmful instruction과 completion의 데이터셋으로 모델의 학습된 거부 응답을 성능적인 loss없이 무시하..