https://arxiv.org/pdf/2409.05907기존 activation steering에서는 모델이 원하는 대로 생성하게 만들 수 있으니 이제 원할'때' 원하는 대로 생성하게 하겠다.특히 모델이 받을수 있는 harmful한 query가 들어왔을때만 refuse하게 만들겠다https://ro1ex-ai.tistory.com/2 [Paper review]Refusal in Language ModelsIs Mediated by a Single Directionhttps://arxiv.org/pdf/2406.11717IntroductionRelated works1. Features as direction : Model steering 등에서 contrastive한 pair를 통해 모델의 activat..