activation steering 4

[Paper Review] Programming Refusal with Conditional Activation Steering

https://arxiv.org/pdf/2409.05907기존 activation steering에서는 모델이 원하는 대로 생성하게 만들 수 있으니 이제 원할'때' 원하는 대로 생성하게 하겠다.특히 모델이 받을수 있는 harmful한 query가 들어왔을때만 refuse하게 만들겠다https://ro1ex-ai.tistory.com/2 [Paper review]Refusal in Language ModelsIs Mediated by a Single Directionhttps://arxiv.org/pdf/2406.11717IntroductionRelated works1. Features as direction : Model steering 등에서 contrastive한 pair를 통해 모델의 activat..

activation steering 2024.09.26

[Paper review] ReFT: Representation Finetuning for Language Models

https://arxiv.org/abs/2404.03592parameter performance tradeoff를 고려하지 않더라도 instruction tuning, commonsense에서 sota를 달성이외 GLUE, arithmetic에서도 동일 수준 parameter에서 월등이 좋은 성능을 보임.Related worksadapterattention 혹은 mlp output에 mlp(adapter) 를 달아서 PEFTLoRA와는 다르게 weight을 다른 component에 fold할 수 없기때문에 inference에 추가적인 overhead가 발생 LoRAlow rank matrix a,b로 train과정에서 weight update를 approximate한다. weight을 fold할 수 있기..

activation steering 2024.08.02

[Paper review]Refusal in Language ModelsIs Mediated by a Single Direction

https://arxiv.org/pdf/2406.11717IntroductionRelated works1. Features as direction : Model steering 등에서 contrastive한 pair를 통해 모델의 activation을 추출, feature를 찾아낼 수 있고 이 feature vectors를 residual stream에 더해 모델의 behaviour를 바꿀 수 있음.1.1. 또한 feature가 linear하게 표현된다는 가정하에 모델에서 concept removal을 시행하는 여러 work가 존재함2. Undoing safety tuning : harmful instruction과 completion의 데이터셋으로 모델의 학습된 거부 응답을 성능적인 loss없이 무시하..

activation steering 2024.07.10

[Paper review]Inference-Time Intervention:Eliciting Truthful Answers from a Language Model

https://arxiv.org/pdf/2306.03341Introductionprevious works1. large language model이 real-world correctness에 대한 latent, interpretable 한 structure가 있음을 확인함(https://arxiv.org/abs/2212.03827)2. large language model이 실제로 출력하는 것보다 '아는것'이 더 많음을 확인함(https://arxiv.org/abs/2010.11967) (논문에는 없지만 concurrent work https://arxiv.org/pdf/2304.13734)2-1. 실제로 이 논문에서 사용하는 TruthfulQA dataset의 경우 probe accuracy와 실제 g..

activation steering 2024.07.05