mech. interp blogpost

  • 홈
  • 태그
  • 방명록

toxicity 2

[Paper review] A Mechanistic Understanding of Alignment Algorithms:A Case Study on DPO and Toxicity

https://arxiv.org/pdf/2401.01967IntroductionRelated works1. Transformer MLP unembeded : 이 논문 과 이 블로그포스트에서 트랜스포머 각 mlp output 뉴런의 weight을 unembed layer에 통과시켜 나온 logit으로 interprete함2. https://arxiv.org/pdf/2311.12786 등에서 finetuning의 영향을 mechanistic 하게 interprete함Contribution1. 위 mlp unembedding을 이용하여 gpt2-medium에서 toxic한 contribution을 하는 neuron을 찾은 뒤2. 이를통해 toxic generation을 suppress하고3. DPO를 통해 t..

mechanistic interpretability 2024.07.25

[Paper review]Refusal in Language ModelsIs Mediated by a Single Direction

https://arxiv.org/pdf/2406.11717IntroductionRelated works1. Features as direction : Model steering 등에서 contrastive한 pair를 통해 모델의 activation을 추출, feature를 찾아낼 수 있고 이 feature vectors를 residual stream에 더해 모델의 behaviour를 바꿀 수 있음.1.1. 또한 feature가 linear하게 표현된다는 가정하에 모델에서 concept removal을 시행하는 여러 work가 존재함2. Undoing safety tuning : harmful instruction과 completion의 데이터셋으로 모델의 학습된 거부 응답을 성능적인 loss없이 무시하..

activation steering 2024.07.10
이전
1
다음
더보기
프로필사진

mech. interp blogpost

mechanistic interpretability. 딥러닝 모델을 리버스 엔지니어링하는 연구입니다. alien neuroscience :)

  • 분류 전체보기 (13)
    • 과제 (0)
    • mechanistic interpretabilit.. (7)
    • activation steering (4)
    • 개인용 (2)

Tag

tuned lens, mechanistical interpretability, activation steering, multi-hop qa, XAI, linear representation hypothesis, controllable generation, activation patching, supporting factor, linear representation, toxicity, patch patching, answer attribution, representation engineering, future lens, mechanistic interpretability, multitoken, reft, input attribution, 논문리뷰,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바