mech. interp blogpost

  • 홈
  • 태그
  • 방명록

linear representation 2

[Paper review] LINEAR REPRESENTATIONS OF SENTIMENTIN LARGE LANGUAGE MODELS

https://arxiv.org/pdf/2310.15154LLM이 sentiment관련 task를 풀때 사용하는 direction에 대한 연구더보기https://github.com/curt-tigges/eliciting-latent-sentiment/tree/main GitHub - curt-tigges/eliciting-latent-sentimentContribute to curt-tigges/eliciting-latent-sentiment development by creating an account on GitHub.github.com  Contribution1. sentiment의 linear representation을 synthetic data에서 찾음2. 위 direction으로 실제 dat..

mechanistic interpretability 2024.09.03

[Paper review] Function Vectors in Large Language Models

https://arxiv.org/pdf/2310.15213모델이 어떻게 ICL(in-context learning)을 하는가?Related worksICL (In-context learning)언어모델이 inference time에 적은 수의 demonstration에서 어떤 task를 푸는것인지 '학습'하는 것1. transformers are few shot learner; GPT3 논문에서 처음으로 제시됨2. https://arxiv.org/abs/2211.15661 에서 ICL이 synthetic task (linear regression)에서 Stochastic Gradient Descent임을 간접적으로 보임3. https://arxiv.org/pdf/2212.10559 에서 ICL이 일반적인..

mechanistic interpretability 2024.08.12
이전
1
다음
더보기
프로필사진

mech. interp blogpost

mechanistic interpretability. 딥러닝 모델을 리버스 엔지니어링하는 연구입니다. alien neuroscience :)

  • 분류 전체보기 (13)
    • 과제 (0)
    • mechanistic interpretabilit.. (7)
    • activation steering (4)
    • 개인용 (2)

Tag

reft, tuned lens, linear representation hypothesis, supporting factor, mechanistical interpretability, activation steering, input attribution, controllable generation, toxicity, multi-hop qa, linear representation, XAI, 논문리뷰, future lens, answer attribution, mechanistic interpretability, multitoken, patch patching, representation engineering, activation patching,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바