Not All Language Model Features Are Linearを読んで - 学も衒うし、奇も衒う

Not All Language Model Features Are Linearを読んで

本記事は執筆中ですが,先んじて公開します.

都度編集されますが,ご了承のほどよろしくお願いします。

とくに断りがない限り,図表は論文より引用.

 

 

基本情報

著者

Joshua Engels and Eric J. Michaud and Isaac Liao and Wes Gurnee and Max Tegmark

BibTeX

@misc{engels2024languagemodelfeatureslinear,
      title={Not All Language Model Features Are Linear}, 
      author={Joshua Engels and Eric J. Michaud and Isaac Liao and Wes Gurnee and Max Tegmark},
      year={2024},
      eprint={2405.14860},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2405.14860}, 
}

 

線形表現仮説(Linear Representation Hypothesis; LRH)というのがあるらしい.

  • 訓練済みの大規模言語モデル(Large Language Model; LLM)の内部のすべての表現は1次元空間(直感的には直線上)に存在する.
  • モデル状態はこれらの表現の単純なスパースな和?

概要

主な貢献

  • 言語モデルの特徴の1次元の定義を多次元に拡張し,新しい特徴を考慮した多次元重な合わせ仮説を提案した.(第3章)
  • スパースオートエンコーダーを用いて,既約な(irreducible)特徴を発見するフレームワークを提案した.
  • 曜日や月の剰余演算を並べると円形になることを示した.因果的な表現として初?

 

語の定義

定義(特徴)

 d_f 次元の特徴とは,入力空間の部分空間を \mathbb{R}^{d_f} 次元の点群への関数 fと定義する.この特徴は,部分空間上で活性化している,という.

入力トーク t の確率分布による,特徴ベクトル  f(t) 上に  d_f 次元の確率分布が誘導される.

既約性を確認する.

定義(既約性)

特徴  f は次の条件を満たすとき,特徴  a,bに分解可能であるという.

 f\mapsto Rf+c \equiv \pmatrix{a\\ b}  

ここで, R は直交行列, cは定数.このとき,確率分布  p(a,b)は次のいづれかを満たす必要がある.

分布が独立である場合

特徴  fいづれの場合も満たさない場合,既約であるという.

ただし,既約性を確認するのが難しいため,既約性を測る指標を用意する.

定義(分離指標, \epsilon 混合指標)

 S(f) = \text{min} I(a;b)

 I(- ; -)相互情報量を表す.値が小さいほど, fが可約である.

ここで,重ね合わせ仮説(superpostion)を次のように定式化する.

仮説1(1次元重ね合わせ仮説)[Elhage+ 2022]

隠れ状態  \mathbf{x}_i,l は多数のスパースな1次元特徴  f_i の重ね合わせであり,相互に  \delta -直交なベクトル  \mathbf{v}_iとして書ける.

仮説2(多次元重ね合わせ仮説)今回の

隠れ状態  \mathbf{x}_i,l は多数のスパースな低次元既約特徴  \mathbf{f}_i の重ね合わせであり,相互に  \delta -直交な行列  \mathbf{V}_iとして書ける.


要するに,既約にする操作とは,回転と平行移動した後に直交分解しているということ(と思われる).このとき,元の次元は規約後の2つの次元の和になるので,たしかに低次元な表現になっている.ただし,ここで分解後の基底は,情報理論的な意味でも独立的でなければいけない.実際には,内積の値が0(直交する)になるはレアなので,内積の値が  \delta で抑えらえるかどうかで緩やかな条件を作っている.