本記事は執筆中ですが,先んじて公開します.
都度編集されますが,ご了承のほどよろしくお願いします。
とくに断りがない限り,図表は論文より引用.
基本情報
著者
Joshua Engels and Eric J. Michaud and Isaac Liao and Wes Gurnee and Max Tegmark
@misc{engels2024languagemodelfeatureslinear,
title={Not All Language Model Features Are Linear},
author={Joshua Engels and Eric J. Michaud and Isaac Liao and Wes Gurnee and Max Tegmark},
year={2024},
eprint={2405.14860},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2405.14860},
}
線形表現仮説(Linear Representation Hypothesis; LRH)というのがあるらしい.
- 訓練済みの大規模言語モデル(Large Language Model; LLM)の内部のすべての表現は1次元空間(直感的には直線上)に存在する.
- モデル状態はこれらの表現の単純なスパースな和?
概要
主な貢献
- 言語モデルの特徴の1次元の定義を多次元に拡張し,新しい特徴を考慮した多次元重な合わせ仮説を提案した.(第3章)
- スパースオートエンコーダーを用いて,既約な(irreducible)特徴を発見するフレームワークを提案した.
- 曜日や月の剰余演算を並べると円形になることを示した.因果的な表現として初?
語の定義
定義(特徴)
次元の特徴とは,入力空間の部分空間を 次元の点群への関数と定義する.この特徴は,部分空間上で活性化している,という.
入力トークン の確率分布による,特徴ベクトル 上に 次元の確率分布が誘導される.
既約性を確認する.
定義(既約性)
特徴 は次の条件を満たすとき,特徴 に分解可能であるという.
ここで, は直交行列,は定数.このとき,確率分布 は次のいづれかを満たす必要がある.
分布が独立である場合
特徴 がいづれの場合も満たさない場合,既約であるという.
ただし,既約性を確認するのが難しいため,既約性を測る指標を用意する.
定義(分離指標, 混合指標)
は相互情報量を表す.値が小さいほど,が可約である.
ここで,重ね合わせ仮説(superpostion)を次のように定式化する.
仮説1(1次元重ね合わせ仮説)[Elhage+ 2022]
隠れ状態 は多数のスパースな1次元特徴 の重ね合わせであり,相互に -直交なベクトル として書ける.
仮説2(多次元重ね合わせ仮説)今回の
隠れ状態 は多数のスパースな低次元既約特徴 の重ね合わせであり,相互に -直交な行列 として書ける.
要するに,既約にする操作とは,回転と平行移動した後に直交分解しているということ(と思われる).このとき,元の次元は規約後の2つの次元の和になるので,たしかに低次元な表現になっている.ただし,ここで分解後の基底は,情報理論的な意味でも独立的でなければいけない.実際には,内積の値が0(直交する)になるはレアなので,内積の値が で抑えらえるかどうかで緩やかな条件を作っている.