学も衒うし、奇も衒う

Not All Language Model Features Are Linearを読んで

本記事は執筆中ですが,先んじて公開します.

都度編集されますが,ご了承のほどよろしくお願いします。

とくに断りがない限り,図表は論文より引用.

 

 

基本情報

著者

Joshua Engels and Eric J. Michaud and Isaac Liao and Wes Gurnee and Max Tegmark

BibTeX

@misc{engels2024languagemodelfeatureslinear,
      title={Not All Language Model Features Are Linear}, 
      author={Joshua Engels and Eric J. Michaud and Isaac Liao and Wes Gurnee and Max Tegmark},
      year={2024},
      eprint={2405.14860},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2405.14860}, 
}

 

線形表現仮説(Linear Representation Hypothesis; LRH)というのがあるらしい.

  • 訓練済みの大規模言語モデル(Large Language Model; LLM)の内部のすべての表現は1次元空間(直感的には直線上)に存在する.
  • モデル状態はこれらの表現の単純なスパースな和?

概要

主な貢献

  • 言語モデルの特徴の1次元の定義を多次元に拡張し,新しい特徴を考慮した多次元重な合わせ仮説を提案した.(第3章)
  • スパースオートエンコーダーを用いて,既約な(irreducible)特徴を発見するフレームワークを提案した.
  • 曜日や月の剰余演算を並べると円形になることを示した.因果的な表現として初?

 

語の定義

定義(特徴)

 d_f 次元の特徴とは,入力空間の部分空間を \mathbb{R}^{d_f} 次元の点群への関数 fと定義する.この特徴は,部分空間上で活性化している,という.

入力トーク t の確率分布による,特徴ベクトル  f(t) 上に  d_f 次元の確率分布が誘導される.

既約性を確認する.

定義(既約性)

特徴  f は次の条件を満たすとき,特徴  a,bに分解可能であるという.

 f\mapsto Rf+c \equiv \pmatrix{a\\ b}  

ここで, R は直交行列, cは定数.このとき,確率分布  p(a,b)は次のいづれかを満たす必要がある.

分布が独立である場合

特徴  fいづれの場合も満たさない場合,既約であるという.

ただし,既約性を確認するのが難しいため,既約性を測る指標を用意する.

定義(分離指標, \epsilon 混合指標)

 S(f) = \text{min} I(a;b)

 I(- ; -)相互情報量を表す.値が小さいほど, fが可約である.

ここで,重ね合わせ仮説(superpostion)を次のように定式化する.

仮説1(1次元重ね合わせ仮説)[Elhage+ 2022]

隠れ状態  \mathbf{x}_i,l は多数のスパースな1次元特徴  f_i の重ね合わせであり,相互に  \delta -直交なベクトル  \mathbf{v}_iとして書ける.

仮説2(多次元重ね合わせ仮説)今回の

隠れ状態  \mathbf{x}_i,l は多数のスパースな低次元既約特徴  \mathbf{f}_i の重ね合わせであり,相互に  \delta -直交な行列  \mathbf{V}_iとして書ける.


要するに,既約にする操作とは,回転と平行移動した後に直交分解しているということ(と思われる).このとき,元の次元は規約後の2つの次元の和になるので,たしかに低次元な表現になっている.ただし,ここで分解後の基底は,情報理論的な意味でも独立的でなければいけない.実際には,内積の値が0(直交する)になるはレアなので,内積の値が  \delta で抑えらえるかどうかで緩やかな条件を作っている.

The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Modelsを読んで

本記事は執筆中ですが,先んじて公開します.

都度編集されますが,ご了承のほどよろしくお願いします。

とくに断りがない限り,図表は論文より引用.

 

 

基本情報

著者

Anton Razzhigaev and Matvey Mikhalchuk and Elizaveta Goncharova and Ivan Oseledets and Denis Dimitrov and Andrey Kuznetsov

BibTeX

@misc{razzhigaev2024shapelearninganisotropyintrinsic,
      title={The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models}, 
      author={Anton Razzhigaev and Matvey Mikhalchuk and Elizaveta Goncharova and Ivan Oseledets and Denis Dimitrov and Andrey Kuznetsov},
      year={2024},
      eprint={2311.05928},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2311.05928}, 
}

EACL 2024.

 

概要

固有次元(Intristic Dimension ; ID)とは,多様体の持つ内在的な次元である.必要な本質的なパラメータ数と思っておけばよい.

主な貢献

  • トランスフォーマーデコーダの層ごとの異方性における特徴を明らかにした.
  • デコーダでは,トレーニングが進むにつれて異方性が徐々に増加することを確認した.
  • デコーダ埋め込みの内在次元における2段階の動態を特定した.初期段階では高次元空間への展開が見られ、続く段階で圧縮が進み、コンパクトな表現への移行を示した.

known fact

埋め込みの異方性

Transformerの埋め込みには異方性が確認されている.等方化によって精度が向上することも知られている.

実験方法

データセットWikipedia(enwiki8)を使用.

固有次元推定は[Facco+ 2018]を使用.

結果

学習の各段階におけるモデル内部の層の異方性の値.

異方性の値は特異値分解(SVD)を用いて定義される.

中心化した埋め込み行列Xに対してSVDを行い,特異値  \{\sigma_i\}_{i=1}^nを計算する.ここで異方性スコアは次の式で定義される.

 \text{anisotropy} = \frac{{\sigma_1}^2}{\sum {\sigma_i}^2}

この計算は,Xの共分散行列の固有値を考えても良い.

学習ステップに応じた固有次元の変化.

途中まで増加して,その後減少することが確認される.

推定方法を変えた結果.TwoNNは以前紹介した.



Intrinsic dimension of data representations in deep neural networksを読んで

本記事は執筆中ですが,先んじて公開します.

都度編集されますが,ご了承のほどよろしくお願いします。

とくに断りがない限り,図表は論文より引用.

 

 

基本情報

著者

Alessio Ansuini and Alessandro Laio and Jakob H. Macke and Davide Zoccolan

BibTeX

@misc{ansuini2019intrinsicdimensiondatarepresentations,
      title={Intrinsic dimension of data representations in deep neural networks}, 
      author={Alessio Ansuini and Alessandro Laio and Jakob H. Macke and Davide Zoccolan},
      year={2019},
      eprint={1905.12784},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1905.12784}, 
}

NeurIPS 2019.

 

概要

固有次元(Intristic Dimension ; ID)とは,多様体の持つ内在的な次元である.必要な本質的なパラメータ数と思っておけばよい.

 

主な貢献

  • CNNの層が進むにつれて,データ表現が低次元の多様体に埋め込まれることがわかった.これらの次元は,埋め込み空間の次元よりも小さい.
  • 層ごとの固有次元は,初期層で次元が増加し,最終層に向かって単調に減少することがわかった.
  • 訓練データの固有次元が最終隠れ層で低いほど,テストセットにおける分類精度が高いことが観察された.一方で,ランダムラベルを持つデータで訓練されたネットワークでは,固有次元が高く,一般化よりも記憶に依存していることが示された.

 

提案手法:2近傍法(Two-NN)

仮定

弱い仮定として,各データ点とその第2近傍との間のスケールで密度が一定であるとする.

 

データ点  x_i に対して,1番目に近い点と2番目に近い点との距離をそれぞれ, {r_i}^{(1)}, {r_i}^{(2)} とする.距離比を \mu_i = {r_i}^{(1)} / {r_i}^{(2)} とする.

 

利点

  • 曲がった多様体トポロジー的に複雑な構造,非一様な分布を持つサンプルにも適用可能.
  • ID推定値は非一様な確率分布から得られるサンプルに対しても漸近的に正確であり,特にd<20の場合に正確.ただし, の場合は,サンプル密度が非一様なときにやや過小評価されることがある.

GitHub上に具体的な実装がある.

github.com

 

実験結果

層ごとの固有次元の変化.縦軸が固有次元.

初期層で一度増加して,そこからは単調減少.この傾向はVGGやResNetなどアーテクチャに依らないことがわかっている.

 

データ表現の多様体は曲がっている.

入力データは多様体上に存在するという多様体仮説からいくと,ニューラルネットは平坦化して分離可能にすることが目標とされていた.しかし,今回の結果は固有次元を減少させることが重要である,という帰結を得ている.つまり,多様体の実質的な自由度こそが重要であり,構造の単純さ(平坦性)は重要ではないとしている(っぽい).

 

次の論文が気になる.

 

A. Achille and S. Soatto, “Emergence of invariance and disentanglement in deep representations,” The Journal of Machine Learning Research, vol. 19, no. 1, pp. 1947–1980, 2018.

P. P. Brahma, D. Wu, and Y. She, “Why deep learning works: A manifold disentanglement perspective.,” IEEE Trans. Neural Netw. Learning Syst., vol. 27, no. 10, pp. 1997–2008, 2016.

 

Geometrically Enriched Latent Spacesを読んで

本記事は執筆中ですが,先んじて公開します.

都度編集されますが,ご了承のほどよろしくお願いします。

とくに断りがない限り,図表は論文より引用.

 

 

基本情報

著者

Georgios Arvanitidis and Søren Hauberg and Bernhard Schölkopf

BibTeX

@misc{arvanitidis2020geometricallyenrichedlatentspaces,
      title={Geometrically Enriched Latent Spaces}, 
      author={Georgios Arvanitidis and Søren Hauberg and Bernhard Schölkopf},
      year={2020},
      eprint={2008.00565},
      archivePrefix={arXiv},
      primaryClass={stat.ML},
      url={https://arxiv.org/abs/2008.00565}, 
}

 

AISTAT 2020.

 

通常,入力空間などと書かれる  \mathcal{X} が ambient spaceと書かれている.調べてみると,数学用語らしい.

入力空間  \mathcal{X} におけるドメイン知識などの情報を反映した計量を入れる.これによって,生成モデルの制御性や解釈性が上がるらしい.

 

 

どんなもの?

この研究は,生成モデルの入力空間をリーマン多様体とみなし,計量を通してドメイン知識などを潜在空間に反映する手法を提案した.これにより,生成モデルがより解釈可能で,データ多様体の構造を尊重しつつ最短経路の補間を行えるようにする.この方法は,特定の特徴(ex:ブロンドヘアーなど)を避けたり,自然な補間を可能にするなど,生成モデルの出力をより細かく制御できる.

先行研究と比べてどこがすごい?

従来の生成モデル(GANやVAEなど)は,潜在空間の補間や生成過程において,ユークリッド計量を基にした補間や線形補間に依存していた.なので,これではデータの多様体構造を反映しにくい問題がありました.この研究は,生成過程にリーマン計量を導入することで,ドメイン知識を反映した経路や補間を可能にしている点が革新的.また、単なるユークリッド距離に依存せず,特定の特徴を避けるように設定したコストを考慮した補間ができる点も新しいアプローチとなっている.

技術や手法のキモはどこ?

キモは、生成モデルの潜在空間において、入力空間に導入したリーマン計量(例: RBFネットワークや局所分散に基づく計量)を利用することで、補間経路にドメイン知識や特定の制約を反映させられる点.

RBFカーネル.入力空間  \mathcal{X} において

 M_{\mathcal{X}}(x)=(a\cdot h(x)+\epsilon)\cdot \mathbb{I}

 h : \mathbb{R}^D \to \mathbb{R} h は適当なカーネル

今回は動径基底関数(RBF)カーネルが提案されている.

 h(x)=\sum_{i=0}^n w_i \text{exp}\left(-\frac{||x-c_i||^2}{2\sigma^2}\right)

 w_i はそのデータ点の重要度みたいな.  

局所分散に基づく計量.共分散行列の逆数として計量を定義する.

 M_{\mathcal{X}}(x)=\sum^{-1}

これにより,入力空間での高次の情報を潜在空間に引き継ぎ,生成モデルがより解釈可能で制御可能な出力を生成できる.また、生成モデルの不確実性に応じて計量を調整し,データが少ない領域を回避するように経路選択を行うなど,入力空間上の計量と潜在空間の制御を統合する工夫もポイント.

どうやって有効だと示した?

合成データや実データ(CelebAやMNIST)を使用した実験で,提案手法がドメイン知識やデータ構造に沿った経路選択や補間を行えることを示す.例えば,CelebAデータセットにおいて,金髪の領域を高コスト領域として設定し,そこを回避する経路を生成する実験を行い,提案手法が高コスト領域を避けることができることを確認した.

また,MNISTでは,特定の数字クラス(例: 0, 1, 3)に沿った経路や,そのクラスの領域を回避するような経路を設計し,生成結果に対して精度と再現率の評価を行い,提案手法の有効性を検証した.

 

議論はある?

提案手法の計量設定やコスト関数の設定は,特定のタスクやドメイン知識に強く依存するため,ドメインごとに適切な計量を設計する必要があり、一般化には限界がある.また,計量のパラメータ調整(例: RBFの帯域幅など)が結果に影響を与えるため,これらの調整がモデルの性能や経路選択にどのように影響するかについての議論や今後の課題が残る.さらに,この手法が学習フェーズでの最適化にどの程度効果があるかを示すための追加研究が求められる.

Geodesic Clustering in Deep Generative Modelsを読んで

本記事は執筆中ですが,先んじて公開します.

都度編集されますが,ご了承のほどよろしくお願いします。

とくに断りがない限り,図表は論文より引用.

 

基本情報

 

次の図はイメージ.自然なデータ多様体からランダムサンプリングした点群を考えると,潜在空間は大きく歪んでいるので距離を計算する際には注意が必要.

多様体に沿って距離を測ることが自然なのでは?→わかる.

 

Two-MoonやFashion MNISTなどのデータで検証.

 

測地線とは,多様体上の2点を結ぶ最短距離である.これを定義するには,計量が必要.前回の論文読みの結果より,生成関数  f: \mathcal{Z}\to \mathcal{X} のヤコビ行列で書ける.これは潜在空間  \mathcal{Z} の各点周りで局所的に定まる内積である.ただし, f は確率的なので,ヤコビ行列も確率的である.

測地線を求めるために,期待エネルギーを最小化する.この値は,長さに相当する.

 \bar{E} = \int_a^b \dot{c}_t^T J_z J_z^T \dot{c}_t \, dt

ただし, \dot{c}_t は速度である.二次形式であることに注意.

 

 

体積要素は,潜在空間上の局所的な広がりを測る指標として使える.具体的には,先ほど定義したリーマン計量の行列式で定義できる.

青が小さく,赤が大きい.直感的には値が小さい領域は,データが密集している可能性があり,逆も成り立つ.

曲率については,直感的には平行四辺形を作ったときに,どれだけ歪むか考えている値.

Accuracyが1なのヤバイ.

 

Zipfian Whiteningを読んで

本記事は執筆中ですが,先んじて公開します.

都度編集されますが,ご了承のほどよろしくお願いします。

とくに断りがない限り,図表は論文より引用.

 

 

基本情報

著者

Sho Yokoi and Han Bao and Hiroto Kurita and Hidetoshi Shimodaira

BibTeX

@misc{yokoi2024zipfianwhitening,
      title={Zipfian Whitening}, 
      author={Sho Yokoi and Han Bao and Hiroto Kurita and Hidetoshi Shimodaira},
      year={2024},
      eprint={2411.00680},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.00680}, 
}

Section1

一貫して主張されるのは,期待値を計算する際に単語頻度を意識したほうが良い,ということ.従来的な期待値の定義式は次の通り.

 \mathbb{E}_{x\text{~}p} \sum_{i} p(x_i)x_i

ここで,確率分布 pは一様分布である,と仮定される場合が多いが,実際はそうではないと経験的に知られている.

Section2

単語をTypeとTokenの2種類に分けて考える.TokenはTypeのインスタンス(コピー)という関係にある.たとえば,「perform natural language processing in a natural way」という文を考えると,ここには7種類のtypeと8種類のTokenがある.naturalが重複していることに注目しよう.

このような頻度に関する経験則はZipf則として知られている.詳しいことは,こちらの記事が参考になる.なお,脚注では,本論文の中で「Zipf則を非常に不均一な分布として扱う」と述べられている.

weeeeddie.hatenablog.com

先の話に戻ると,Typeの集合からランダムサンプリングするのと,Tokenの集合からランダムサンプリングすると結果が大きく異なる.

表1を眺めてみると,tokensからは数詞や冠詞が多いように見える.逆にtypesからは,日常ではまず聞かないような単語が選ばれている.

 

以下,事前分布を一様分布と仮定する場合,「一様な」「一様」などという接頭辞を付ける.また,Zipfian(べき分布)と仮定する場合,「Zipfian」などという接頭辞を付ける.

Section3

定理1,2として,対称なランダムベクトルの1次モーメントと2次モーメントについて述べられている.

意味的類似度を測るSTS-Bタスクで,既存の白色化手法よりも優れた結果.

1次モーメントの対称性は中心度の尺度.2次モーメントの対称性は等方性の尺度.

 \text{Sym1}(v) := 1 - \frac{\| \mathbb{E}(v) \|}{\mathbb{E}(\| v \|)}

 \text{Sym2}(v) := \frac{1}{\log d} H\left( \frac{\lambda_1}{\sum \lambda_j}, \ldots, \frac{\lambda_d}{\sum \lambda_j} \right)

Section4

Zipfianアプローチが,下流タスクで優れた結果を発揮するのか.要約すると、Zipfian事前分布は低頻度の単語を強調し、一方で一様事前分布は高頻度の単語を強調することにある.これをベクトルノルムや誤差/損失の観点から見ていく.

歴史的に見ても,Luhnの仮説,逆文書頻度(IDF),スムーズ逆頻度(SIF)などの手法は低頻度語を強調することは,情報検索や自然言語処理の分野で重要視されている.

 

ベクトルのノルムの観点から.

 

 

Zipfianモデルでは,情報量が多い単語ほど,より長い(強調された)ベクトル表現を持ちます.対照的に,一様モデルでは,情報量が少ないほど長い.情報量が少ないとは,高頻度な単語と思えばいい.例えば,「the」など.

 

定理1[Thm.1]

経験的なZipfian事前モデルで学習された単語ベクトルのノルムは,その単語の情報量を反映する.ノルムは L^2ノルム.

 \|w(t)\|^2 G(t) \approx 2 \, \text{KL}(p(\cdot) \| p(\cdot | t))
 G(t) := \sum_{t' \in V} p(t' | t)c(t')c(t')^\top

 G(w)は適当な計量(2-form).

証明としては,対数分配関数を指数型分布族に基づいて定義して,それの1次モーメントと2次モーメントを求める.KLを対数分配関数の二次形式で展開する.

図の縦軸はノルム,横軸は情報量.Zipfian白色化を行うと,情報量とノルムが対応していることがわかる.

 

差/損失関数の観点から

 

Zipfianモデルに基づく誤差や損失関数は低頻度語を強調するが,一様な事前モデルはデータセット全体にわたる平均損失に焦点を当てるため、高頻度単語がより強調される.

表現学習のための対照損失(Word2VecのSGNS損失など)はZipfianモデルに調整される.

 - \mathbb{E}_{(w, c)} \left(  \log \sigma(\langle w, c \rangle) \right) + \sum_{i=1,\dots,k} \mathbb{E}_{w'_i \sim p(w)} \left( \log \sigma(-\langle w'_i, c \rangle) \right)

 

Levy–Goldbergの等式は、理想的に訓練されたword2vecモデルの特性、すなわちZipfian事前モデルの特性を示しています。

Section5

Token埋め込みの一様白色化は,タイプ埋め込みのZipfian白色化と大体同じである.

 

Section6&Limitation

まとめと限界.

 

理論的な議論の上では,1次2次の項に注目し,高次項を無視してきた.そのため,高次モーメントの漸近的挙動の理解が必要かもしれない.

memo:次の論文なんか関係あるかも?

arxiv.org

 

付録

 

感想

すごく面白い論文だった.

いろいろなところをこの結果を持って,reisitしたらよさそうな気もする.

前回の『言語の固有次元を測る』に対しても,この手法を適用できたりしないだろうか.

言語の固有次元を測る、を読んで

本記事は執筆中ですが,先んじて公開します.

都度編集されますが,ご了承のほどよろしくお願いします。

とくに断りがない限り,図表は論文より引用.

 

https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/E6-1.pdf

 

基本情報

著者

上田亮、横井祥

BibTeX

 

どんなもの?

  • 言語の複雑さを固有次元という観点から整理した.
  • 言語が本質的にどのぐらいの次元(=必要なパラメータ数)で表せるかを考えた.
  • EmeComの立場からの考察が面白かった.

先行研究と比べてどこがすごい?

  • 多様体仮説は一般的に良く知られた概念であるが,言語に対してのそれはあまり聞いたことがなかった.
  • 固有次元という分析手法を知らなかった.

実験結果

コーパスとしてreuters,webtextを使用.ミニバッチ化する.

Two-NNを用いて次元を推定.

結果はかなり小さい値になっていることが観察できる.

 

個人的意見として,言語は300次元などの高次元な空間上の点ではないと思うが,言語の10次元以下と言われると,どうなのだろうという気がする.

また,多様体推定の方法は他にもいろいろあると思うので,他の方法との比較もみて見たいと思う.

関連話として,YANS2024では,人の言語を模倣する言語モデルの必要十分な大きさ,というテーマで発表があったが,とても面白いと思っている.