【読書メモ】 Murphy Probabilistic Machine Learning: An Introduction ドラフトを読んだメモ

Probabiistic Machine Learning: An Introduction (Murphy) のドラフト(2021 Mar 8)をちろちろ読んだ感想を書き溜めてく。

1章 Introduction - 確率的アプローチを取る理由 1. 不確実性の元での決定にたいする効率的なアプローチ - 意思決定するのは人間である前提? (機械がするなら確率じゃない、Energy based modelのほうが良さそう) 2. 確率的モデリングは色んな分野で使われた統一的なフレームワーク - 帰納バイアス

Foundation

2章 Probability: univariate models 随分色々詰め込んでいた...
ヤコビアンとかの話は後半にいきそう

不確実性のタイプはその理由で２つに分けられる
1. epistemic uncertainty (model uncertainty)... データの取得方法や背後に隠された原因や構造に起因するもの
2. aleatoric uncertainty... 内在的な変動性に起因するもの。これはデータをより多く集めても改善することはできない
  - ex) 公平なコインを投げた時、表が出る確率はp=0.5
3. この区分けはactive learning等の応用で特に重要
  - ex) H(p(y| x, data))が大きい時、model uncertaintyであるH(p(theta| data))が大きいのか、aleatoric uncertaintyである H(p(y|x, x, theta))が大きいのか。
softplus 関数というものがあるらしい。
- glmで分散をモデリングする時のリンク関数とかにも使える
- https://www.atmarkit.co.jp/ait/articles/2004/22/news014.html
積分は「和」で、畳込みは「flip and drag operation」と捉えられる
- https://mathlets.org/mathlets/convolution-flip-and-drag/

3章 Probability multivariate models

マハラノビス距離は「線形変換を通した、より低次元でのユークリッド距離」として考えられる

線形変換L s.t. Σ^-1 = L'L, L: R^D -> R^d (d ≦ D)
(y - μ)Σ^-1(y - μ) = (Lδ)'(Lδ) = ||L(y - μ)||^2

GMMを、逆問題を正則化するためのpriorとして用いる話は始めて聞いた
GSM: Gaussian scale mixture ... x = εz, z ~ N(0, σ²), ε ~ p(ε)
- multiplicative noise をガウス分布の確率変数zに適用したと考えられる x|ε ~ N(0, ε²*σ²)
- ロバスト統計とかで使える ex) 人によって誤差が違う場合とか
- 詳しくは11章
- GSMとしてのt分布, ラプラス分布
Berkson's paradox(コライダーバイアス)は初めて聞いた
- 後から調べたら合流点バイアスだった、なんだ
- 良さげなリンク

4章 Statistics
相変わらずめちゃくちゃいろんな話題を詰め込んでいる。

モーメント法は単純だけど、理論的にはすべてのデータをより効率よく使えるMLEのほうが好ましい。
- MLEは漸近的に最小分散であることとかが関係してるのかな
- モーメント法は計算が楽だから、MLEの初期値をモーメント法で算出するのは賢い
EWMAなつかしい
- 式(4.86)がわからん
- 初期値を補正する式(4.87)知らなかった
正規分布の分散行列のMAP推定とMLEを比較したの、わかりやすかった
- 高次元になると分散行列の推定は特異になりがち
  - 解決策としてのMAP推定
- 縮小推定
  - Rigde推定は対角成分にλ'で影響を与える
  - 事前分布にウィシャート(母数S = N*diag(Σ_mle))を使用した場合のMAP推定は対角成分以外を0に近づける
    - 図がわかりやすい。MAP推定の行列のスペクトルはMLEのものより真の分散行列のスペクトルに近い。固有ベクトルは影響を受けない。
経験ベイズ
- 事後推論はモデルによっては計算が大変なので、何らかの近似を用いる手法が色々ある
- 経験ベイズはハイパーパラメタを周辺尤度を最適化するように選んだ後、そのハイパラを用いて事後分布の推定を行う。
  - これは、データがありそうなところに事前分布を寄せることになる
  - MLEよりは過学習しにくい。
- 複数の手法を表にすると以下のようになる。下にいくほど、よりベイズっぽくなる。

Method	Definition
最尤推定	argmax_{θ} p(D\|θ)
MAP推定	argmax_{θ} P(D\|θ)p(θ\|φ)
ML-Ⅱ 経験ベイズ	argmax_{φ} ∫ p(D\|θ)p(θ\|φ) dθ
MAP−Ⅱ	argmax_{φ} ∫ p(D\|θ)p(θ\|φ)p(φ) dθ
Full-ベイズ	p(θ, φ\| D) ∝ ∫ p(D\|θ)p(θ\|φ)p(φ) dθ

フィッシャー情報量はピーク時での曲率がどの程度きわだっているかを示す
バイアスバリアンストレードオフは分類問題ではあまり役に立たないと書いている。。。
- 理由: バイアスとバリアンスが積の関係で組み合わさっているから
- うーむ、よくわからん