【読書メモ】 Murphy Probabilistic Machine Learning: An Introduction ドラフトを読んだメモ
Probabiistic Machine Learning: An Introduction (Murphy) のドラフト(2021 Mar 8)をちろちろ読んだ感想を書き溜めてく。
1章 Introduction - 確率的アプローチを取る理由 1. 不確実性の元での決定にたいする効率的なアプローチ - 意思決定するのは人間である前提? (機械がするなら確率じゃない、Energy based modelのほうが良さそう) 2. 確率的モデリングは色んな分野で使われた統一的なフレームワーク - 帰納バイアス
Foundation
2章 Probability: univariate models
随分色々詰め込んでいた...
ヤコビアンとかの話は後半にいきそう
- 不確実性のタイプはその理由で2つに分けられる
- epistemic uncertainty (model uncertainty)... データの取得方法や背後に隠された原因や構造に起因するもの
- aleatoric uncertainty... 内在的な変動性に起因するもの。これはデータをより多く集めても改善することはできない
- ex) 公平なコインを投げた時、表が出る確率はp=0.5
- この区分けはactive learning等の応用で特に重要
- ex) H(p(y| x, data))が大きい時、model uncertaintyであるH(p(theta| data))が大きいのか、aleatoric uncertaintyである H(p(y|x, x, theta))が大きいのか。
- softplus 関数というものがあるらしい。
- glmで分散をモデリングする時のリンク関数とかにも使える
- https://www.atmarkit.co.jp/ait/articles/2004/22/news014.html
- 積分は「和」で、畳込みは「flip and drag operation」と捉えられる
3章 Probability multivariate models
- マハラノビス距離は「線形変換を通した、より低次元でのユークリッド距離」として考えられる
線形変換L s.t. Σ-1 = L'L, L: RD -> Rd (d ≦ D)
(y - μ)Σ-1(y - μ) = (Lδ)'(Lδ) = ||L(y - μ)||^2
- GMMを、逆問題を正則化するためのpriorとして用いる話は始めて聞いた
- GSM: Gaussian scale mixture ... x = εz, z ~ N(0, σ2), ε ~ p(ε)
- Berkson's paradox(コライダーバイアス)は初めて聞いた
4章 Statistics
相変わらずめちゃくちゃいろんな話題を詰め込んでいる。
- モーメント法は単純だけど、理論的にはすべてのデータをより効率よく使えるMLEのほうが好ましい。
- MLEは漸近的に最小分散であることとかが関係してるのかな
- モーメント法は計算が楽だから、MLEの初期値をモーメント法で算出するのは賢い
- EWMAなつかしい
- 式(4.86)がわからん
- 初期値を補正する式(4.87)知らなかった
- 正規分布の分散行列のMAP推定とMLEを比較したの、わかりやすかった
- 高次元になると分散行列の推定は特異になりがち
- 解決策としてのMAP推定
- 縮小推定
- Rigde推定は対角成分にλ'で影響を与える
- 事前分布にウィシャート(母数S = N*diag(Σ_mle))を使用した場合のMAP推定は対角成分以外を0に近づける
- 図がわかりやすい。MAP推定の行列のスペクトルはMLEのものより真の分散行列のスペクトルに近い。固有ベクトルは影響を受けない。
- 高次元になると分散行列の推定は特異になりがち
- 経験ベイズ
Method | Definition |
---|---|
最尤推定 | argmax_{θ} p(D|θ) |
MAP推定 | argmax_{θ} P(D|θ)p(θ|φ) |
ML-Ⅱ 経験ベイズ | argmax_{φ} ∫ p(D|θ)p(θ|φ) dθ |
MAP−Ⅱ | argmax_{φ} ∫ p(D|θ)p(θ|φ)p(φ) dθ |
Full-ベイズ | p(θ, φ| D) ∝ ∫ p(D|θ)p(θ|φ)p(φ) dθ |
- フィッシャー情報量はピーク時での曲率がどの程度きわだっているかを示す
- バイアスバリアンストレードオフは分類問題ではあまり役に立たないと書いている。。。
- 理由: バイアスとバリアンスが積の関係で組み合わさっているから
- うーむ、よくわからん