勾配消失問題の対策

[テ206]
・ReLU等の活性化関数の使用 (tanh関数では不完全だった。Leakly ReLU関数等 [テ202-])
・バッチ正規化
・スキップ結合をネットワークに組み込む

ドロップアウトは、過学習の抑制 (勾配消失問題の対策ではない)。

ドロップアウトに似ている語の Random Erasing は、画像処理に用いられるデータ拡張の1手法で、画像の一部分の画素をランダムに決定した値に変更することで新しい画像を生成する [テ245]。

参考文献: ***は、ページ番号。
[テ***] 『深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト』第3版
[黒***] 『徹底攻略ディープラーニングG検定ジェネラリスト問題集』第3版

RandAugment

[黒397]
学習時に適用するデータ拡張手法を決定する戦略のひとつ。
あらかじめデータ拡張を行う手法の候補を決めておき、ミニバッチごとに一定数の手法を無作為に選び、一定の強さで適用する。
[黒337]
2019年に Google により発表。

参考文献: ***は、ページ番号。
[黒***] 『徹底攻略ディープラーニングG検定ジェネラリスト問題集』第3版

バイアス

[黒396]
・サンプリングバイアス: データの収集方法が適切でないなどにより、収集したデータがある範囲に偏ること。
・アルゴリズムバイアス: 学習済みモデルの予測値がある範囲に偏ること。
・露出バイアス [テ233]

関連:
・ドメインシフト: 新しく観測されるデータの分布が、訓練データの分布とずれること。

参考文献: ***は、ページ番号。
[テ***] 『深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト』第3版
[黒***] 『徹底攻略ディープラーニングG検定ジェネラリスト問題集』第3版

モデル圧縮

[黒396]
・プルーニング(枝刈り): 一度学習を行ったモデルのパラメータの一部を削除することで、パラメータ数を削減する手法。
・知識蒸留: 学習済みモデルと同じ出力を行うようにより小さなモデルを学習し、元のモデルと同等な精度を得ることを目指す手法。
・量子化: モデルのパラメータの数値計算の精度を下げる(=ビット数を削減 [テ326])ことで、モデルの容量を小さくする手法。

モデル圧縮ではない:
特徴量選択: モデルに入力する特徴量を削減すること。

[テ24]
特徴量: 対象を認識する際に注目すべき特徴を定量的に表したもの。

参考文献: ***は、ページ番号。
[テ***] 『深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト』第3版
[黒***] 『徹底攻略ディープラーニングG検定ジェネラリスト問題集』第3版

学習率・エポック

[黒391]
・学習率: ネットワークのパラメータを更新する度合を決定するハイパーパラメータ。
・エポック: 訓練データ全体に対する学習の反復回数を決定するハイパーパラメータ。訓練データ全体を用いる回数。

[テ187-189]
バッチ勾配降下法_バッチ学習_エポックとイテレーションの数は同じ。
確率的勾配降下法_オンライン学習_1エポック=訓練データ数 イテレーション

勾配降下法 鞍点問題対策:
モーメンタム→NAG→AdaGrad→AdaDelta→RMSprop→Adam→AdaBound→AMSBound [黒112]

参考文献: ***は、ページ番号。
[テ***] 『深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト』第3版
[黒***] 『徹底攻略ディープラーニングG検定ジェネラリスト問題集』第3版