●教師あり学習
[黒339]
・サポートベクターマシン
・ランダムフォレスト
・AdaBoost: ブースティング。(よく似た名前のAdaBound、Adamは、勾配降下法の手法) [黒341]
●教師なし学習
[黒339]
・k-means (階層無しクラスタリング [黒390])
・ウォード法
・協調フィルタリング、コンテンツベースフィルタリング
[黒369]
・トピックモデル
・次元削減(次元圧縮)
[黒390]
- 主成分分析(PCA, Principal Component Analysis)
- 特異値分解(SVD)
●強化学習
[黒348]
バンディットアルゴリズム (探索と活用 [黒390]、多腕バンディット問題 [黒72])
・UCB方策
・ε-greedy方策
価値関数
・SARSA: 行動価値関数(Q値)を最適化する手法 (DQNは不採用 [黒186])
・Q学習
DQN: 強化学習(の中でもQ学習)+ディープラーニング=深層強化学習 [黒359]
・Ape-X
・ノイジーネットワーク
方策勾配
・Actor-Critic ∋ A3C (Asynchronous Advantage Actor-Critic)
・REINFORCE: 方策勾配法 (強化学習のアルゴリズム。ディープラーニングは使用していない、即ち深層強化学習ではない [黒359])
→よく似た語(強化学習とは無関係) [テ284]
RLHF(Reinforcement Learning from Human Feedback): ChatGPT
→よく似た語
RNNでの 教師強制: 前の時刻の出力に対応する教師データを現在時刻の入力として用いる手法 ([黒385])
参考文献: ***は、ページ番号。
[テ***] 『深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト』第3版
[黒***] 『徹底攻略ディープラーニングG検定ジェネラリスト問題集』第3版