Next:
B 主なモジュールと述語の説明
Up:
A 背景
Previous:
A.1 Q-learning
A.2 今回用いたパラメータ
今回は、Q-learning のパラメータ値を以下のように定めた。 Q-function の初期値および報酬を大きくとっているのは、 浮動小数点計算を避けることで処理を高速にするためである。
割引率
= 95% (0.95)
学習率
(但し
Step
は、初手からの手数)
Q-function 初期値
報酬値
100000, 0, -100000
Q-learning により学習を行う Tic-Tac-Toe プログラム