Tic-Tac-Toe (3目並べ) を行うプログラムを作成した。このプログラムは Q-learning [1]アルゴリズムによって学習を行う。 自ら両プレイヤを受け持つことによって紅白戦による学習を行うことができ、 また人間との対戦も行える。 人間との対戦や紅白戦を重ねることで Tic-Tac-Toe の知識を更新し、 ルールおよび勝ち方を学習してゆく。
プログラムが最初持っている知識は、
詳しい仕様については、第2章で述べる。
Q-learning により学習を行う Tic-Tac-Toe プログラム