Joeの精進記録

旧:競プロ練習記録

Neural Combinatorial Optimization with Reinforcement Learning

Euclidean TSPをやって、100頂点程度までなら最適解を出せた、という研究

この先行研究は1990年代とかでかなり古いっぽい。

入力は、2次元平面上の n点の座標で、出力は {1, 2, \ldots, n}のpermutation.

RLで、policy  p(\pi | s)を学習するっぽい。

条件付き確率で分解する。

f:id:xuzijian629:20191222161236p:plain

ただし \pi ( \lt i)は先頭 i - 1個のpermutationを指す。

グラフの頂点数 nが違う場合にでも対応できるように、pointer networkというものを使っているっぽい。

とりあえずQiitaの記事があったけど、入力サイズが可変なときに対応できるらしい。

https://qiita.com/ymym3412/items/c84e6254de89c9952c55

意味不明なのでとりあえずここで終了

感想

policy based RLであることは我々の手法と同じだがさすがに時代が違いすぎてやっていることが違いすぎるのであんまり関係なさそう

結果も100頂点なのは小さすぎる