初投稿です。 - ヌルヌルコンピューター

当面の目標はDCGANモデルの性能向上。

https://arxiv.org/pdf/1511.06434.pdf で提示されたVanilla のDCGANだと、例えば

http://web.mit.edu/emeyers/www/face_databases.htmlの一覧にあるデータセットの
画像のように、ほぼ同じ特徴を持った物体が同じアングルで写っているような画像のみを含んだデータセットを用いてtrainingすれば、かなり綺麗な画像が生成される(Overfitting していると言えなくもないが)。

f:id:May-kwi:20171121162753j:plain — Aberdeen face dataset で5000 epochs学習後の生成画像

しかし、色形のさまざまな物体（例えば車）を被写体とした画像を含んだデータセットでは、生成された画像からその物体を識別するのは非常に困難となってしまう(頑張ってもなんか遠目に見てわからんでもないなーくらい)。

f:id:May-kwi:20171121163239j:plain — ポケットモンスターエメラルドのポケモンのスプライト画像をもとに9900 epochs学習したDCGANの生成した画像。遠目に見れば鳥ポケモンに見えなくもない。

人間であれば、車を描けと言われれば大抵の人間が(一部の並外れた「画伯」は別として)車の特徴をとらえた絵を描ける。

こうしたニューラルネットワークを用いた画像生成技術の一つの目標が人間を完全に模倣し、凌駕することにある以上、与えられたデータセットがどのような形式であろうが、それに共通する特徴を正確に認識し、その特徴を生成画像に反映するモデルを構築する必要がある。

DCGANの改良に関する研究はいくつかあるが、取り敢えずは

https://arxiv.org/pdf/1606.03498.pdf を実装してみようと思う(すでに論文著者がgithubで実装公開してるけど)。論文の要約は次回の記事で。