NNUEの比較ｰKristallweizenから水匠5まで

これまでの記事の続きです。

WCSC29で登場した有力な評価関数であるKristallweizen, elmo2019, GodWhale2019についても、他の評価関数群と合わせて総当たりを行いました。
上記評価関数の選出理由ですが、Kristallweizenについては水匠以前に主流であった評価関数であること、将棋連盟LIVE中継での勝率表示に使われていることが主な理由です。
他2つの評価関数については、qhapaq系、tanuki-系、水匠系の評価関数は既に十分選出されているため、他系統の評価関数が欲しかったという消極的なものになります。もっとも、elmo2019はゼロからの学習という点が特徴的です（当時ほとんどの評価関数がtanuki-からの追加学習であった）。

	成績	特徴	リンク
Kristallweizen	WCSC29 準優勝	tanuki-系、広く普及	GitHub – Tama4649/Kristallweizen: 第29回世界コンピュータ将棋選手権準優勝のKristallweizenです。
elmo2019	WCSC29 4位	ゼロから学習系今回は大会で使用された20190501版を測定	elmoの評価関数を公開します。デフォルトのNNUEです。大会版の他に今朝作成した評価関数も同梱しています。強くなっている気がするのですが有意差は無いかもです。 / Twitter
GodWhale2019	WCSC29 11位	tanuki-系、教師生成に用いた1年前のKPPT評価関数は当時の最強評価関数の一角	ダウンロード – クジラちゃんの駒箱 (garnet-alice.net) ※評価関数フォルダが同梱 Linux版の使い方 – クジラちゃんの駒箱 ※手順中のdownload.shから評価関数のみダウンロード第29回世界コンピュータ将棋選手権おわって: 将棋が強くなる方法(archive.org)※リンク切れにつきアーカイブURL

以下が結果になります。

レーティングのみはこちら

各評価関数のレーティングをグラフ化すると以下のようになりました。水匠5が頭一つ抜けているのはよりハッキリとしましたが、GodWhale2019もTSEC1の評価関数群と同等のレーティングになったのは意外でした。また、当時の測定でKristallweizenからレーティングが40程の低かったelmoについても概ね近い位置関係になっています。

以上で本条件でのNNUE評価関数の比較をいったん終わりにしたいと思います。
今回の取り組みでは1つの組み合わせにつき100局程度での対局でしたので、互角局面集をはじめとする様々なばらつきによって有利不利を受けた評価関数もあるかもしれません。
途中からはより局数を増やすべきだったと感じましたが、この持ち時間では100局でも2日程度かかり大変なものもありました。次の企画の際は、開始局面や持ち時間を変えて、より多くの局数をこなせるようにしたいと考えています。
以下に棋譜も公開しておきますので、前回の公開分と合わせて、戦型分析などしてみると面白いかもしれません。

追加分の棋譜
右クリックでダウンロード