Ponder込みでのNNUE評価関数の比較

コンピュータ将棋の実力を測る指標としてレーティングというものがあります。

この分野についてはuuunuuunさんが大規模な調査を行ったサイトを開設し、現在はQhapaqの開発者さんが引き継いでいます
最近uuunuuunさんが近年のNNUE評価関数について、探索部を固定した総当り戦を実施し、レーティングを算出しました。

NNUE比較 | shogi-engines

上記の先行調査においては一つのPCでの計測のため、エンジンのPonderをONにできないという点がありました。
ちょうど良く同等の計算能力を持つマシンを複数台持っていたため、PC間での通信対戦を行いPonderをONにした場合でのレーティング算出を行うことにしました。
今回は練習も兼ねて、2020年の電竜戦~2021年の電竜戦エキシビジョンマッチの間に公開された評価関数を選び、レーティングを測定してみました。

説明公開時期リンク
水匠4改水匠 vs dlshogiで使用2021/8/26https://twitter.com/tayayan_ts/status/1430841384106299401
Grampus5_test05TSEC2で使用2021/7/22https://twitter.com/Grampus_ef/status/1418136094747496450
名人コブラTSEC2TSEC2で使用2021/7/18https://twitter.com/meijincobra/status/1416617194155167745
MolQhawcsc31で使用2021/7/18https://twitter.com/Qhapaq_49/status/1416605676026040323
Burning Bridge TSEC1TSEC1で使用2021/1/2https://twitter.com/floodgate_mania/status/1345357003921575936
tanuki-tsec1-e1TSEC1で使用2020/12/31https://twitter.com/nodchip/status/1344606260935577601
Wandre20201222TSEC1で使用2020/12/26https://twitter.com/ihme_vaeltaa/status/1342797331318493185
illqha6第1回電竜戦で使用2020/12/8https://twitter.com/_illqha/status/1336297207742414849

条件
使用マシン:Core i7-8700
搭載メモリ:8GB
探索部:やねうら王V6.50 トーナメント (Release配布版)
評価関数:上記を参照
Threads:12
USI_Hash:4096MB
USI_Ponder:True
MaxMovesToDraw:512
LargePageEnable:False
BookMoves:24
ConsiderBookMoveCount:True
ResignValue:1000
USI設定は上記と評価関数フォルダ名以外はデフォルト
各組合せで先後50局ずつ
持ち時間:5分+1手10秒加算
GUI:将棋所
山岡さんの公開された互角局面集をやねうら王を用いて定跡化したものを使用し、24手目から対局開始
レーティングはBurning BridgeをR4500に固定して計算、誤差は上下に25%信頼区間。
計算の際千日手・512手到達は引き分けとし、引き分けは0.5勝と計算
レーティング計算にはQhapaqさんのQRLサイトのスクリプトを使わせていただきました。

ResignValueが1000とレーティング測定で一般的な水準よりかは低めですが、テストをした限りではこのマシンスペックで100局程度では1000以上での逆転はありませんでした。そのため、1回の組合せで時間がかかることも考え、今回は1000としました。

対局結果は以下のようになりました。

表の見方ですが、各マスには下記例の様に最左列のソフトが最上段のソフトに対して何勝何分何敗したかが書かれています。(この場合Alphazeroがelmoに対して90勝2分8敗)

elmo-wcsc27/YaneuraOu V4.79 Tournament
AlphaZero 90-2-8

各組合せの対局数が少なく、どのような互角局面が使われたかにもよると思いますが、水匠4改が頭一つ抜けている印象があります。その次のグループにMolQha、Grampus5_test05、illqha6が位置していて、その次にMeijinCobra_TSEC2、Wandre20201222、BB-tsec1、tanuki-tsec1-e1となっています。
おおむね予想通りでしたが、illqha6が高いレートを出したのは驚きでした。
今後の課題として、相性問題や互角局面の偏りから組み合わせにおける対局数を増やす必要はありそうです。とはいえ時間もかかるので、対局における持ち時間を調整するかもしれません。

棋譜ファイル

コメント

タイトルとURLをコピーしました