一般注記情報検索分野で発展してきたランク学習手法が,リガンドベースのバーチャルスクリーニング (LBVS) に活用されている.ランク学習は順序関係を学習する機械学習の枠組みであり,異なる環境の実験データを統合するのに適しているという利点が注目されている.我々の取り組みで,複数の環境のアッセイデータが得られる状況において,新規標的に対するランキング予測が回帰モデルよりも予測精度の面で優れていることを明らかにした.しかし,標的と同ファミリーのタンパク質や標的そのものに関するアッセイ情報が全く無い,あるいは少し存在するなどの様々な状況下において LBVS にランク学習が適しているかは未知であった.また,従来研究で用いられていた NDCG (Normalized Discounted Cumulative Gain) 指標は他のモデルと比較して優れているかのみを評価するため,予測モデルがランダムな結果よりも悪い結果を出したかどうか考慮できないという問題があった.本研究は,多様なアッセイ情報の保有状況を想定した学習データを用いて,ランク学習手法の LBVS 性能を検証した.結果として,ランク学習手法はランキング予測において回帰と同等以上の予測精度であり,特に標的と関連するアッセイが複数存在する状況でランク学習のデータ統合が有効である可能性が示唆された.さらに,ランダムな予測を基準とした予測性能を評価する目的で新たに提案したランキング指標「Normalized Enrichment Discounted Cumulative Gain (NEDCG)」が,複数のテストデータについて予測結果の良し悪しを評価するのに適していた.
identifier:oai:t2r2.star.titech.ac.jp:50622567
連携機関・データベース国立情報学研究所 : 学術機関リポジトリデータベース(IRDB)(機関リポジトリ)