LINCの取り組みの1つが、「タンパク質の働きを制御できる化合物を設計する」部分のAI化である。実験的アプローチの場合は、過去の文献をもとに例えば100種類の化合物を合成し、それぞれがタンパク質と結合するかどうかを実験により確認する。活性の高い化合物があれば、その構造を残しつつ新しい化合物を合成する。これを繰り返すことにより、活性の高い化合物を作り出す。
一方AI創薬においては、どのようなタンパク質と化合物が結合するかという過去の実験データを学習させ、それを元に未知のタンパク質と化合物の結合しやすさを判断させる。ここでは、タンパク質や化合物がレンブラントにおける絵画データにあたる。
タンパク質や化合物の特徴量の表現方法には、さまざまなものがある(図3)。
化合物は例えば分子量や親油性指標、各原子の数などの構造に由来する数値や物性値を用いる。タンパク質については20種類のアミノ酸の組み合わせによってできているため、配列中にアラニン-アラニンの接続が72%といった数値を用いる。そしてあるタンパク質と化合物をセットにした場合、結合するデータセットと結合しないデータセットを機械学習することによって、結合するという場合の特徴量を自動で見つけ出してスコア化する。
実際に機械学習を行った上で、新たな631種のタンパク質と3千万種の化合物についてスパコン「京」で計算した結果の一部が図4である。
左側のグラフは横軸がキナーゼとよばれるタンパク質388種、縦軸が化合物500種である。赤い点が活性のある組み合わせ、青い点が活性のない組み合わせになる。右側のグラフは実験データで、白は実験データのない領域になる。実験値がなくても、右の図で赤くなっている領域は活性のあることが予測できる。
Copyright © ITmedia, Inc. All Rights Reserved.