January 16, 2024
【事例紹介】Ultra Large Scale Virtual Screening
ヒトAryl hydrocarbon receptor(AhR) antagonist 新規化合物の探索研究
国内製薬企業様よりご依頼いただいた、新規hAhR阻害剤の探索において、数億~数十億化合物規模の化合物ライブラリからAIとML手法を活用したStructure Based、Ligand Based双方の計算アプローチにてスクリーニングを実施した事例をご紹介します。
事前調査
ぜウレカでは通常お客様とNDA等を締結した後、ゼウレカにて特許や論文等の文献、各種データベースの調査と簡単なフィジビリティスタディなどを実施した上で、有効と思われる数パターンのプロセスフローをお見積もりと共にご提案いたします。(ここまで無償)
【Receptor】
hAhRの結晶構造は不明でhAhR PAS-B domain (Ligand Binding Site) は「軟らかい」タンパク
・タンパクの結晶構造取得が困難
・タンパクの柔軟性が種々の化合物を認識する
・リガンドごとにタンパクの構造 (holo体)が異なる
・SBVS(Structure Based Virtual Screening)で扱うには非常に難しいTarget
【Ligand】
AhRに何らかの作用を有する化合物群:約1万4千件(Fig. 1)
上記よりヒトagonist、antagonistに関するデータのみを抽出の後、リファレンスされている特許4件、文献2報を確認しデータ修正し、下記データセットを作成
・agonist:約700化合物
・antagonist:約3600化合物
・agonist/antagonist:約800化合物
Fig 1. 既知agonist, antagonist化合物のケミカルプロパティ(■:Agonist、■:Antagonist、■:Agonist/Antagonist)
スクリーニングフロー
事前調査の情報を基に、いくつかのスクリーニングフローをご提案させていただき、最終的に下記のようなLigand Based Virtual Screening (LBVS), Structure Based Virtual Screening (SBVS)の双方により化合物を選抜し、合成・アッセイによる確認を行う形でプロジェクトを推進させていくことになりました(Fig. 2)。
Fig 2. プロジェクトのプロセス
LBVSプロセス
本プロジェクトでは、複数のケモタイプからなる多数の既知antagonistが報告されていますので、それらを活用した機械学習によるantagonist判別モデルを作成し、スクリーニングを行っています。
【学習データの作成】
主には事前調査にて確認したデータを起点にActiveデータの収集を行います。ゼウレカではデータのクオリティコントロールとして各データのリファレンスにあたる特許や論文を確認し活性情報等に問題が無いかを確認しています。たとえキュレーションされた有償のデータベースから取得した情報であっても、データ登録時のミスなどで、間違ったアノテーションがされていることはしばしば起こります。その後活性値とケミカルプロパティの関係性やケモタイプの多様性などを確認し、antagonist判別モデルの学習データとして問題ないかの確認を行っています(Fig. 3)。
Fig 3. ケミカルスペースネットワークによるケモタイプの多様性の解析 (最大共通部分構造より化合物間の関連性を表現)
同時に、収集したActiveデータのケミカルプロパティの分布などを参考に、各種データベースなどからNegativeデータセットとするデコイデータの収集も行います。最終的にActiveデータとの(判別モデルで利用する特徴量の)類似度の分布などを参照しながら、有効な判別モデルを作成できるデータセットとなっているかを確認しています(Fig. 4)。
Fig 4. 各データセット間の化合物の類度分布(■:最大類似度、■:10番目の類似度、■:50番目の類似度、■:100番目の類似度)
【学習モデルの作成とスクリーニング】
データスプリットや特徴量、学習アルゴリズム、学習アルゴリズムのハイパーパラメータなど様々なケースにて学習データを作成します(Fig. 5)。一般的にはその後予測モデルの様々な性能指標を参照しながらモデルを選定しますが、大規模なスクリーニングを行う際には、機械学習の性能指標では判別しづらいモデルの差異があります。
ゼウレカでは性能指標にて一程度絞り込んだモデルに大規模ライブラリのダイバースセットによるプレスクリーニングを実施するケースがあります。本プロジェクトでは約60億の化合物ライブラリによるスクリーニングを行いますが、そのプレスクリーニングとして約4000万化合物のダイバースセットによるスクリーニングを行いました。各モデルのプレスクリーニングの結果を参照し、プロジェクトの目的に合ったモデルを選択します。今回は、できるだけ多様なケモタイプのHitを取得しつつ、合成する化合物数をできる限り絞りたい意図もあったことから比較して偽陽性の出にくいとおもわれるモデルを複数個選択し、ケミカルスペースを効率よくカバーする戦略としました。
その後、選抜したモデルを用いて大規模スクリーニングを実施し、その他の指標も織り込みながら数千化合物単位のリストを作成します。最終的に新規性や合成展開時にてSARを一程度簡略化できるかなど、また構造的な機微などメドケムの手によるレーティングを行った上で200ほどの合成候補リストを作成しています。
Fig 5. LBVSのプロセスフロー
SBVSプロセス
前述した通り、本プロジェクトのTargetであるhAhRは、そのLigandの構造によってタンパク側の構造も変化することが推測され、Structureベースのアプローチの難易度は高いものと考えられます。本プロジェクトでは、既知の代表的ないくつかのケモタイプをもつLigandにあう複合体モデルを複数作成し、それぞれにてスクリーニングを行った後、結果をマージする方針を立てました。
【タンパク質の3次元構造モデルの構築】
出発点としてhAhRの複合体の結晶構造も得られていない状況(プロジェクト実施時)においては、まずはたんぱく質の三次元構造モデルを構築することから行います。前述の方針を踏まえ下記のプロセスを経てモデル選択を行うこととしました。
・タンパクの構造をクラス分けし、代表的なモデルを複数用意する。
・既知antagonistの結合をDockingにて選抜できるかといった観点でモデルの評価を行う。
当初、文献(Nature Communications 13, 6234 (2022))をもとに6モデル作成 (ヒトHIF-2α, ショウジョウバエAhR(PDB: 7VNH)を鋳型として計算(MD)により構造最適化を実施)し、Dockingによるantagonist認識精度の検証を行った所、すべてのモデルが非常に低い精度を示しました。
その結果を解析し、特定の複合体構造や、AIにて生成したものなどの鋳型構造の追加したうえで、既知のAntagonistからケモタイプごとに複数個のリガンドを選択し、鋳型とリガンドの複合体を総計で100以上作成しました。その中から十数個の複合体の構造緩和(MD)を実施し、結合自由エネルギー等複数の指標にてSnapshotを抽出し、最終的には50個ほどのモデルに対しDockingによる評価を行いました(Fig. 6)。
Fig 6. 作成した3次元構造モデルの性能評価の例。左上、左下図の縦軸は化合物数、横軸はDockingスコア(左に行くほど良い)。再作成した3次元構造モデルでは、agonistやデコイデータが混在したデータでもDockingスコアの上位にantagonistが固まり、Dockingにてantagonist化合物を認識できるモデルとなっている。右図は左図それぞれのDockingによるantagonist認識精度を示すAUC。
【スクリーニング】
作成したモデルの中から、最終的に4モデルを選択し、各モデルに対して下図のようなフローにてスクリーニングを行いました。
Fig 7. SBVSのプロセスフロー
合成とアッセイの結果
LBVS、SBVSそれぞれのフローで選抜した化合物を合成し、LBVSにて選抜した化合物129個とSBVSで選抜した化合物109個に加え、ポジティブコントロールとして既知のhAhR antagonist活性化合物の阻害活性試験を行いました。
Fig 8. 合成とアッセイの結果
ポジティブコントロールより強い阻害活性が得られた化合物は、LBVS選抜化合物から25化合物 (7 scaffolds) 、SBVS選抜化合物から7化合物 (5 scaffolds) の計32化合物であり、1桁μMオーダー程度活性を持つ多様なスキャフォールドから高水準の確立でHit化合物が取得できています。
さいごに
ゼウレカでは、このようなHit Identificationのご提案から、Hit to lead、Lead optimizationに至るまで、皆様の創薬研究をご支援しています。フィジビリティスタディやin silicoアプローチによる有用性の検討を含むご提案までは無償で対応しておりますので、お気軽にご相談ください。また、たんぱくの構造生成のみや、ADMEプロファイルの予測モデルの構築のみといった個別のプロセスにフォーカスしたようなご相談もお受けしております。下記のコンタクトページよりお問い合わせください!
CONTACT | 株式会社ゼウレカ (xeureka.co.jp)