機械学習を用いた解析パラメータの最適化により世界最高精度のヒト全ゲノム解析システム実現へ

株式会社ExaScalerは、株式会社PEZY Computing、株式会社Infinite Curationと共同で開発した高速ゲノム解析システムにおいて、次世代シーケンサー[注1]から出力されたヒト全ゲノムデータを機械学習[注2]によって最適化された解析パラメータを用い、解析処理時間を大幅に増やすことなく極めて高い精度をもって解析しました。

機械学習におけるパラメータの最適化はゲノム解析を何度も繰り返して実行する必要がありますが、通常のゲノム解析システムでは1回の解析に十数時間以上の時間を要するため実現が困難でした。しかし本解析システムは非常に短時間でゲノム解析を完了させることができるため、非常に理想的な解析パラメータを短期間に見つけ出すことができました。

ヒト全ゲノム解析例:

データ

SNP F値

INDEL F値

実際の解析処理時間

100Gbp換算[注3]

処理時間

Precision FDA Truth Challenge V1

HG002 160Gbp

(illumina カバレッジ 53.5x )

0.9994 0.9967 約29分 約18分

この高速ゲノム解析システムは株式会社ExaScaler、株式会社PEZY Computingが共同で開発・製造した液浸冷却スーパーコンピュータZettaScaler-2.2の一部を利用しています。現在、ゲノム解析を専門とする研究者の方々にも外部から御利用いただけるようシステム整備を進めております。
また、今年リリース予定の新プロセッサPEZY-SC3を4基搭載した後継機ZettaScaler-3.0におきまして更なる高精度化と高速化を追求してまいります。

注1: 次世代シーケンサー(NGS)は、ランダムに切断された数千万~数億のDNA断片の塩基配列を高速同時並行的に読み出せる装置です。

注2: 機械学習は、コンピューターが大量のデータから反復的に学習し、タスクを遂行するためのアルゴリズムやモデルの特性を自動的に見出そうとする技術です。

注3: 100Gbp換算は、商用に利用される次世代シーケンサーが一度に生成する一般的なデータ量になります。

Press release 2021.02.10