本記事の3つのポイント

  •  ゲノム配列取得(シークエンス)解読コストの大幅低下に伴い、疾患の特定や病態解明を目指すゲノム医療研究が進展
  •  これを加速するため、7000人を超えるゲノム情報を用いたプロジェクトが日本国内でスタート
  •  プロジェクトで得られた結果は、将来のゲノム医療に向けての基礎データになると期待される

 

 東北大学東北メディカル・メガバンク機構(ToMMo)、岩手医科大学いわて東北メディカル・メガバンク機構(IMM)、理化学研究所および東京大学医科学研究所は、共同研究を実施し、計7609人分のバリアントを含むバリアント頻度情報について、非制限公開データの GEM Japan Whole Genome Aggregation(GEM-J WGA)パネルとして、科学技術振興機構(JST)バイオサイエンスデータベースセンター(NBDC)のTogoVarより2020年7月27日から公開した。これらのデータは、ToMMoおよびIMMの持つ4495人分の全ゲノム配列(Whole Genome Sequence=WGS)5情報と、理化学研究所および東京大学医科学研究所が持つバイオバンク・ジャパン(BBJ)6の3114人分のWGS情報を合わせた計7609人分のWGS情報を用いてバリアント検知を実施して得られたもの。

 また、解析する際に得られた個人ごとのゲノム配列を参照ゲノム配列にマッピングした結果およびバリアント情報は、制限公開/制限共有データとして、国立遺伝学研究所生命情報・DDBJセンターのJGA/AGDより近日中(20年9月11日現在)に公開する予定である。

プロジェクトの背景

 現在、次世代シークエンサーを用いたゲノム配列取得(シークエンス)解読コストの大幅低下に伴い、患者の検体(血液・組織等)から採取したDNAより得られたシークエンスデータから疾患に関与するバリアントを探索するなど、疾患の特定や病態解明を目指すゲノム医療研究が進展している。また、その成果の積み重ねにより、がん領域では一般診療レベルでのゲノム医療が実現しつつある。

 ゲノム医療研究の研究協力者から取得した検体のWGS情報からは数百万個ものバリアントが検知されるが、これらのバリアントには疾患の原因となるバリアントと、疾患の発症における意義が不明なバリアント(VUS=Variant of Uncertain Significance)とが混在している。単一遺伝子疾患の解析においては、一般集団が必要となる。そのため、WGSによって得られたバリアントのアレル頻度データベースを整備することが望ましいと考えられている。

 また、生物集団の遺伝的多様性を反映するバリアントのアレル頻度を変化させる要因は突然変異、遺伝的浮動、移住、自然選択とされているが、バリアントの中でもアレル頻度の極めて低い(レアな)バリアントは集団内で浮動する(アレル頻度が変動する)ため、頻度フィルタには、研究協力者と同じ遺伝的背景を持つ集団からのアレル頻度データを用いることが望ましいと考えられている。さらに、遺伝的浮動と移住は地域の影響を大きく受けるため、単一の地域のみならず日本各地域から取得し、より一般集団を反映した情報を得ることは、日本のゲノム医療の実現に向けて極めて重要となる。

 また、アレル頻度情報は、疾患の原因となるバリアント同定について研究する際に、ほかの集団のアレル頻度と比較することにも利用されるが、バリアント検知には様々のツールが開発・利用されているため、国際的な標準手法を採用し比較可能なデータを作成することも重要である。さらに、WGSは全エクソームと比較してゲノムの翻訳領域においてバイアスの少ない結果をもたらすと報告されており、医療応用に向けて多くの研究者がデータを利用できるように、WGSをもとにしたバリアント頻度情報のデータベースの整備が、イントロン領域も含めた網羅的な遺伝子異常を検出することに役立つとされている。

難病・稀少疾患解明への国際的な貢献に期待

 WGSをもとにしたバリアント頻度情報の解析には、東北メディカル・メガバンク計画による宮城県と岩手県の一般住民を対象としたコホート調査への協力者4307人分のデータに加えて、生活習慣病患者群の検体を収集するために理化学研究所および東京大学医科学研究所によって実施されたオーダーメード医療実現化プロジェクトおよびオーダーメード医療の実現プログラムの両事業(バイオバンク・ジャパン)に参加協力する病院から集められた患者(協力者)2857人分、国立病院機構長崎医療センターにおける協力者188人、理化学研究所 生命医科学研究センターにおける協力者257人分のWGSデータが用いられた。

 これらのWGSデータから国際的に比較可能なデータを作成するため、ToMMo内のスーパーコンピュータを用いて、GATK Best Practicesに準拠した方法により、GRCh37の参照ゲノム配列へのマッピングおよびバリアント検知を実施した。

 その結果、常染色体で7676万8387個の一塩基多様性(Single Nucleotide Variation=SNV)、1020万2908個の挿入欠失配列(InsertionおよびDeletion=INDEL)が検知された。また、X染色体では289万8518個のSNV、41万435個のINDELが検知された。

 また、得られた個人ごとのバリアント情報をもとに国際1000人ゲノムプロジェクトを参照した主成分分析を実施し、遺伝的背景の確認を行った。さらに、個人ごとの遺伝的距離を比較することで、バリアント頻度情報のバイアスとなる近親者の排除といった品質管理を実施した。

 このプロジェクトは、関係機関の賛同・協力を得てAMEDが提案したプロジェクトであり、ゲノム情報や臨床情報の国際的なデータシェアリングを推進しているThe Global Alliance for Genomics and Health(GA4GH)の基幹プロジェクトである GEnome Medical alliance Japan(GEM Japan=GEM-J)の取り組みの1つである。日本人集団のバリアント頻度パネルを公開することにより、難病・稀少疾患解明への国際的な貢献に資することが期待される。

 バリアント情報の解析は、国際1000人ゲノムプロジェクトに始まり、gnomADなど、これまで多種多様な集団・集合体の解析がなされているが、特定の民族集団である日本において、精度の高いゲノム診断を行い、ゲノム医療を展開するためには、数万人規模以上のデータが必要となる。

 一方、グローバルなゲノム医療研究において、ヨーロッパ系のゲノムデータは多数公開されているが、東アジア系のデータは少ない状況である。東アジア人のゲノム診断を行うために、あるいは多民族でのゲノム診断の「フィルタ」を行うために、日本人を含む東アジア人のデータ共有が求められている。

10万人規模のバリアント頻度パネルに拡大へ

 同プロジェクトで得られた結果は、将来のゲノム医療に向けての基礎データになると期待されるほか、①頻度フィルタの精度向上による、難病・稀少疾患の原因バリアント同定精度の向上、②より人数が多い他の参照パネルとの比較によるレアハプロタイプ情報の取得、その取得によりレアバリアントのインピュテーション精度の向上などにも役立つことが期待されている。

 同プロジェクトの関連機関では、今回の成果を踏まえ、精度の高いゲノム診断やゲノム医療の進展に資することを目指し、国内で解析の進むWGSデータを集め、10万人規模のバリアント頻度パネルへの拡大を検討している。

電子デバイス産業新聞 大阪支局長 倉知良次

まとめにかえて

 世界規模でゲノム解析の研究が加速するなか、日本でも有数のプロジェクトがスタートしています。今回取り上げた共同研究もその1つです。得られた結果をもとに、一般診療レベルまで展開できるかどうか。今後の進展に期待が集まります。

電子デバイス産業新聞