エピゲノム統合解析プラットフォーム

PEAKSシステムの開発

Rhelixaの開発した「PEAKSシステム」は、次世代シーケンサーより得られたエピゲノムデータの統合解析プラットフォームです。PEAKSは専属の計算生物学者のように、利用者の目的とデータに合わせた最適な情報解析を実現します。PEAKSエンジンは、以下の3つの機能で構築されています。

  1. エピゲノムデータの特徴量抽出:独自の機械学習アルゴリズムにより、対象となるエピゲノムデータの性質や精度を規定する特徴量を抽出します。
  2. 解析パイプラインの自動構築:データの特徴量に基づき、最適な解析パイプラインを自動で構築します。
  3. 高圧縮のデータ保管:独自の圧縮アルゴリズムにより、大容量のエピゲノムデータをコンパクトに収容・移送します。

PEAKS on Illumina Basespace

次世代シーケンサーの製造や販売、開発において世界で最大のシェアを持つイルミナ社が運用するクラウドシステム「Basespace」上に、ATAC-seqデータ解析用としては世界初のパイプラインとして「PEAKS.motif」を実装し、テスト稼働を開始しました。

PEAKS.motifではインプットされたATAC-seqデータに対して、優位なATAC-seqシグナル領域(主にエンハンサー/プロモーター)を絞り込み、その領域群に濃縮される転写因子のモチーフ配列を抽出します。モチーフ配列のパターンより、転写因子とそれらの間の関連性を予測します。

De novo配列モチーフ解析結果例:ATAC-seqピーク領域の配列データのみを用いたパターン抽出

結合モチーフのデータベース検索:既知の転写因子結合モチーフを出現優位性に基づき比較

転写因子結合モチーフの同時出現割合:de novo配列モチーフの同時出現優位性を評価

エピゲノム専用解析システムの実装

ChIP-Atlasの機能拡張

エピゲノム統合データベース「ChIP-Atlas」の機能拡張に向け、メイン開発者である九州大学医学研究院・発生再生医学分野の沖真弥助教と共同開発を行いました。ChIP-Atlasは公共に存在する多数のChIP-seqデータを同時比較し、特定の細胞状態における転写因子の共同作用やその結合領域の特徴を解析することが可能です。Rhelixaは、1)自然言語処理と機械学習を用いたキュレーション作業の半自動化、およびそのパイプライン構築、2)bisulfite sequencingデータの専用解析パイプラインの構築と組み込みを行いました。

(ChIP-Atlasの利用はこちらから。)

This post is also available in: 英語