解析手法入門 第3回 ChIP-seqの原理と応用

ChIP-seqとは

クロマチン免疫沈降法(ChIP)では、細胞内でDNAとタンパク質が結合したままで、特異的な抗体を利用し免疫沈降を行います。これにより、転写因子やクロマチン関連タンパク質などが結合するゲノム領域を探索することができます。

ChIP-seqにおける簡単なフローチャートは次の通りです。

  1. 細胞をホルムアルデヒドで処理することによって細胞内でタンパク質とDNAを架橋
  2. 超音波処理によってクロマチンを200〜600 bpの小さな断片にせん断
  3. 目的のタンパク質に特異的な抗体を用いてDNA-タンパク質複合体を免疫沈降
  4. 脱架橋し、精製したDNAをsequencingする(illumina、Roche、ABI、Helicos等を使用)
  5. 標的タンパク質が結合しているDNA配列を決定

 

ChIP-seqのメリット・デメリット

メリット

・ChIP-on-chipと比較して、塩基対の分解能が良いと言われています。

最近の報告として、同じ実験をChIP-seqとChIP-on-chipで行った場合では、ChIP-seqで見られた生物学的に意味のあるピークがChIP-on-chipで不明瞭になったというデータがあります。

・必要なサンプル材料の量は少ないです。

Illuminaプラットフォーム上のChIP-seqについては、10~50 ngのDNAを使用することが推奨されています。さらに、ChIP-seqに必要な増幅ラウンド数が少ないため、PCRバイアスによるアーティファクトの可能性が低くなります。

デメリット

・コスト

いくつかのグループが、ライブラリー構築のための独自のプロトコールを開発して適用しており、大幅なコストダウンに成功しています。しかし、依然としてChIP-seqにはChip-chipと同レベルのコストがかかります。

実験設計上の注意

・ChIPデータは、使用される抗体の品質に大きく依存しています

高感度かつ特異的な抗体を使用すると、バックグラウンドと比較して高レベルの濃縮をもたらし、検出が容易になります。

多くの抗体が市販されており、いくつかはChIPグレードと記載がありますが、抗体の品質はさまざまであるため注意が必要です。

場合によっては、抗体と目的のタンパク質との反応性をウエスタンブロッティングで確認したり、類似タンパク質との交差反応性を検証したりする必要があります。

 

・ChIPの実験には、アーティファクト形成の原因となるステップが含まれています

ChIP-seqのピークは、コントロールサンプルの同じ領域と比較して、有意性を吟味する必要があります。

Input DNAとの比較は、可変溶解度、DNAのせん断および増幅に関連するバイアスを補正することができます。

 

・depth of sequencingの設定

Depth of sequencingは既知のリファレンスをカバーするリード数の平均値を指し、Coverageあるいは日本語では被服率と表現されることもあります。Depth of sequencingが大きいほど、リファレンスとリードのギャップは少ないということになります。

Depth of sequencingはアプリケーションごとに異なっています。

 

・データの再現性を確保するため、ChIP実験を反復する必要があります

ChIP-seqでは、抗体の利用やPCRによる定量を行う過程があるため、サンプル間のバラツキを考慮し、実験ステップの忠実性を検証するために反復実験が推奨されます。通常は合計2回の反復実験で十分です。

 

データ解析

・データ管理について

次世代シーケンシングは、これまでにないデータ量を生み出します。生データと画像は1マシンあたりテラバイト単位であるため、ゲノムデータの管理においてデータストレージが困難になります。また、ファイルサイズが大きいため、データ転送と保守が非常に複雑です。

この課題に対処するために、米国のバイオテクノロジー情報センター、欧州のバイオインフォマティクス研究所、日本のDNAデータバンクがSequence Read Archive (SRA)を開発しました。

 

ChIP-seqデータを利用した分析

・sequencing後の解析例

タンパク質に結合していたDNAのsequencing

ゲノムアラインメント

ピークコール

エンリッチ領域の検索

モチーフ検索、エンリッチ領域とゲノム構造の関係性、遺伝子発現との関係性、、、、etc

エンリッチ領域を検索したのちに、さまざまな生物学的な影響を分析することができます。

分析の例として、発現データとの関係によってChIP-seqパターンを分類することが挙げられます。

遺伝子の発現レベルが転写活性化因子の結合状態(ピークの高さや有無)と相関する場合、これは遺伝子がその活性化因子の標的であることを示している可能性があります。また、あるクロマチン標識が、高発現する遺伝子のプロモーターでエンリッチされている場合、それは転写活性化に関連すると推測することができます。

さらに、共通の特徴を有する遺伝子のグループ(例えば、同じ転写因子に結合する遺伝子または同じ修飾を有する遺伝子)について、それらの遺伝子が特定の分子機能または生物学的プロセスに関連しているかどうかを見るために、Gene Ontology分析を行うことが可能です。

このように、ChIP-seqにより得られるデータは新規の発見につながります。

 

・利用可能なソフトウェア

アライメントとピークコールには多くにはソフトウェア(アルゴリズム)を利用できます。いくつかのものは、統計情報言語Rのプラグインパッケージとして利用できます。

ソフトウェアの一例として、CisGenomeがあります。

単一のソフトウェアパッケージで利用可能なツールが、すべての分析ニーズを満たすとは言えない状況です。これは、実験設計が複雑である場合や高度な分析が必要な場合に特に当てはまります。したがって、ほとんどのゲノミクスプロジェクトでは、バイオインフォマティクスの専門家が研究チームのメンバーであることが不可欠だと言えるでしょう。

まとめ

ヒストン修飾およびヌクレオソーム位置の詳細なプロファイリングは、発生および分化におけるエピジェネティックなメカニズムの理解に繋がります。

ChIPは、転写カスケードを理解し、クロマチンでコード化された情報を解読するための主要なツールとなっています。そのような中でのChIP-seqの登場は、ヌクレオソームレベルでのクロマチン修飾のゲノムワイドな特定、および転写調節に関与するDNA配列エレメントの正確な同定においてに顕著な進展をもたらしている。

ChIP-seqデータを最大限有効活用するためには、他のデータ型との統合分析が不可欠です。

しかし、膨大なデータの取り扱いや統合分析の複雑さが大きな課題となっています。

この課題の解決策として、実験者とバイオインフォマティシャンとの連携が必要となりそうです。

参考論文

Nature Reviews Genetics volume 10, pages 669–680 (2009)