ChIP-seqの原理と応用

ChIP-seq

クロマチン免疫沈降法(ChIP)では、細胞内でDNAとタンパク質が結合したままで、特異的な抗体を利用し免疫沈降を行います。これにより転写因子やクロマチン関連タンパク質などに対応するDNAを分析することができます。

ChIP-seqにおける簡単なフローチャートは次の通りです。

細胞をホルムアルデヒドで処理することによってインビボでタンパク質とDNAを架橋

クロマチンは超音波処理によって200〜600bpの小さな断片にせん断

目的のタンパク質に特異的な抗体を用いてDNA-タンパク質複合体を免疫沈降

架橋を逆転させ、放出されたDNAをシーケンシングする(illumina、Roche、ABI、Helicos等を使用)

タンパク質に結合しているDNA配列を決定

ChIP-seqのメリット・デメリット

メリット

・ChIP-on-chipと比較して、塩基対の分解能が良いと言われています。

最近の報告として、ChIP-seqと同じ実験がChIP-on-chipで行われた場合では、ChIP-seqに見られる生物学的に意味のあるピークが不明瞭になったというデータがあります。

・必要なサンプル材料の量は少ないです。

Illuminaプラットフォーム上のChIP-seqについては、10~50ngのDNAを使用することが推奨されています。さらに、ChIP-seqに必要な増幅ラウンド数が少ないため、PCRバイアスによるアーチファクトの可能性が低くなります。

デメリット

・コスト

いくつかのグループが、ライブラリー構築のための独自のプロトコールを開発して適用しており、そのコストを大幅に下げています。しかし、ChIP-seqの全コストは、あらゆるケースにおいてChip-chipのコストに相当しているという現状があります。

実験設計上の注意

ChIPデータは、使用される抗体の品質に大きく依存しています

高感度かつ特異的な抗体を使用すると、バックグラウンドと比較して高レベルの濃縮をもたらし、検出を容易にします。

多くの抗体が市販されており、いくつかはChIPグレードと記載がありますが、抗体の品質はさまざまであるため注意が必要です。

場合によっては、抗体と目的のタンパク質との反応性をウエスタンブロッティングで確認したり、類似性タンパク質との交差反応性を検証したりする必要があります。

ChIPの実験には、アーティファクト形成の原因となるステップが含まれています

ChIP-seqのピークは、コントロールサンプルの同じ領域と比較して、有意性を吟味する必要があります。

入力DNAとの比較は、可変溶解度、DNAのせん断および増幅に関連するバイアスを補正することができます。

depth of sequencingの設定

depth of sequencingは、既知のリファレンスをカバーするリード数の平均値を指し、Coverageや日本語では被服率と表現されることもあります。Depth of sequencingが大きいほど、リファレンスとリードのギャップは少ないということになります。

Depth of sequencingはアプリケーションごとに異なっています。

データの再現性を確保するため、ChIP実験を反復する必要があります

ChIP-seqでは、抗体の利用やPCRによる定量を行う過程があるため、サンプル間のバラツキを考慮し、実験ステップの忠実性を検証するために反復実験が推奨されます。通常は2つの一致した反復実験で十分です。

データ解析

データ管理

次世代シーケンシングは、これまでにないデータ量を生み出します。生データと画像は1マシンあたりのテラバイト単位であるため、ゲノムデータの管理においてデータストレージが困難になります。また、ファイルサイズが大きいため、データ転送と保守が非常に複雑です。

この課題に対処するために、米国のバイオテクノロジー情報センター、欧州のバイオインフォマティクス研究所、日本のDNAデータバンクがSequence Read Archiveを開発しました。

ChIP-seqデータを利用した分析

シーケンシング後の解析例を示します。

タンパク質に結合していたDNAのシーケンシング

ゲノムアラインメント

ピークコール

エンリッチ領域の検索

・モチーフ検索

・エンリッチ領域とゲノム構造の関係性

・遺伝子発現との関係性

エンリッチ領域を検索したのちに、さまざまな生物学的な影響を分析することができます。

分析の例として、発現データとの関係によってChIP-seqパターンを分類することが挙げられます。

遺伝子の発現レベルが転写活性化因子の結合状態と相関する場合、これは遺伝子がその活性化因子の標的であることを示している可能性があります。また、クロマチン標識が高発現の遺伝子のプロモーターでエンリッチされている場合、それは転写活性化に関連すると推測することができます。

さらに、共通の特徴を有する遺伝子のグループ(例えば、同じ転写因子に結合する遺伝子または同じ修飾を有する遺伝子)について、特定の分子機能または生物学的プロセスがそれらの遺伝子に過剰発現しているかどうかを見るために、Gene Ontology分析を行うことが可能です。

このようにChIP-seqにより得られるデータは、発見に新規性をもたらします。

利用可能なソフトウェア

アライメントとピーク検出のアルゴリズムの多くにはソフトウェアが付いています。いくつかのものは、統計情報言語Rのプラグインパッケージとして利用できます。

ソフトウェアの一例として、CisGenomeがあります。

ソフトウェアについては、単一のソフトウェアパッケージで利用可能なツールがすべての分析ニーズを満たすとはいえない状況です。これは、実験設計がより複雑である場合や高度な分析が必要な場合に特に当てはまります。したがって、ほとんどのゲノミクスプロジェクトでは、バイオインフォマティクスの専門家が研究チームのメンバーであることが不可欠だと言えるでしょう。

まとめ

ヒストン修飾およびヌクレオソーム位置の詳細なプロファイリングは、発生および分化におけるエピジェネティックなメカニズムの理解に繋がります。

ChIPは、転写カスケードを理解し、クロマチンでコード化された情報を解読するための主要なツールとなっています。そのような中でのChIP-seqの登場は、ヌクレオソームレベルでのクロマチン修飾のゲノムワイド特徴付けおよび転写調節に関与するDNA配列エレメントの正確な同定においてに顕著な進展をもたらしている。

ChIP-seqデータを最大限有効活用するためには、他のデータ型との統合分析が不可欠です。

しかし、膨大なデータの取り扱いや統合分析の複雑さが大きな課題となっています。

この課題の解決策として、実験者とバイオインフォマティシャンとの連携が必要となりそうです。

参考論文

Nature Reviews Genetics volume 10, pages 669–680 (2009)



— Decoding Life, Creating Future —

エピゲノムで生き物のあたり前を超えていく

Rhelixaは自社のコアコンピタンスであるエピゲノム解析技術を応用し、ソフトウェア開発、検査技術の開発、お客様各々の目的に応じた研究開発のサポートを行っています。

効率的かつ効果的なエピゲノム解析を実現する上で、網羅的な大規模遺伝情報の取得が必要です。その際、最先端のゲノム配列決定装置である次世代シーケンサーが欠かせません。Rhelixaでは次世代シーケンサーを備えた専門のラボと、それを利用するためのノウハウを持った人材が揃っているだけでなく、解析を高速・高精度化する独自ソフトウェアを用いて、得られたデータを専門技術陣が解析いたします。