Abstract
Cas9/CRISPR は原核生物および真核生物の細胞において標的遺伝子破壊や相同組換えを効率的に誘導することが報告されている. そこで、モデル生物用のCas9/CRISPRサイレンシングシステムのためのガイドRNA配列設計プラットフォームを開発した。 このプラットフォームは、クエリー配列を入力することで簡単にgRNAを設計することができます。 PAMによりターゲット候補を見つけ、ユニークさ、SNP、RNA二次構造、AT含有量などの要素によりランク付けを行います。 このプラットフォームでは、ユーザーが実験結果をアップロードして共有することができます。 また、論文に掲載されたほとんどのガイドRNA配列がデータベースに登録されている
1. はじめに
遺伝子工学技術は、ライフサイエンス研究において常にホットな話題となっています。 遺伝子改変技術の発展により、特定の遺伝子をノックアウトしたり、低いレベルにまでノックダウンすることができるようになりました。 ジンクフィンガーヌクレアーゼ(ZFN)やテールヌクレアーゼ(TALEN)の登場は、この分野の進歩を大きく促しましたが、その効率はしばしば予測できず、選択した遺伝子を標的とすることは困難です。
最近、Cas9/CRISPRが原核細胞と真核細胞の両方で、ZFNとTALENに比べて高効率に標的遺伝子破壊と相同組換えを誘導することが報告されました 。 さらに、Cas9/CRISPRシステムは、ガイド配列の設計が容易であり、使い勝手が良い。 しかし、Cas9/CRISPRサイレンシングシステムのガイドRNA設計のための利用可能なツールは存在しない。 Maliらは、40%以上のヒトエクソンをカバーするユニークな全ヒトゲノムガイドRNAライブラリの構築を報告したが、研究者が他のモデル生物のための新しい標的配列を設計するためのツールを提供していない。 gRNAの成熟過程に関する現在の理解では、gRNAの二次構造はCas9-gRNA複合体にとって重要である。 20bpのガイドRNA配列は、ゲノムの標的部位と結合するために使用されます。 もし、ガイドRNAの大部分がRNAループに関与している場合、標的部位との結合効率は低くなることが予想されます。 そのため、この要因を考慮する必要がある。 また、干渉効率は、gRNA-DNAハイブリッドの融解温度と密接に関係していると考えられます。 比較的高いAT含量はオフターゲット効果と負の相関があるため、AT割合が極端に低い配列はある程度推奨できない。 このツールは、研究者がより簡単にガイドRNAの候補配列を設計し、ユーザーが予備的な結果に基づいてより良い候補を選択できるよう支援する。 材料と方法
ガイドRNA配列とその対応する効率は、いずれも文献から手動で集め、我々のデータベースに保存されたものである。 ガイドRNAの設計には、主に5つのステップからなるJavaフレームワークを使用し、TomcatのWebサーバーに接続した。
最初のステップでは、N20NGG配列パターン原理(NGGはPAM配列を表す)に基づき、Javaの正規表現マッチングを用いて候補配列を見つける。 第二段階では、候補配列をすべてFastaファイルに格納し、Bowtie 0.12.9を実行して、選択したモデル生物のゲノム上に一意にマッピングできるかどうかをチェックします。 bowtieのパラメータは、”-f -v 1 -k 10 -l 16 -S “で、”-f “は入力がFastaファイルであることを伝え、”-v 1 “は最大1つのミスマッチのみを許容し、”-k 10 “は10個の良いアラインメントまで報告し、”-l 16 “は種の長さを16とし、”-S “はsam形式で出力することを指示しました。 対象領域の長さが23bpと短いため、bowtieのデフォルトのseed length 28はこのジョブには適していないため、16に調整した。 ミスマッチの数は効果に大きく影響すると考え、このステップではマッピングの一意性を確認することに主眼を置き、ミスマッチが1つ以下のヒットを探し、最大10ヒットを出力するようにしました。 マッピング結果はJavaで解析し、第3段階として、ターゲットゲノムがヒトhg19の場合、dbSNP135で報告されているSNPやインデルの重複を調べるために、tabix 0.2.5を呼び出すことになる。 dbSNP135 vcf ファイルは、GATK bundle からダウンロードしたものです。 第4ステップでは、Vienna RNAfold 2.0.7 をデフォルトパラメータで呼び出し、gRNA 候補配列の RNA 二次構造を予測します。 最後のステップでは、設計されたgRNAのすべての情報を再配置し、より見栄えのするHTMLにフォーマットしました。 また、AT%と標的領域の3′末端までの変異体の距離も計算されました。 出力されたgRNAは、マッピングヒット数と重複するSNPsの数の両方でソートされました。 このパイプラインの消費時間は、主にBowtieの実行と、ターゲット配列が多数存在する場合はTabixの実行で、1つのクエリー配列に対して約3秒であった。 結果と考察
複数の遺伝子配列で一括gRNA設計ができ、このプラットフォームのストリームラインを図1に示す。 この結果には、gRNAのゲノム位置とその中のSNP/INDELの情報が含まれています。 これにより、研究者はSNP/挿入/欠失を回避し、よりユニークなターゲット候補を選択することができます。 さらに、このプラットフォームでは、RNAの二次構造とATの含有量に基づいてすべての候補を評価するため、ユーザーはより良い候補を選択することができます(図2)
最近、Jiangらは、PAM近傍の最初の6塩基だけがバクテリアの認識効率に重要であることを報告している。 真核生物、あるいは哺乳類細胞でもこのようなことがあるかは不明である。 4346>
これらの結果をもとに、ユニークさ、SNP、ループ内の塩基などの要素について、我々のプラットフォームで検証を行った(表1、イタリック体は効率の低い標的を表す)。 SNPやループ内の塩基が少なく、ユニークであればあるほど、一般的にgRNAの効率は高くなります。 与えられた遺伝子PVALBの場合、最初のターゲット配列はSNPが0であるのに対し、残りの2つはSNPが3または2であるため、残りの2つよりも50%効率が高い。 また、RNA二次構造のループに関与する塩基対が少ないため、標的ゲノムとの結合率が高く、残りの2つはループに関与する塩基対が9個であるのに対し、1番目の標的配列はループに関与する塩基対が少ないため、標的ゲノムとの結合率が高くなります。 AAVS1という遺伝子の場合、1番目の標的配列は、他の2番目の標的配列に比べて、2倍以上効率が良い。 VEGFAという遺伝子は、SNPが1つであるのに対し、残りの2つは全くないため、最初のターゲットは残りの2つと比較して約半分の効率となります。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NDは検出できないを表す。 また、斜体文字は同一遺伝子グループ内で効率の低いgRNAを表す。 |
4. 結論
我々のプラットフォームは、モデル生物の与えられた配列内で、オフターゲット効果やSNPsを避け、効率的なgRNAサイトを特定する使いやすいソフトウェアである。 また、このプラットフォームでは、既存のガイドRNA/プロトスペーサー配列を検索し、その結果を共有することができる。
情報公開
オンラインプラットフォーム、データベース、およびドキュメントは、http://cas9.cbi.pku.edu.cn/で入手できます。 Ming Maはアイデアを考え、Adam Y. YeとWeiguo Zhengはプログラミングとウェブサイトの構築を行った。 Lei Kongは作業全体を監督し、指導を行った。 Ming Ma、Adam Y. Ye、Lei Kongは、論文の下書きをした。