- High-speed imaging of gel beads and cells in GEMs
- 細胞あたりのRNA量の推定
- 細胞調製
- GemCodeプラットフォームを用いたシーケンスライブラリ構築
- ERCC assay
- ddPCR assay
- 細胞捕獲効率の算出
- Chimerism assay
- Alignment, barcode assignment and UMI counting
- Jurkat 細胞と293T細胞の混合によるPCA解析
- SNV analysis of Jurkat and 293T scRNA-seq data
- PCA and tSNE analysis of PBMCs
- Identification of cluster-specific genes and marker-based classification
- Selection of purified subpopulations of PBMC
- 精製PBMCによる細胞分類解析
- Cell clustering and classification with Seurat
- 生鮮PBMCと凍結PBMCの比較
- SNV-based genotype assignment
- 純粋試料との遺伝子型比較
- PCA and tSNE analysis of BMMCs
- Data availability
High-speed imaging of gel beads and cells in GEMs
顕微鏡(ニコン Ti-E, × 10 objective)と高速ビデオカメラ(フォトロン SA5, frame rate=4,000 s-1)を用いてマイクロ流体チップで発生するすべてのGEMを画像化しました。 カスタム解析ソフトを用い、エッジ検出とビーズエッジおよびGEMエッジと隣接する液体とのコントラストから、生成されたGEMの数と各GEMに存在するビーズ数をカウントした。 解析結果を Fig. 1c にまとめた。 GEM内の細胞分布を推定するため、GEMのサブセットについて、1つのビデオの∼28kフレームについて手動によるカウントを行った。 その結果、ポアソン分布に近似していることがわかった。 しかし、複数の細胞がカプセル化される割合は期待値よりも16%高く、サブサンプリング誤差や細胞間相互作用(手動カウント中に2細胞の塊がいくつか観察された)に起因すると思われる(補足図)。 細胞株と移植患者サンプル
Jurkat (ATCC TIB-152)、293T (ATCC CRL-11268)、3T3 (ATCC CRL-1658) 細胞はATCCから入手し、ATCCガイドラインに従って培養した。 新鮮なPBMC、凍結PBMC、BMMCsはALLCELLS社から購入した。 ドナーAからの凍結PBMCは、1e6細胞を凍結培地(20%FBSを含むIscoveの修正ダルベッコ培地中の15%ジメチルスルホキシド(DMSO))中で穏やかに混合し、-80℃のCoolCell FTS30 (BioCision) で4時間以上冷却してから液体窒素に移して3週間保存して作成したものである。
Fred Hutchinson Cancer Research CenterのInstitutional Review Boardは、移植サンプルに関する研究を承認した。 従った手続きは1975年のヘルシンキ宣言とCommon Ruleに従った。 サンプルは、患者が分子解析について書面でインフォームドコンセントを行った後に入手した。 Fred Hutchinson Cancer Research Centerで同種造血幹細胞移植を受けたAMLの患者を特定した。 AMLの診断は世界保健機関の改訂基準に従って確定した33。
移植の20~30日前に標準的な臨床検査のために骨髄吸引を行い、治療プロトコルに従って移植後に連続的に骨髄を採取した。 骨髄吸引液のアリコートは、採取後2時間以内に処理された。 BMMCsは、Ficoll勾配(Histopaque-1077;Sigma Life Science, St Louis, MO, USA)による遠心分離を使用して単離された。 BMMCsは使い捨てのパスツールピペットで血清とフィコールの界面から集められ、1×PBS中の2%患者血清とともに50mlコニカルチューブに移された。 BMMCsは血球計数装置で計数し、トリパンブルーを用いて生存率を評価した。 BMMCsを90%FBS、10%DMSO凍結培地に再懸濁し、Thermo Scientific Nalgene Mr Frosty(Thermo Scientific)を用いて-80℃フリーザーで24時間凍結した後、液体窒素に移して長期保存した。
細胞あたりのRNA量の推定
複数の異なる既知数の細胞から抽出したRNA(Maxwell RSC simplyRNA Cells Kit)を定量(Qubit;Invitrogen)し、細胞種あたりのRNA量を決定した。
細胞調製
新鮮な細胞を採取し、1×PBSで洗浄後、1×PBSおよび0.04%ウシ血清アルブミンに1×106個/mlで再懸濁した。 新鮮なPBMCは、DMEM+40% FBS+10% DMSOに再懸濁し、CoolCell® FTS30 (BioCision) で-by ℃まで凍結し、液体窒素で保存した。
ALLCELLSと移植研究の凍結細胞瓶は37℃水浴で2分間急速解凍した。 バイアルは小さな氷の結晶が残った時点で取り出しました。 解凍したPBMCを培地で2回洗浄し、1×PBSと0.04%ウシ血清アルブミンに室温で再懸濁した。 細胞は、毎回300 r.c.f.で5分間遠心分離した。 解凍したBMMCsを洗浄し、1×PBSおよび20%FBSに再懸濁した。 解凍した細胞の最終濃度は1×106個/mlであった。
GemCodeプラットフォームを用いたシーケンスライブラリ構築
細胞懸濁液をGemCode Single-Cell Instrument (10x Genomics, Pleasanton, CA, USA) にロードしてシングルセルGEMを生成した。 GemCode Single-Cell 3′ Gel Bead and Library Kit (now sold as P/N 120230, 120231, 120232, 10x Genomics)を用いてシングルセルRNA-Seqライブラリーを調製した。 GEM-RT は C1000 Touch Thermal cycler with 96-Deep Well Reaction Module (Bio-Rad; P/N 1851197) で行った:55 ℃ 2 時間、85 ℃ 5 分、4 ℃で保温。 RT後、GEMを切断し、DynaBeads MyOne Silane Beads (Thermo Fisher Scientific; P/N 37002D) とSPRIselect Reagent Kit (0.6 × SPRI; Beckman Coulter; P/N B23318) で一本鎖cDNAをクリーンアップ。96-Deep Well Reaction Moduleを備えたC1000 Touch Thermal cyclerでcDNAを増幅した。 98 ℃、3 分、14 × サイクル:98 ℃、15 秒、67 ℃、1 分、72 ℃、1 分、4 ℃保持。 増幅されたcDNA産物をSPRIselect Reagent Kit (0.6 × SPRI)でクリーンアップした。 その後、Covaris M220 system (Covaris; P/N 500295)を用いてcDNAを約200 bpにせん断した。 GemCode Single-Cell 3′ Library Kitに含まれる試薬を用いて、以下の手順でインデックスシーケンスライブラリーを構築した。 (1) end repair and A-tailing; (2) adapter ligation; (3) postligation cleanup with SPRIselect; (4) sample index PCR and cleanup. バーコードシーケンスライブラリーは、定量PCR(KAPA Biosystems Library Quantification Kit for Illumina platforms P/N KK4824)により定量した。 シーケンスライブラリーは、2×75ペアエンドキットのIllumina NextSeq500に2.1pMで、以下のリード長:98bp Read1、14bp I7 Index、8bp I5 Index、10bp Read2でロードされた。 以前のライブラリは5 nt UMIで作成され、代わりに5 bp Read2が得られていた。
ERCC assay
ERCC synthetic spike-in RNA (Thermo Fisher Scientific; P/N 4456740) を1:10または1:50に希釈し、GemCode Single-Cell Instrumentにロードし、通常GEMを生成するために使用する細胞の代わりとした。 Spike-in Mix1とMix2の両方をテストした。 RTおよびcDNA増幅のために回収されたGEMはごく一部であったため、若干修正したプロトコルを使用した。 GEM-RT の終了後、エマルジョンの 1.25 μl を取り出し、Recovery Agent (125 μl) (P/N 220016) と 25 mM additive 1 (30 μl) (P/N 220074, 10x Genomics) の二相性混合液に添加する。 その後、回収剤を除去し、残った水溶液をSPRISelect Reagent Kit(0.8 × SPRI)で洗浄した。 96-Deep Well Reaction Module付きC1000 Touch Thermal cyclerを使用してcDNAを増幅した。 98 ℃、3 分、14 × サイクル:98 ℃、15 秒、67 ℃、1 分、72 ℃、1 分、4 ℃保持。 増幅されたcDNAは、SPRIselect Reagent Kit (0.8 × ) でクリーンアップし、Covaris M220システムで約200 bpにせん断し、10x Genomicsアダプターでサンプルインデックスライブラリーを構築した。 使用したERCC分子の量とサンプル希釈ファクターから、期待されるERCC分子数を算出した。 そのカウントを検出分子数(UMIカウント)と比較し、変換効率を算出した。
ddPCR assay
Jurkat 細胞を ddPCR assay で使用し、以下のように変換効率を見積もることができた。 (1)複数の異なる既知数のJurkat細胞から抽出したRNA(Maxwell RNA Purification Kits)を定量(Qubit、Invitrogen)してJurkat細胞あたりのRNA量を決定した。 (2) 抽出したRNAに対してBulk RT-ddPCR (Bio-Rad One-Step RT-ddPCR Advanced Kit for Probes 1864021)を行い、選択した8遺伝子の細胞あたりのコピー数を測定した。 (3) GemCode Single-Cell 3′プラットフォームを用いて約5,000個のJurkat細胞を処理し、「GemCodeプラットフォームを用いたシーケンスライブラリ構築」の項に記載のプロトコルに従ってGEMでRT後一本鎖cDNAを収集し、ddPCR (Bio-Rad ddPCR Supermix for Probes (no dUTP) P/N 1863024) で8遺伝子のcDNAコピーを決定した。 実際のJurkat細胞数は、GEM-RT反応のサブセットをMiSeqでシークエンシングすることにより求めた。 変換効率は、RT-ddPCR34の効率を50%と仮定し、細胞あたりのcDNAコピー数(ステップ3)とバルクRT-ddPCRからの細胞あたりのRNAコピー数(ステップ2)の比です。
ddPCRアッセイ用のプローブ配列は以下の通りです。 SERAC1_f, 5′-CACGAGCCGCCAGC-3′ およびSERAC1_r, 5′-TCTGCAACAGATGACGCAATAAG-3′; SERAC1_p: /56-FAM/CGCCTGCCG/ZEN/GCAGAATGTC/3IABkFQ/である。 AP1S3_f、5′-GAAGCAGCCATGTCTAAGC-3′およびAP1S3_r、5′-CCTGTCGACTGAAGCAATG-3′;AP1S3_p. /56-FAM/CGGCCCAGC/ZEN/CACGATGATACAT/3IABkFQ/ORである。 AOV1_f、5′-CCGGAAGTGGTCTCGTOR-3′およびAOV1_r、5-TTCTTCATAGCCTTCCCGATACCOR-3′;AOV1_p. /56-FAM/TCGTGATGG/ZEN/CGGATGAGGTTTCA/3IABkFQ/である。 DOLPP1_f、5′ATGGCAGCGACGGA-3′およびDOLPP1_r、5′GGCTCAGGTAGCAAGGA-3′;DOLPP1_p: /56-FAM/CCACGTCGA/ZEN/ATATCCTGCAGGTGATCT/3IABkFQ/である。 KPNA6_f、5′-TGAAAGCTGCCGCTGAAG-3′およびKPNA6_r、5′-CCCTGGCTCGCCAT-3′;KPNA6_p. /56-FAM/CGGACCCGC/ZEN/GATGGAGACC/3IABkFQ/である。 ITSN2_f、5′-GTGACAGGCTACGCAACAG-3′およびITSN2_r、5′-TCCTGAGTTTTCCTTGCTAGCT-3′;ITSN2_p. /56-FAM/AGGGCGCCA/ZEN/GATGGCTGA/3IABkFQ/である。 LCMT1_f、5′-GTCGACCCCGCTTCCA-3′およびLCMT1_r、5′-GGTCATGCCAGTAGCCAATG-3′;LCMT1_p. /56-FAM/ATGCTTCCC/ZEN/TGTGCAAGGTTTGC/3IABkFQ/である。 AP2M1_f、5′-GCAGCGGCAGACG-3′およびAP2M1_r、5′-ATGGCGCAGATCAGTCT-3′;AP2M1_p: /56-FAM/CATCGCTCT/ZEN/GAGAACAGACCTGGTG/3IABkFQ/.
細胞捕獲効率の算出
効率は、チップにロードされた細胞数に対する、シークエンスで検出された細胞数の比率を取ることで算出されます。 後者は、(添加量×細胞の投入濃度)から求められる。 細胞の投入濃度は、Countess II Automated Cell Counter (Thermo Fisher Scientific)を用いて決定した。
Chimerism assay
PowerPlex 16 System (Promega) を Applied Biosystems (Life Technologies) 3130xl Genetic Analyzer と共に使用した。
Alignment, barcode assignment and UMI counting
The Cell Ranger Single-Cell Software Suiteを使用して、サンプルデマルチプレックス、バーコード処理、シングルセル3′遺伝子カウント(http://software.10xgenomics.com/single-cell/overview/welcome)を実行した。 まず、8bpのサンプルインデックスリードをもとにサンプルデマルチプレックスを行い、Read1とRead2のペアエンドリード、および14bpのGemCodeバーコードのFASTQを生成した。 Read2からは10塩基対のUMIタグが抽出された(補足表1にあるように、以前の方法の反復により5bp UMIタグで14ライブラリーが作成された。 これらのサンプルについては、Read2から5bpのUMIタグを抽出した)。 次に、cDNAを挿入したRead1を、STAR35を用いて適切な参照ゲノムにアライメントした。 マウス細胞ではmm10、ヒト細胞ではhg19を使用した。 マウスとヒトの細胞が混在するサンプルは、hg19とmm10の和を使用した。 ERCCサンプルについては、ERCC reference(https://tools.thermofisher.com/content/sfs/manuals/cms_095047.txt)を使用した。
次に、GemCodeバーコードとUMIをフィルタリングした。 観察されたバーコードから1-ハミング距離離れたバーコードの既知のリストすべてが考慮される。 次に、観察されたバーコードの塩基性及び(全体のバーコード数分布から取られた)候補バーコードを観察する事前確率を与えて、観察されたバーコードが配列決定エラーによって作られた事後確率が計算される。 任意の候補バーコードの事後確率が少なくとも0.975である場合、そのバーコードは最も高い事後確率を有する候補バーコードに修正される。
シークエンス品質スコア>10のUMIは、ホモポリマーでなければ有効であるとみなされた。 Qual=10は90%の塩基判定精度を意味する。 同じセルバーコード、同じ遺伝子の別のUMI(より多くのリードを持つ)から1-Hamming-distance離れているUMIは、より多くのリードを持つUMIに修正されます。 この手法はJaitinら4とほぼ同じであり、Kleinら8と同様である(ただしKleinら8はマルチマップリードを解決するためにUMIも使用しており、ここでは実装していない)。
最後に、2セットのリードペアがバーコード配列、UMIタグ、遺伝子ID(Ensembl GTFs GRCh37.82, ftp://ftp.ensembl.org/pub/grch37/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh37.82.gtf.gz and GRCm38.84, ftp://ftp.ensembl.org/pub/release-84/gtf/mus_musculus/Mus_musculus.GRCm38.84.gtf.gz, used)を共有していればPCR重複をマークしている。 遺伝子-バーコードマトリックスを作成するために、Confidently Mapped (MAPQ=255) で、有効なバーコードとUMIを持つ非PCR重複のみを使用した。
細胞のバーコードはUMI数の分布に基づいて決定した。 同じオーダー内のすべての上位バーコード(>上位n番目のバーコードの10%、ここでnは予想回収細胞数の1%)を細胞バーコードとみなした。 意味のある情報を提供するリードの数は、4つのメトリクスの積として計算される。 (
マウスとヒトの混合実験では、multiplet rateは、マウスとヒトの両方で有意なUMIカウントを持つセルバーコードの割合の2倍と定義し、UMIカウントの上位1%を有意とみなした。 バーコードのクロストークの程度は、ヒトバーコード中のマウスリードの割合、またはその逆で評価した。
複数のチャンネルから処理したサンプルは、遺伝子-細胞-バーコードのマトリックスを連結することで組み合わせることができる。 この機能はCell Ranger R Kit(http://support.10xgenomics.com/single-cell/software/pipelines/latest/rkit)で提供されています。 複数のライブラリのシーケンスデータを、重複しないリードをカウントして結合することができます。 この機能はCell Rangerのパイプラインで提供されています。 また、細胞あたりのUMIカウント数を指定したサブサンプリングが可能です。 この機能はCell Ranger R Kitでも提供されており、複数のサンプルのデータを組み合わせて比較する際に便利です。
Jurkat 細胞と293T細胞の混合によるPCA解析
4つのサンプルそれぞれからの遺伝子-細胞-バーコードマトリックスを連結しました。 少なくとも1つの細胞でUMIカウントが検出された遺伝子のみが使用されている。 UMIの正規化は、まずUMIカウントを各細胞のUMIカウントの合計で割り、次に細胞間のUMIカウントの合計の中央値を乗じることにより行った。 その後、UMIカウントの自然対数をとった。 最後に、各遺伝子の平均シグナルを0、標準偏差を1とするように正規化し、正規化された遺伝子-バーコード行列に対してPCAを実行した。 各遺伝子の正規化UMIカウントは、tSNEプロットでマーカーの発現を示すために用いられる。
SNV analysis of Jurkat and 293T scRNA-seq data
SNVs calledは、Cell Rangerで作成したゲノムBAMに対してFreebayes 1.0.2 (ref.36) を走らせて実施した。 Jurkat細胞または293T細胞(両方ではない)でのみ観測された高品質なSNV(SNV calling Qual>=100, 少なくとも2つの細胞から少なくとも10 UMI counts; indelsは無視)を選択しました。 細胞は、Jurkat-および293T-特異的SNVカウントに基づいてJurkatまたは293Tとして標識され、ここで他の種からのカウントの割合は、<0.2である。 いずれかの種からのSNVの割合が0.2〜0.8である細胞は、マルチプレットとみなされる。
PCA and tSNE analysis of PBMCs
Genes with least one UMI count detected in least one cell is used.The inferred multiplelet rate is 2* observed multiplet rate (to account for Jurkat:Jurkat and 293T:293T multiplets). Macosckoらが用いたアプローチと同様に、平均と分散(分散/平均)に基づいて最も変動が大きい上位1,000遺伝子を特定した7。遺伝子は、その平均発現に基づいて20ビンに分類された。 正規化分散は、分散と発現平均の中央値分散との差の絶対値を、各ビン内の中央値絶対偏差で正規化したものとして計算される。
特徴(遺伝子)の次元数を減らすために、最も変動する遺伝子上位1000個の正規化遺伝子-バーコード行列に対してPCAが実行された。 UMIの正規化は、まずUMI数を各セルのUMI総数で割り、次にセル全体のUMI総数の中央値を乗算することで行われた。 次に、UMI カウントの自然対数をとった。 最後に、各遺伝子の平均信号が0、標準偏差が1になるように各遺伝子を正規化した。正規化された遺伝子-バーコード行列に対してPCAを実行した。 PCA実行後、t-SNE16のBarnes-hut37近似を最初の50個のPCに対して実行し、2次元空間における細胞を可視化した。 50個のPCを使用したのは、以下の理由からである。 (1)すべてのPCを使用するとt-SNE分析に非常に時間がかかること、(2)全分散の約25%を説明すること。 クラスタリング解析のために、細胞をグループ化するためにK-means15クラスタリングを実行した。k=10は、二乗誤差の合計のスクリープロット(補足図5d)に基づいて選択した。
Identification of cluster-specific genes and marker-based classification
特定のクラスタで豊富になる遺伝子を特定するには、クラスタのすべての細胞にわたって、それぞれの遺伝子の平均発現量を算出した。 次に、クラスターからの各遺伝子を、他のすべてのクラスター内の細胞からの同じ遺伝子の発現の中央値と比較した。 遺伝子はその発現量の差に基づいてランク付けされ、各クラスタから上位10個の濃縮遺伝子が選択された。 階層的クラスタリングでは、各クラスタ間のペアワイズ相関を計算し、各遺伝子の中央値発現をヒートマップで可視化した。
PBMCの分類は、クラスタ特異的遺伝子のアノテーションから推定した。 クラスタ10の場合、複数の細胞型(例えば、B、樹状突起、T)のマーカー発現が検出された。 B、樹状突起、Tの相対的なクラスタサイズはそれぞれ5.7%、6.6%、81%なので、クラスタ10(0.5%しかない)には主にB:樹状突起からなるマルチプレットが含まれると予想される(0.36%)とB:樹状突起:T(0.3%)である。
Selection of purified subpopulations of PBMC
精製PBMCのそれぞれの集団は、細胞あたり約16k readsにダウンサンプリングされた。 PCA、tSNE、k-meansクラスタリングは、PBMCのPCAおよびtSNE解析で概説したのと同じ手順で、ダウンサンプリングした各マトリックスについて実施しました。 ほとんどのサンプルでは、FACS解析と同様に1つのクラスタのみが検出された(補足図6)。 複数のクラスターを持つサンプルについては、期待されるマーカー遺伝子の発現を示すクラスターのみを選択し、ダウンストリーム解析に供した。 CD14+単球については、2つのクラスターが観察され、それぞれマーカー遺伝子FTLとCLEC9Aの発現からCD14+単球と樹状細胞と同定された。
精製PBMCによる細胞分類解析
精製PBMCのそれぞれの集団は、細胞あたり約16k信頼できるマッピングリードにダウンサンプリングされた。 その後、全細胞の平均的な遺伝子発現プロファイルを算出した。 次に、複合体集団の各細胞からの遺伝子発現を、スピアマンの相関によって、PBMCの精製集団の遺伝子発現プロファイルと比較した。 その細胞は、その集団と最も高い相関を示した場合、精製された集団のIDを割り当てられた。 なお、いくつかの細胞では、最高相関と2番目に高い相関の差が小さく(例えば、細胞傷害性T細胞とNK細胞の差)、これらの細胞では細胞の割り当てがそれほど確実ではなかったことが示唆された。 精製されたPBMC集団の中には、互いに重なり合うものもいくつかあった。 例えば、CD4+ T-ヘルパー細胞は、すべてのCD4+細胞を含んでいます。 これは、このサンプルからの細胞は、CD4+/CD25+ T reg, CD4+/CD45RO+ T memory, CD4+/CD45RA+/CD25- naive Tを含むCD4+細胞を含むサンプルからの細胞と重なることを意味します。したがって、相関スコアに基づきCD4+ T-helper cellのIDが割り当てられたとき、次に高い相関は、それがCD4+サンプルの一つかどうか確認されたました。 もしそうであれば、その細胞のIDは次に高い相関を持つ細胞タイプに更新されました。 同じ手順をCD8+細胞傷害性TとCD8+/CD45RA+ナイーブ細胞傷害性T(これはCD8+細胞傷害性Tのサブセットである)についても行いました。
68k PBMCと精製PBMCを分析するために使用したRコードは、ここで見つけることができます。 https://github.com/10XGenomics/single-cell-3prime-paper.
Cell clustering and classification with Seurat
68kPBMCの遺伝子-細胞-バーコード行列は、Seuratへの入力として対数変換された。 Seuratによって選択された上位469個の最も変動しやすい遺伝子を用いてPCを計算した。 最初の22個のPCは、組み込みのジャックストロー分析に基づいて有意(P<0.01)であり、tSNEの可視化に使用された。 細胞分類は、精製PBMCを用いた細胞分類解析より引用。
生鮮PBMCと凍結PBMCの比較
生鮮PBMC68k、凍結PBMC3kのシーケンスデータは、各サンプルが細胞あたり約14k信頼できるマッピングリードを持つようにダウンサンプリングされたものです。 精製PBMCと凍結PBMCの細胞分類の比較では、T細胞またはナチュラルキラー細胞とラベルされた細胞をすべて一緒にプールした。 これは、T細胞内およびT細胞とナチュラルキラー細胞間の亜集団は、個別にクラスタリングすることが困難な場合があるからである。
SNV-based genotype assignment
SNV は Cell Ranger で作成したゲノム BAM に対して Freebayes 1.0.2 (ref. 36) を実行し、呼び出されました。 少なくとも2つのセルバーコードからサポートがあり、最小SNV Qual score >=30, 最小SNV base Qual>=1のSNVのみを対象とした。 各SNVで参照(R)および代替(A)アレルカウントを計算し、細胞-参照UMIカウントおよび細胞-代替-アレルUMIカウントの行列を作成した。 これらの行列は、2つのゲノムの混合物としてモデル化され、ある部位における3つの遺伝子型(R/R、R/A、A/A)のいずれかの尤度は、固定誤差率0.1%の二項分布であるとされた。 各サンプルについて、1つのゲノムしか存在しない場合(K=1)と2つのゲノムが存在する場合(K=2)の2つのモデルを並行して推論した。 モデルパラメータ(細胞からゲノムへの割り当てとK組の遺伝子型)の推論は、Gibbsサンプラーを用いてその事後分布を近似することにより行われた。 混合モデルのモンテカルロ推定におけるラベルスイッチング問題を改善するために、Stephensら38
インシリコ細胞混合実験において、K=2モデルが2つのゲノムを適切に分離できない場合、細胞-ゲノムコールの事後確率分布は0.5付近となり、これらのコールの信頼性が欠如していると報告されている。 そこで、90%のセルが事後確率>75%であるという条件を適用し、K=1モデルよりもK=2モデルを選択することにしました。 K=1を選択することは、混合割合が本手法の検出レベル以下であることを示し、in silico混合実験では6,000細胞の4%と決定した。
純粋試料との遺伝子型比較
遺伝子型の個人への割り当てを確認するため、遺伝子型グループと純粋試料間で共有されるSNVのみを検討した。 そして、全細胞の平均遺伝子型を純粋サンプルの遺伝子型と比較した。 個体間の遺伝子型重複度の基準値を得るために、同一個体から呼び出した遺伝子型(11対比較)と異なる個体から呼び出した遺伝子型(15対比較)を一対一で比較したところ、同一個体から呼び出した遺伝子型の方が、個体間の遺伝子型重複度が高かった。 その結果、同一人物間の遺伝子型重複率は平均約98±0.3%、異なる個体間の遺伝子型重複率は平均約73±2%となった。
PCA and tSNE analysis of BMMCs
6サンプルのデータを用いた。 各サンプルは、細胞あたり10kリードまでダウンサンプリングされました。 その後、各サンプルの遺伝子-細胞バーコード行列を連結した。 PCA、tSNE、k-meansクラスタリングは、PBMCのPCAおよびtSNE解析で概説したのと同じ手順に従って、プールしたマトリックスに対して実施されました。 k-meansクラスタリングでは、二乗誤差の総和のscree plotの曲がり具合からK=10を用いた。
「クラスタ特異的遺伝子の同定とマーカーによる分類」で概説した手順に従って、クラスタ特異的遺伝子が同定された。 分類は、クラスター特異的遺伝子と、免疫細胞タイプのいくつかのよく知られたマーカーの発現に基づいて割り当てられた。 芽球および未成熟赤血球1」は、造血前駆細胞のマーカーであるCD3439と、初期赤血球のマーカーであるGata2が発現しているクラスター4を指している40。 未熟な赤血球2」とは、クラスター5と8を指し、赤血球生成に必須な転写因子であるGata1が発現しているが41、CD71は発現しておらず、より進行した赤血球細胞に多く見られる39。 Immature Ery 3」は、CD71の発現を示すクラスター1を指す。 Mature Ery」とは、クラスター2を指す。 成熟した赤血球のマーカーであるHBA1は、クラスタ2に優先的に検出される。 クラスター3は、AZU1やIL8(参考文献42)などの初期顆粒球マーカーが発現し、CD16が発現しないことから「未熟顆粒球」とした。 クラスター7は、CD14やFCN1が発現していることなどから、「単球」と割り付けられた。 B’は、CD19やCD79Aなどのマーカーがあるため、クラスター6と9を指す。 T」はCD3DやCD8Aなどのマーカーのため、クラスタ10を指す。
Data availability
すべての関連データは著者から入手可能である。 Single-cell RNA-seq データは、Short Read Archive にアクセッション番号 SRP073767 で寄託されています。 データはhttp://support.10xgenomics.com/single-cell/datasetsでも公開されています。 68k PBMC解析の解析コードはhttps://github.com/10XGenomics/single-cell-3prime-paper.
で公開されている。