banner
Heim / Nachricht / Korrespondenzanalyse zur Dimensionsreduzierung, Batch-Integration und Visualisierung einzelner
Nachricht

Korrespondenzanalyse zur Dimensionsreduzierung, Batch-Integration und Visualisierung einzelner

May 16, 2023May 16, 2023

Scientific Reports Band 13, Artikelnummer: 1197 (2023) Diesen Artikel zitieren

3634 Zugriffe

1 Zitate

20 Altmetrisch

Details zu den Metriken

Eine effektive Dimensionsreduzierung ist für die Einzelzell-RNA-seq-Analyse (scRNAseq) unerlässlich. Die Hauptkomponentenanalyse (PCA) ist weit verbreitet, erfordert jedoch kontinuierliche, normalverteilte Daten; Daher ist es in scRNAseq-Anwendungen häufig mit einer Protokolltransformation verbunden, die die Daten verzerren und sinnvolle Variationen verschleiern kann. Wir beschreiben die Korrespondenzanalyse (CA), eine zählbasierte Alternative zur PCA. CA basiert auf der Zerlegung einer Chi-Quadrat-Restmatrix und vermeidet verzerrende logarithmische Transformationen. Um Überdispersion und hohe Sparsität in scRNAseq-Daten zu bekämpfen, schlagen wir fünf Anpassungen von CA vor, die schnell und skalierbar sind und Standard-CA und glmPCA übertreffen, um Zelleinbettungen mit höherer Leistung oder vergleichbarer Clustergenauigkeit in 8 von 9 Datensätzen zu berechnen. Insbesondere stellen wir fest, dass CA mit Freeman-Tukey-Residuen in verschiedenen Datensätzen besonders gut abschneidet. Zu den weiteren Vorteilen des CA-Frameworks gehören die Visualisierung von Zusammenhängen zwischen Genen und Zellpopulationen in einem „CA-Biplot“ und die Erweiterung auf eine Analyse mit mehreren Tabellen. Wir führen Corralm zur integrativen Multitabellen-Dimensionsreduzierung von scRNAseq-Daten ein. Wir implementieren CA für scRNAseq-Daten in Corral, einem R/Bioconductor-Paket, das direkt mit einzelnen Zellklassen in Bioconductor interagiert. Der Wechsel von PCA zu CA wird durch einen einfachen Pipeline-Austausch erreicht und verbessert die Dimensionsreduzierung von scRNAseq-Datensätzen.

Die Einzelzell-mRNA-Sequenzierung (scRNAseq) misst gleichzeitig die Transkriptniveaus von Genen in Tausenden einzelner Zellen und bietet so einen Einblick in die transkriptionelle und funktionelle Vielfalt von Zellen in einem Gewebe oder Experiment. Diese komplexen Datensätze sind um Größenordnungen größer als diejenigen, die bei der Analyse von „Bulk“-RNAseq-Daten aus Gewebeproben anfallen. Während solche fein aufgelösten Daten das Potenzial haben, neue biologische Erkenntnisse zu offenbaren, weisen scRNAseq-Daten spärliche Daten, Rauschen und technische Artefakte auf, die über die bei Massen-RNA-Proben1,2 hinausgehenden Daten hinausgehen und eine scRNAseq-spezifische Vorverarbeitung und Normalisierung erforderlich machen3,4. Typischerweise umfasst die scRNAseq-Analyse die Verwendung der Dimensionsreduktion, um Rauschen zu dämpfen und die rechnerische Nachvollziehbarkeit sicherzustellen, aber die Wahl der Methode hat erheblichen Einfluss auf nachgelagerte Analysen, Ergebnisse und Schlussfolgerungen3,5.

Es ist wichtig, eine geeignete Methode zur Dimensionsreduzierung auszuwählen. Eine effektive Methode findet eine Darstellung der Daten, die Rauschen und Redundanz minimiert und gleichzeitig aussagekräftige Signale aufdeckt, die latente Strukturen und Muster in den Daten aufdecken6,7. Bei der Definition aus scRNAseq-Daten sind Einbettungsdarstellungen mit reduzierter Dimension am nützlichsten, wenn sie sinnvolle, biologisch relevante Variationen bewahren; sind robust, was bedeutet, dass die Zerlegung neuer, aber ähnlicher Beobachtungen durchweg einen ähnlichen Einbettungsraum ergibt; und verallgemeinern und auf neue Daten übertragen, wodurch neue Beobachtungen, die aus ähnlichen biologischen Prozessen resultieren, in denselben latenten Raum projiziert werden können.

ScRNAseq-Zählungen werden im Allgemeinen als multinomialverteilt modelliert und häufig als negative Binomialzahl oder Poisson2 angenähert, was die Tatsache widerspiegelt, dass die Daten weder kontinuierlich noch annähernd Gaußsch sind. Daher erfordert die Verwendung der Hauptkomponentenanalyse (PCA), dass diskrete und spärliche scRNAseq-Zähldaten vor der Dimensionsreduzierung mit dieser Methode transformiert werden6. PCA ist eine lineare Dimensionsreduktionsmethode, die eine niedrigdimensionale Datendarstellung entlang orthogonaler linearer Achsen erhält, sodass der auf jeder Achse berücksichtigte Varianzanteil im euklidischen Raum maximiert wird4,8,9,10,11. Da sich PCA am besten für kontinuierliche Daten eignet, die annähernd normalverteilt sind, kann es zu Artefakten kommen, wenn es auf Daten mit Gradienten oder nicht kontinuierlichen Daten (z. B. Zählungen) angewendet wird. Ein solches Artefakt, der „Bogen“- oder „Hufeiseneffekt“ genannt wird, tritt auf, wenn PCA auf scRNAseq-Daten ohne Log-Transformation angewendet wird4,6,12. In der Praxis und trotz bekannter Probleme bei der Anwendung der Log-Transformation auf scRNAseq-Zähldaten2,13,14 beginnen die meisten Einzelzell-Workflows mit einer Log(x + 1)-Transformation der Zählmatrix und verwenden dann PCA, um das Ergebnis zu zerlegen „logcounts“ data3. Die Verwendung von Logcounts hat eine schlechte theoretische Rechtfertigung und kann in einigen Fällen sinnvolle Variationen verschleiern2,14, aber die daraus resultierenden Einbettungen der PCA-Daten mit reduzierter Dimension werden dennoch für scRNAseq-Clustering, Trajektorienanalyse und Zelltypklassifizierung3 verwendet. Es wurden mehrere Ansätze zur Dimensionsreduktion vorgeschlagen, die auf scRNAseq-Zählungen zugeschnitten sind, darunter Methoden wie ZINB-WaVE, die erste für die Verwendung mit Zählungen geeignete Methode, die auf einem Null-inflationierten negativen Binomialmodell für die Zerlegung von Zählungen und einer Null-inflationierten Faktoranalyse basiert ( ZIFA)2,15,16,17. Dennoch bleibt PCA vor allem aufgrund seiner Einfachheit, Geschwindigkeit und Recheneffizienz die am weitesten verbreitete Methode. Bei einem Vergleich von 18 Dimensionsreduktionsmethoden erreichte PCA einen hohen Stellenwert, wenn Genauigkeit und Leistung in der nachgelagerten Analyse zusammen mit der rechnerischen Skalierbarkeit berücksichtigt wurden18.

Klassische Matrixfaktorisierungsmethoden, einschließlich PCA, sind Beispiele für den von Benzécri und der französischen Schule der multivariaten Statistik in den 1970er Jahren8,19,20,21,22,23 vorgeschlagenen Ansatz des allgemeinen Dualitätsdiagramms, bei dem der Fokus von der Matrix als Spalten ausgeht von festen Variablen zur Matrix als Operator zwischen inneren Produkträumen, wodurch klassische multivariate Methoden wie PCA mit modernen Kernelmethoden in demselben Rahmen vereint werden8,21. Eine weitere Matrixfaktorisierungsmethode, die im Dualitätsdiagramm-Framework auftaucht, ist die Korrespondenzanalyse (CA), eine schnelle Dimensionsreduktionsmethode, die für nicht negative, zählbasierte Daten geeignet ist und Beziehungen zwischen kategorialen Datentypen identifizieren kann, die bei Ökologen für die Analyse von Arten beliebt ist. Häufigkeitszählmatrizen nach Standort8,24. In der Praxis wird PCA oft durch Singular Value Decomposition (SVD) von spaltenzentrierten oder Z-Score-normalisierten Daten berechnet (Abb. 1A)4,25 und CA wird durch SVD der Pearson-Residuen berechnet, um die Zeilen-Spalten-Zuordnungen aufzudecken von der Erwartung abweichen26. Die Hauptkomponenten in CA unterteilen die gegenseitige Abhängigkeit zwischen Zeilen und Spalten, sodass eine höhere Gewichtung auf eine stärkere Abhängigkeit oder Assoziation zwischen Zeile und Spalte hinweist. Für scRNAseq-Daten können CA-Hauptkomponenten die Co-Abhängigkeit zwischen der Anzahl der Genexpressionen und bestimmten Zellen identifizieren. Aus dieser Perspektive besteht der Hauptunterschied im Raum, in den die Daten umgewandelt und dann zerlegt werden. Während PCA die Varianz im euklidischen Raum partitioniert, partitioniert CA die gesamte Kontingenz-Chi-Quadrat-Tabelle entlang linearer additiver Komponenten27. CA verfügt über eine lange Tradition in verschiedenen Bereichen und Disziplinen, darunter Linguistik, Wirtschafts- und Marketingforschung sowie Archäologie26,28, wo es auf große, spärliche Datenmengen angewendet und weiter optimiert wird. CA wurde auch in der Bioinformatik zur Durchführung einer Codon-Nutzungsanalyse29,30 eingesetzt; um Microarray-Transkriptomikdaten zu analysieren31; um GO-Labels mit Microarray-Daten zu integrieren32; und um metagenomische und mikrobiomische Daten zu analysieren33. In made4 haben Culhane et al. implementierte CA für Microarray- und Bulk-RNA-seq-Daten34,35,36. Wir schlagen nun seine Anwendung auf die scRNAseq-Analyse vor.

Die Korrespondenzanalyse (CA) ist eine Alternative zur PCA für Zähldaten, die robust für die Verwendung mit rohen und logarithmisch normalisierten Zählungen ist. (A) Grafischer Überblick über die Schritte zur Dimensionsreduzierung mit Matrixfaktorisierung, einschließlich Standard-CA und PCA. Standard-CA und PCA können mit Singular Value Decomposition (SVD) der Pearson- bzw. Z-Score-Residuen berechnet werden. (B) Diagramme zeigen die ersten beiden Komponenten, die aus PCA (auf Logcounts; links) und aus CA (Corral auf Counts; rechts) generiert wurden, angewendet auf eine synthetische Benchmarking-mRNA-Mischung mit 8 Gruppen (Daten im CellBench R-Paket verteilt; angepasst aus3) . „Zellen“ sind nach Gruppen gefärbt. CA löst die Gruppen in Cluster auf, während Standard-PCA durch einen Gradienten in der zweiten Komponente gesteuert wird und die Gruppen nicht auflöst. (C) Diagramme zeigen die ersten beiden Komponenten, die von CA (Corral; obere Reihe) und PCA (untere Reihe) sowohl für die Zählungen (linke Spalte) als auch für die Logcounts (rechte Spalte) des Zhengmix4eq-Datensatzes generiert werden, der etwa 4.000 gereinigte PBMCs umfasst gleiche Mischungen. Zellen sind nach Typ gefärbt. CA ist robust für die Verwendung mit Zählungen oder Protokollzählungen, wohingegen PCA bei Zählungen zu einem Hufeiseneffekt (Bogeneffekt) führt. (D) CA (grün) und PCA (lila) wurden auf Zählungen (linke Spalte) und Logcounts (rechte Spalte) aus sechs Benchmarking-Datensätzen (SCMixology; Zhengmix) angewendet. Einbettungen aus allen Ansätzen wurden als Eingabe für das NNGraph-Clustering verwendet, wobei die Leistung bei der Wiederherstellung veröffentlichter Cluster anhand des Adjusted Rand Index (ARI) bewertet wurde. CA erreicht oder übertrifft durchweg die Leistung von PCA. Orangefarbene Kreise markieren den höchsten ARI, der in jedem Datensatz erreicht wurde.

Townes et al.2, Hafemeister und Satija13 und Lause et al.14 konzentrierten sich auf die Probleme der logarithmischen Transformation von scRNAseq-Zählungen bei der Anwendung von PCA und präsentierten Ansätze zur scRNAseq-Analyse auf der Grundlage der Pearson-Residuennormalisierung als Alternative zur verzerrenden logarithmischen Transformation. Townes et al.2 schlugen glmPCA vor, eine Verallgemeinerung der PCA, die die Abweichung statt des mittleren quadratischen Fehlers (MSE) minimiert und nicht-kanonische Verknüpfungsfunktionen berücksichtigt, und die mit PCA von Pearson oder Abweichungsresiduen2 angenähert werden kann. Lause et al. schlug eine analytische Pearson-Residuennormalisierung14 vor und erweiterte die Arbeit von Hafemeister und Satija, die einen regressionsbasierten Ansatz zur Berechnung von Pearson-Residuen verwendeten13. Lause et al. zitierte unsere Open-Source-Bioconductor-Workshops, die CA beschreiben; die Beziehungen zwischen CA, PCA und SVD; und ihre Anwendung in scRNAseq-Daten als Beleg dafür, dass glmPCA von Townes et al.,2, SCTransform von Hafemeister und Satija13 und ihr Ansatz CA sind oder CA sehr nahe kommen14,37. Allerdings ist CA, das durch SVD anhand der standardisierten Pearson-Residuen berechnet werden kann, möglicherweise nicht der geeignetste Ansatz, wenn in der Kontingenztabelle eine Überdispersion vorliegt38.

Wir schlagen fünf Anpassungen von CA vor und bewerten sie, um einer Überdispersion der scRNAseq-Zählungen entgegenzuwirken. Wir vergleichen die Leistung jeder dieser Methoden mit der Standard-CA und mit glmPCA2, einer in diesem Bereich beliebten Methode. Insbesondere stellen wir fest, dass CA mit Freeman-Tukey-Residuen, eine alternative Chi-Quadrat-Statistik, in einer Vielzahl von Testfällen besonders leistungsfähig ist. Da die Zellclusterung und -charakterisierung ein zentraler Bestandteil der meisten scRNAseq-Workflows ist, haben wir uns als Ziel der Benchmarking-Aufgabe die Suche nach Einbettungsdarstellungen gesetzt, die die Identifizierung und Annotation komplexer Zellpopulationen erleichtern. Wir zeigen, dass der CA-Biplot eine geometrische Interpretation von Merkmalen und Objekten im selben Raum ermöglicht, was wiederum eine effiziente explorative Datenanalyse und Clusterinterpretation ermöglicht. Wir haben standardmäßige und angepasste CA für scRNAseq in Corral implementiert, einem R/Bioconductor-Paket, das direkt mit Bioconductor-Klassen (einschließlich SingleCellExperiment) kommuniziert. Corral ist auf rechnerische Skalierbarkeit ausgelegt und im Vergleich zu PCA und anderen Dimensionsreduktionsmethoden, einschließlich glmPCA, schnell und leistungsstark. Der Wechsel von PCA zu CA mit Corral wird durch eine einfache Pipeline-Ersetzung erreicht und verbessert die Dimensionsreduzierung von scRNAseq-Datensätzen.

Die Standard-Korrespondenzanalyse (CA) wandelt die scRNAseq-Lesezahlen in ein Kontingenztabellen-Analyse-Framework um und kann in ihrer kanonischen Form als zweistufiges Verfahren konzipiert werden (grafisch dargestellt in Abb. 1A; detailliert unter „Methoden“). Die Zählmatrix wird zunächst in Chi-Quadrat-Residuen nach Pearson transformiert, und die resultierende Residuenmatrix wird dann mit Singular Value Decomposition (SVD) faktorisiert.

Die CA-Analyse von scRNAseq erfordert keine logarithmisch transformierten Lesezahlen (Logcounts), ist aber damit kompatibel. PCA, das weit verbreitet ist, erfordert eine Datentransformation und wird daher im Allgemeinen auf Logcounts-Daten angewendet, auch wenn die Log-Transformation von scRNAseq-Zählungen die Darstellung des latenten Raums verzerrt, sodass die erste Dimension durch die Sparsität einzelner Zellen oder die Anzahl der Merkmale bestimmt wird mit null beobachteten Zählungen („Null-Fraktion“)2. Da wir CA als geeignetere Alternative zu PCA zum Auffinden von Zelleinbettungen vorschlagen, haben wir CA mit dem weit verbreiteten korrelationsbasierten PCA4 verglichen.

Wir haben sowohl CA als auch PCA auf einen Ground-Truth-scRNAseq-Benchmarking-Datensatz (sowohl für Zählungen als auch für Logcounts) angewendet, der durch CEL-seq2-Sequenzierung von Pseudozellmischungen mit mRNA aus acht verschiedenen Gruppen erhalten wurde39. Abbildung 1B zeigt die ersten beiden Hauptkomponenten für PCA und CA. Die erste PCA-Komponente trennte Zellen klar von drei von acht Clustern, PC2 erfasst jedoch nur einen Gradienten innerhalb der Gruppen. Im Gegensatz dazu gruppierte und trennte CA alle Gruppen klar in zwei Komponenten. In ähnlicher Weise zeigten Ergebnisse in gereinigten PBMCs (Zhengmix4eq-Benchmarking-Datensatz), dass CA direkt auf Zählungen oder Logcounts angewendet werden kann und dennoch eine gute Clusterbildung und Trennung erreicht, wohingegen PCA bei Zählungen einen „Bogen“- oder „Hufeisen“-Effekt erzeugt, der sich aus der Anwesenheit ergibt einer latenten sequentiellen Ordnung oder eines Gradienten12,25. PCA für Logcounts verlief ähnlich wie CA für entweder Counts oder Logcounts.

CA ist robust, wenn es entweder auf Zähl- oder Protokollzählungsdaten angewendet wird, wodurch die Notwendigkeit einer Protokolltransformation entfällt und die damit verbundenen Probleme vermieden werden. Wir verglichen die Leistung der vier in Abb. 1C dargestellten Pipeline-Konfigurationen (CA und PCA bei Zählungen und Logcounts) anhand von sechs Referenz-Benchmark-Datensätzen – drei scRNAseq-Datensätzen von SCMixology (bekannte Zellmischung aus drei mit drei Technologien sequenzierten Krebslinien)39 und drei Zhengmix PBMC-Datensätze40,41. (Datensätze sind im Abschnitt „Benchmarking“ unter „Methoden“ aufgeführt). Die Clusterwiederherstellung basierend auf den annotierten Zelltypen in der Studie wurde mithilfe des Adjusted Rand Index (ARI) bewertet, der die Ähnlichkeit zwischen zwei Sätzen von Datenpartitionen bewertet (Abb. 1D). In allen Vergleichen übertrifft CA die Leistung von PCA oder erreicht diese (orangefarbener Kreis zeigt den höchsten ARI pro Datensatz an).

CA kann durch „seltene Objekte“ oder Ausreißer38 beeinflusst werden. Aufgrund der hohen zugrunde liegenden Heterogenität der Genexpression innerhalb und zwischen verschiedenen Zelltypen enthalten scRNAseq-Daten häufig biologisch „echte“ Ausreißer im Gegensatz zu Artefakten aufgrund verrauschter Daten. Professionelle sekretorische Zellen haben beispielsweise ein ausgeprägtes biologisches Profil, das oft durch die außergewöhnlich hohe Produktion eines oder zweier Proteine, wie etwa Insulin in Pankreas-Inselzellen oder Immunglobin in Immunzellen, angetrieben wird. Ebenso unterscheiden sich seneszente oder ruhende Zellen im Genexpressionsprofil von sich schnell teilenden Zellen oder hochgradigen Tumorzellen.

Wir schlagen fünf einzigartige Anpassungen von CA vor und bewerten sie, um der Überdispersion bei scRNAseq-Zählungen entgegenzuwirken. Insgesamt wurden sechs CA-Methoden (Standard-CA und die fünf Anpassungen) auf neun Datensätze angewendet, darunter die drei menschlichen PBMC-Benchmarking-Datensätze von Zhengmix sowie Zellen aus menschlicher Bauchspeicheldrüse, menschlichem Gehirn und Xenopus-Schwanz (Tabelle 1). Die Leistung der Clusterwiederherstellung bei Zelleneinbettungsdarstellungen, die mit jeder spezifischen Methode generiert wurden, wurde in Bezug auf glmPCA2 verglichen und bewertet, basierend auf der Partitionsähnlichkeit der neuen Cluster mit den ursprünglich annotierten Zellpopulationen aus jedem Datensatz (gemessen mit ARI; detailliert unter „Methoden“ – Benchmarking).

Die fünf Anpassungen von CA lassen sich in drei allgemeine Ansätze einteilen (Abb. 2A). Die erste Klasse von Ansätzen bestand darin, vor der Berechnung der Pearson-Residuen explizit eine varianzstabilisierende Transformation auf die Zählmatrix anzuwenden. Lause et al.14 diskutierten die varianzstabilisierende Transformation im Vergleich zur Pearson-Residuennormalisierung, kombinierten in ihrer Studie jedoch nicht die Varianzstabilisierung und die Pearson-Residuennormalisierung vor der Matrixzerlegung. Sie berichteten, dass der Grad der Korrektur durch varianzstabilisierende Transformation allein für scRNAseq-Daten in ihrer Pipeline-Konfiguration nicht ausreichte, und stellten fest, dass nur die Normalisierung mit analytischen Pearson-Residuen effektiver war als nur die Anwendung der Varianzstabilisierung14. Angesichts der Tatsache, dass scRNA-seq-Zählungen häufig als Poisson-verteilt angenähert werden, haben wir drei varianzstabilisierende Transformationen in Betracht gezogen, die typischerweise auf Zähldaten angewendet werden. Diese drei auf Quadratwurzeln basierenden Transformationen gehen alle auf die Beobachtung von RA Fisher zurück, dass die Durchführung einer Arkuskosinustransformation an der Quadratwurzel multinomialer Wahrscheinlichkeiten annähernd normalverteilte Winkel auf einer Hypersphäre ergibt42. Die erste war die Quadratwurzeltransformation der Zähldaten (Zeile 3 von Abb. 2A), die zur Korrektur der Überdispersion bei Poisson-Zählungen verwendet wurde43. Die zweite ist Anscombes varianzstabilisierende Zähltransformation (Zeile 4 in Abb. 2A), die ursprünglich 1948 für die Verwendung mit Poisson-, Binomial- und negativen Binomialdaten vorgeschlagen wurde44. Drittens verwendeten wir die Freeman-Tukey-Varianzstabilisierende Zähltransformation (Zeile 5 von Abb. 2A), die ursprünglich 1950 vorgeschlagen wurde, auch für Poisson- und andere Zähldaten45.

CA-Anpassungen zur Behebung der Überstreuung in Zähldaten. (A) Tabelle mit einer Zusammenfassung des Standard-CA-Verfahrens und fünf Anpassungen zur Bekämpfung der Überdispersion. Der erste Satz (Zeile 1 und 2) umfasst Methoden, die außer der Berechnung von Chi-Quadrat-Residuen keine Transformationen erfordern. Der zweite Satz (Zeilen 3–5) enthält varianzstabilisierende Transformationen, die auf Zählungen vor der Standard-CA durchgeführt wurden. Der dritte Ansatz (Zeile 6) glättet die Chi-Quadrat-Restmatrix mit einer geringfügigen „Leistungsdeflation“ vor der Zerlegung mit SVD. (B) Tabelle der NNGraph-Cluster-Wiederherstellungsleistung, die mit jeder Methode (Zeilen) in neun Datensätzen (Spalten) erreicht wurde, mit Angabe des maximalen ARI, der für eine Reihe von PCs ausgewählt wurde (vollständige Ergebnisse von ARI nach PC in Abb. 2C dargestellt), mit ARI aus zehn glmPCA-Läufen wurde vor der Auswahl des Maximums gemittelt. Der höchste ARI (auf zwei Dezimalstellen genau) in jedem Datensatz ist eingekreist und die Zellcluster in den Originaldatensätzen werden als Referenzgruppierungen verwendet. Freeman-Tukey-Residuen weisen die beste Gesamtleistung auf, mit dem höchsten ARI in 6 der 9 Datensätze. (C) Diagramm des ARI nach Anzahl der Komponenten in jedem der neun Datensätze (wie B), gefärbt nach Methode. Die Ergebnisse für glmPCA (grau) umfassen zehn Samen.

Unsere Ergebnisse zeigen, dass die Varianzstabilisierung die Leistung der standardmäßigen (klassischen) CA verbessert. Die Varianzstabilisierung der Zählungen vor der Berechnung der Pearson-Residuen führte in zwei Studien (Zhengmix4uneq, Aztekin Eine Quadratwurzeltransformation vor CA erhöht den ARI in 7 Datensätzen, während die Transformation zu Anscombe-Zählungen oder Freeman-Tukey-Zählungen den ARI in jedem Datensatz im Vergleich zur Standard-CA erhöhte (ohne Varianzstabilisierung der Zählungen vor der Berechnung der Pearson-Residuen). Tatsächlich erreicht Anscombes varianzstabilisierende Zähltransformation den höchsten beobachteten ARI in einem von 9 Testdatensätzen (Bauchspeicheldrüse: Lawlor) und die varianzstabilisierende Zähltransformation nach Freeman-Tukey erzielte in 3 von 9 Datensätzen die beste Gesamtleistung (Zhengmix4uneq; Bauchspeicheldrüse: Muraro, Lawlor). ). Obwohl die Quadratwurzelzahl-Transformation die anderen beiden Transformationen in keinem der Vergleiche übertraf, lag ihr ARI in 7 von 9 Datensätzen innerhalb von 0,05 der anderen beiden Transformationen. Darüber hinaus ergab die varianzstabilisierende Zähltransformation in Verbindung mit Standard-CA in den Pankreas-Datensätzen den höchsten ARI insgesamt und übertraf damit glmPCA.

Die zweite Variante, die wir betrachtet haben, ist die „Leistungsdeflation“ als Methode zur Datenglättung. Die Leistungsdeflation behandelt extreme Ausreißer in der Chi-Quadrat-Residuenmatrix, indem alle transformierten Residuenwerte vor der Durchführung der SVD auf eine Potenz α erhöht werden, während das Vorzeichen erhalten bleibt (untere Reihe von Abb. 2A). Vom Konzept her ähnelt dieses Verfahren der Tukey-Leitertransformation46 und hat einen glättenden Effekt auf die Matrix der Chi-Quadrat-Abstände, wodurch der Einfluss abweichender Werte verringert und gleichzeitig die Reihenfolge der Werte erhalten bleibt. Um einen „weichen“ Glättungseffekt zu erzielen, haben wir \(\mathrm{\alpha }\in \left[0.9, 0.98\right]\) berücksichtigt (Daten nicht gezeigt) und präsentieren Ergebnisse für \(\mathrm{\alpha }= 0,9\) in Abb. 2. Dieser Ansatz ähnelt auch der klassischen Quadratwurzel-Varianz-Stabilisierungstransformation für Poisson-Zählungen, mit dem Sonderfall \(\mathrm{\alpha }= 0,5\), unterscheidet sich jedoch in der Transformation wird auf die Chi-Quadrat-Residuenmatrix und nicht auf die Zählmatrix angewendet. In allen neun Datensätzen erbrachte dieser Ansatz zur Glättung der Leistungsdeflation eine vergleichbare oder sogar bessere Leistung als die Standard-CA, obwohl sein Einfluss auf die CA-Leistung geringer war als der der varianzstabilisierenden Zähltransformation.

Drittens haben wir eine alternative Chi-Quadrat-Statistik in Betracht gezogen, die sich besser zum Zählen von Daten mit einem hohen Maß an Sparsität und Überdispersion eignet. CA mit Freeman-Tukey-Residuen (CA-FT) wurde auf Daten archäologischer Stätten angewendet, wo es einen varianzstabilisierenden Effekt zeigte und die Standard-CA (SVD der Pearson-Residuen) bei der Analyse spärlicher, überstreuter Artefaktdaten übertraf (Anzahl der archäologischen Artefakte nach Standort)45,47,48. Sowohl Pearson-Residuen als auch Freeman-Tukey-Residuen sind Mitglieder der Cressie-Read-Familie von Potenzdivergenzstatistiken zum Testen der Anpassungsgüte in multinomial verteilten Zähldaten, und wenn sie quadriert werden, sind beide Residuen Chi-Quadrat-verteilte Zufallsvariablen47,49. Wir fanden heraus, dass CA-FT gut für scRNAseq-Zählungen geeignet ist (Zeile 2 von Abb. 2A), die Standard-CA in allen neun Datensätzen übertrifft und ihre Leistung in 8 von 9 Benchmarking mit glmPCA vergleichbar (ARI innerhalb von 0,02) oder glmPCA überlegen ist Datensätze. In den meisten Datensätzen hatte CA-FT auch eine höhere oder vergleichbare Clustering-Genauigkeit (ARI) als Standard-CA mit varianzstabilisierender Transformation. CA-FT erreichte in 6 von 9 Datensätzen den höchsten ARI insgesamt. Im Gegensatz zur Standard-CA konnten wir bei der Kombination von CA-FT mit varianzstabilisierender Transformation (Quadratwurzel, Anscombe oder Freeman-Tukey) kaum Vorteile beobachten (Abb. S1); Während sich die Leistung von Standard-CA durch varianzstabilisierende Transformation dramatisch verbessert, passt sich CA-FT an überdisperse Daten an und ist für deren Verwendung geeignet.

Die Auswahl der Komponenten kann einen großen Einfluss auf die nachgelagerte Zellclusteranalyse haben. Daher haben wir die Clusterleistung als Funktion der Anzahl der ausgewählten Komponenten betrachtet (Abb. 2C, S2). Die Fähigkeit, „bekannte“ Cluster wiederherzustellen (gemessen mit ARI zwischen Clustering-Ausgabe und den veröffentlichten Zelltypen), war bei den einfacheren Mischungen bekannter, gereinigter Zelltypen (Zhengmix-Datensätze) höher. Für die untersuchten komplexen Gewebe (Gehirn, Bauchspeicheldrüse, Xenopus-Schwanz) wird die „wahre“ Anzahl der Zelltypen experimentell aus den scRNAseq-Daten geschätzt. Es gab eine Heterogenität in der Anzahl der im gleichen Gewebe beschriebenen Zelltypen zwischen verschiedenen Studien, möglicherweise weil Zellanmerkungen mit niedriger Auflösung (z. B. T-Zellen) oder mit hoher Auflösung (z. B. CD4-T-Zellen, erschöpftes CD8) zugeordnet werden können T-Zellen etc.), abhängig von der jeweiligen Studienfrage. Beispielsweise beschrieben die Pankreas-Datensätze Lawlor, Muraro und Baron in ihren jeweiligen Analysen acht, elf und vierzehn Zelltypen (Tabelle 1). Wir haben einen Zusammenhang zwischen der Anzahl der Komponenten und der Komplexität der Clustering-Aufgabe beobachtet. Mehr Komponenten erfassen möglicherweise eine größere Gesamtvariation in den Daten und erhöhen somit möglicherweise die Leistung bei der Ausführung von Annotationen mit höherer Auflösung. Abbildung 2C zeigt, dass mehr Komponenten im Allgemeinen den ARI in komplexerem Gewebe erhöhten. Bei Datensätzen, bei denen die Referenzzellentypanmerkungen jedoch eine geringere Auflösung (weniger Zelltypen) aufweisen, könnte die Einbeziehung weiterer Komponenten den ARI verringern, da ihre Ergebnisse eine höhere Auflösung (mehr Zelltypen) aufweisen und daher technisch weniger mit der ursprünglichen Referenz übereinstimmen. Dies zeigt eine Begrenztheit aktueller Benchmarking-Ansätze. Eine neue Methode könnte biologisch bedeutsame Gruppen finden, aber eine schlechte Leistung erbringen, wenn sie mithilfe von ARI auf Benchmarking-Datensätzen mit niedriger Auflösung bewertet wird. Wir haben in unseren Ergebnissen festgestellt, dass die Lawlor- und Darmanis-Datensätze, die beide mit niedrigerer Auflösung annotiert wurden, den stärksten Rückgang der ARI-Clustering-Leistung zeigten, wenn mehr PCs einbezogen wurden.

Im Gegensatz dazu gab es kaum einen Gewinn und bei einigen sogar eine Verringerung des ARI mit mehr Komponenten in den Zhengmix-Datensätzen, die Kombinationen unterschiedlicher PBMC-Zelltypen umfassen, die vor der Sequenzierung sortiert und gereinigt wurden. In einfachen Datensätzen kann die Einbeziehung zusätzlicher Komponenten, die über diejenigen hinausgehen, die die biologische Varianz ausreichend erfassen, zu stochastischem, technischem oder systematischem Rauschen im System führen. Das Benchmarking jeder der Methoden mit der Rangfolge nach maximalem ARI war robust gegenüber der Anzahl der Komponenten; CA-FT war durchweg am leistungsstärksten, unabhängig davon, ob die ersten dreißig oder fünfzig (Abb. S2, 2B) Komponenten in das Downstream-Clustering einbezogen wurden.

CA, CA-FT und andere Variationen erzeugen ein nahezu deterministisches Ergebnis, das stabil reproduziert wird. Im Gegensatz dazu ist glmPCA nicht deterministisch und daher können die Ergebnisse erheblich variieren, wenn die Methode für denselben Datensatz erneut ausgeführt wird (Abb. 2C und S3). Aus Gründen der Reproduzierbarkeit haben wir zehn zufällige Seed-Initiationen von glmPCA getestet (Abb. 2C). Dabei zeigte sich, dass die glmPCA-Ergebnisse für einfachere Datensätze konsistent sind, in anderen Datensätzen, wie dem Xenopus-Schwanzdatensatz, die Leistung jedoch zwischen den Iterationen dramatisch variiert. Im Lawlor-Pankreas-Datensatz schlug eine Iteration fehl, was darauf hindeutet, dass die Ergebnisse in gewisser Weise davon abhingen, einen „glücklichen Samen“ zu finden. In einfacheren Datensätzen wie Zhengmix generierten alle Methoden hohe ARI-Werte und die glmPCA-Ergebnisse waren zwischen den einzelnen Läufen konsistent (Abb. 2C). Mit zunehmender Datenkomplexität gab es jedoch größere Unterschiede in der glmPCA-Leistung. Für jeden Datensatz präsentieren wir den Durchschnitt des maximalen ARI, der in jedem der 10 glmPCA-Läufe erreicht wurde.

Für die Überdispersion angepasste CA-Variationen übertreffen Standard-CA oder glmPCA im Downstream-Clustering (Abb. 2B). Von den von uns in Betracht gezogenen Ansätzen war CA-FT am leistungsstärksten und übertraf die Standard-CA mit varianzstabilisierender Transformation und dem Power-Deflation-Ansatz.

Der CA-Biplot bietet einen natürlichen Rahmen für die Clusterinterpretation, der biologisch bedeutsame Beziehungen zwischen Genexpressionsmustern und Zellpopulationen hervorhebt, und kann erweitert werden, um die Merkmalsauswahl zu steuern. Jede transformierte Zahl (Residuum) in einer CA-Matrix hat eine intuitive Interpretation, da es sich um die Chi-Quadrat-Teststatistik für die Stärke der Assoziation zwischen einer bestimmten Zeile (Expression eines Gens) und einer Spalte (Zelle) handelt. Die CA-Matrix erfasst die stärksten Zusammenhänge zwischen Genexpression und Zellen und hebt funktionelle Kontraste einzelner Zellen und Zellsubpopulationen hervor. Biplots visualisieren Zusammenhänge zwischen Merkmalen und Objekten, in diesem Fall Genen und Zellen. Anstatt die Merkmals- und Objekteinbettungen einzeln zu untersuchen, platziert der Biplot beide Sätze von Einbettungen auf denselben Achsen und zeigt so sowohl die Assoziationen auf, die zwischen einzelnen Zeilen oder Spalten als auch zwischen bestimmten Zeilen und Spalten bestehen können6,50. Der Abstand vom Ursprung gibt das Ausmaß der Assoziation an; Der Winkelrotationsabstand (Kosinusähnlichkeit) spiegelt die Ähnlichkeit der Zellen (oder Gene) untereinander oder die Assoziation zwischen Zellen und Genen wider.

Wir führten eine Standard-CA für den Zhengmix8 PBMC-Benchmarking-Datensatz durch und zeichneten die ersten beiden Dimensionen der resultierenden Zell- und Geneinbettungen auf (Abb. 3). Die 20 Gene mit dem höchsten Gewicht nach L2-Norm in den ersten beiden Dimensionen sind blau gefärbt und mit einer entsprechenden Genmarkierung versehen. Zellpopulationen werden nach Zelltyp gefärbt. Der Biplot hebt Gene hervor, die starke Assoziationen mit bestimmten Zellpopulationen haben und zwischen ihnen unterscheiden können. Natürliche Killerzellen (NK) exprimieren beispielsweise konstitutiv Granulysin, das durch das Gen GNLY kodiert wird, und obwohl sie nicht ausschließlich Granulysin produzieren, wird die GNLY-Expression in anderen Zellen, wie z. B. zytotoxischen T-Zellpopulationen, durch Immunaktivierung gesteuert51. Das CA-Biplot zeigt, dass GNLY ein hohes Gewicht in PC2 hat (weit vom Ursprung entfernt) und eine ähnliche Winkeldrehung wie die NK-Zellpopulation aufweist (hohe Kosinusähnlichkeit). Dementsprechend bestätigen die eingefügten Gratdiagramme in Abb. 3, die Histogramme der logarithmischen Expression in Zellpopulationen zeigen, dass diese insbesondere in der NK-Zellpopulation stark exprimiert wird.

Geometrische Interpretation der Korrespondenzanalyse: Veranschaulichung der Zusammenhänge zwischen Genen und Zellpopulationen. Biplot der ersten beiden Dimensionen von CA im Zhengmix8-Datensatz. Die acht Zellpopulationen sind nach Typ eingefärbt, während die Gene blau markiert und eingefärbt sind. Die zwanzig gewichtsmäßig größten Gene (am weitesten vom Ursprung in den ersten beiden Komponenten entfernt) werden angezeigt. Sechs biologisch bedeutsame Gene werden hervorgehoben, und Gratdiagramme veranschaulichen ihre logarithmische Expression: GNLY wird in NK-Zellen stark exprimiert, wohingegen TYROBP sowohl in NK- als auch in CD14-Monozyten stark exprimiert wird. LYZ und S100A8 sind beide stark exprimierte, Monozyten-spezifische Gene. Sowohl CD74 als auch HLA-DRA werden in B-Zellen stark exprimiert und in Monozyten mäßig exprimiert, wie in den jeweiligen Ridgeplots gezeigt.

Die Calcium-bindenden Proteine ​​S100A8 und S100A9 (MRP8 bzw. MRP14) werden konstitutiv in Monozyten und Neutrophilen exprimiert52,53. Dementsprechend ist im CA-Biplot in Abb. 3 die Expression beider Gene stark mit der Monozytenpopulation verbunden (gleiche Richtung, große Größe), was mit der relativen logarithmischen Expression von S100A8 unter den Zellpopulationen übereinstimmt (Einschubdiagramm). In ähnlicher Weise kodiert LYZ für Lysozym, ein Molekül, das von Monozyten stark sezerniert wird54. Aufgrund der im Einschub gezeigten erhöhten differentiellen Expression des Gens in der Monozytenpopulation ist das Gen weit vom Ursprung entfernt, weist aber auch einen engen Winkel zur Zellpopulation auf.

Biplots informieren auch über Gene, die in mehreren Zellpopulationen stark und unterschiedlich exprimiert werden: TYROBP kodiert für ein Signaladapterprotein (KARAP/DAP12), das ursprünglich als Verdrahtungskomponente in der antiviralen und antitumoralen Funktion von NK identifiziert wurde55. TREM-1, ein KARAP/DAP12-assoziiertes Oberflächenprotein, verstärkt die Aktivierung von Monozyten, Makrophagen und Granulozyten durch Zytokine und Chemokine nach LPS-Stimulation55. Während andere lymphoide und myeloische Zellen TYROBP exprimieren können, wurde es überwiegend in NK, Monozyten/Makrophagen und dendritischen Zellen beobachtet, was mit den erhöhten Expressionsniveaus in den erwarteten Zelltypen übereinstimmt: NK und Monozyten. Das Gen wird zwischen diesen Zellpopulationen projiziert; Expressionskurvendiagramme bestätigen, dass es insbesondere in NK- und Monozytenzellpopulationen eine erhöhte Expression aufweist.

CD74 ist Teil des MHC-Klasse-II-Komplexes, was sowohl mit der Biplot-Positionierung als auch mit der Expressionsdarstellung übereinstimmt: Winkelmäßig liegt es der B-Zellpopulation am nächsten, ist aber auch leicht in Richtung der Monozytenpopulation gedreht56. Dementsprechend wird die Expression von CD74 in Zellen aller Art beobachtet, ist jedoch in B-Zellen und einigen Monozyten am stärksten erhöht. In ähnlicher Weise kodiert HLA-DRA für die Alpha-Kette des HLA-DR-Proteins, das ein Zelloberflächenrezeptor im MHC-Klasse-II-Komplex ist57. Sowohl B-Zellen als auch Monozyten sind professionelle Antigen-präsentierende Zellen, die die gesamte Maschinerie des MHC-Klasse-II-Komplexes benötigen. Daher sind diese Gene für die Funktion beider Zelltypen wichtig, und beide Gene im Biplot sind zwischen den relevantesten Zelltypen angesiedelt eine biologisch bedeutsame Zusammenfassung der Zusammenhänge zwischen Genen und Zellsubpopulationen.

Der CA-Biplot ermöglicht eine einheitliche Analyse von Zell- und Geneinbettungen, die die Clusterinterpretation beeinflussen und als Grundlage für die Integration (und Erweiterung) anderer Methoden dienen kann, wie z. B. die Gen-Set-Anreicherungsanalyse und die Projektion zusätzlicher Daten in einen gemeinsamen latenten Raum.

Die Notwendigkeit, Zellen aus mehreren Chargen zu integrieren, motiviert die weitere Verfeinerung und Entwicklung von CA10,35,58. Unsere Multi-Table-Anpassung von CA, implementiert als Corralm im Corral R/Bioconductor-Paket, arbeitet mit indizierten oder Freeman-Tukey-Residuen und findet eine gemeinsame Multi-Table-Einbettung. Es eignet sich für leichte bis mittelschwere Integrationsaufgaben (z. B. verschiedene Sequenzierungsläufe eines Experiments). Bei komplexen Integrationsaufgaben mit erheblichen Batch-Effekten integriert Corralm die Daten möglicherweise nicht vollständig, da es sich um eine Multi-Table-Erweiterung der CA-Dimensionsreduzierung handelt, nicht für die Batch-Integration optimiert ist und keinen expliziten Integrationsschritt enthält. Da PCA in einer Pipeline leicht durch CA-Einbettungen ersetzt werden kann, haben wir untersucht, ob die Einbeziehung von Corralm in die Batch-Integration die Leistung gängiger Integrationsmethoden verbessert, die einen PCA-Schritt enthalten. Beispielsweise umfassen die weit verbreiteten Batch-Korrekturmethoden FastMNN und Harmony einen PCA-Schritt. Wir haben die Leistung von Corralm mit weit verbreiteten Batch-Integrationsmethoden verglichen (Abb. 4), darunter LIGER59, MNNCorrect, Harmony und Seurat (empfohlene Pipeline einschließlich SCTransform-Normalisierung und CCA-Integration), die alle in aktuellen Benchmarking-Studien gut abgeschnitten haben59,60,61, 62,63. Um Corralm als PCA-Pipeline-Ersatz zu bewerten, haben wir Corralm in Verbindung mit Harmony und MNN in die Vergleiche einbezogen.

Die Corralm-Mehrtabellenadaption von CA integriert Zählmatrizen über Stapel hinweg, indem sie einen gemeinsamen, niedrigdimensionalen latenten Raum findet. (A) Vergleich von neun Integrationsworkflows im SCMixology-Benchmarking-Datensatz (bestehend aus Mischungen aus drei Zelllinien: H2228, H1975 und HCC827, die jeweils mit drei Protokollen zur Bibliotheksvorbereitung verwendet wurden – Dropseq, Celseq2 und 10X – gefolgt von Illumina-Sequenzierung). Die erste Spalte zeigt Ergebnisse zu Zählungen und die zweite Spalte zeigt Logcounts (sofern zutreffend). corralm ist sowohl schnell als auch leistungsstark und kann mit Methoden wie Harmony (die 3. Reihe) kombiniert werden, um die Leistung weiter zu verbessern. (B) Skalierte Varianz (SV) der Chargen, die die drei SCMixology-Bibliotheksvorbereitungsplattformen darstellen, berechnet anhand der ersten drei Komponenten der in Abb. 4A dargestellten Zählungen und Logcounts, gefärbt nach Charge. SV nahe 1 weisen darauf hin, dass die Einbettungen eine ähnliche Verteilung über die Chargen hinweg aufweisen. corralm, Harmony with corralm und SCTransform weisen eine gute Batch-Ausrichtung auf, während Harmony with PCA Werte weit von 1 zeigt, was darauf hindeutet, dass die Einbettungen nicht erfolgreich über Batches hinweg integriert wurden (umfasst alle Methoden mit rangierten Komponenten). (C) Batch-Integration von Pankreas-Daten. Für jede ausgewählte Gruppe von Methoden werden in der linken Spalte UMAPs nach Datensatz (Batch) gefärbt angezeigt, während in der rechten Spalte nach Zelltyp gefärbte UMAPs angezeigt werden. (D) ASWcell-Typ bewertet die Einbettung basierend auf der Erhaltung des biologischen Kontexts, während 1 – ASWbatch die Integration bewertet und sich auf der x- bzw. y-Achse befindet. Bei allen Methoden wird dies auf 8 PCs berechnet.

Um die Leistung in einem klaren und einfachen Ground-Truth-Szenario zu vergleichen, wurde zunächst jede Methode auf die Batch-Integration des SCMixology-Benchmarking-Datensatzes angewendet, der scRNAseq-Profile aus einer Mischung von drei Zelllinien (H2228; H1975; HCC827) umfasste, die in drei Batches mit erhalten wurden verschiedene Bibliotheksvorbereitungsplattformen (Dropseq; Celseq2; 10X)39. Zweitens wurden die Methoden zum Vergleich der Leistung in einem komplexeren, biologisch realistischen Beispiel auf die Integration von drei menschlichen Pankreas-Datensätzen angewendet, die auf verschiedenen Plattformen in separaten Studien erhalten wurden: Baron, Lawlor und Muraro (ausführlich unter „Methoden“ – Benchmarking unten). .

Im SCMixology-Datensatz ist die „Grundwahrheit“ eindeutig, und wir erwarten, dass die niedrigdimensionale Darstellung die Daten über Chargen hinweg angleicht und unterschiedliche Zellliniencluster identifiziert. Abbildung 4A zeigt die ersten beiden Komponenten der reduzierten Dimensionsdarstellung der Ergebnisse von Corralm, Harmony mit Corralm-Einbettungen, SCTransform mit CCA und MNNCorrect mit PCA, die Chargen erfolgreich integrieren und gleichzeitig Zellliniencluster bewahren (Abb. 4A, Zeilen 1,3,4, 6). Im Gegensatz dazu schlägt Harmony (unter Verwendung von PCA-Einbettungen, wie veröffentlicht) sowohl bei der Datenintegration als auch bei der Clustererkennung für dieselben Daten fehl (Abb. 4A, Zeile 2). LIGER gelingt die Clustertrennung, aber die Integration scheitert, wie im UMAP dargestellt (Abb. 4A, Zeile 5). Qualitativ weist SCTransform mit CCA die beste Ausrichtung nach Batch und die engsten Cluster nach Zelltyp auf, aber seine Laufzeit ist um eine Größenordnung langsamer als Corralm und Harmony mit Corralm. SCTransform mit CCA wird in 45 s ausgeführt, während Corralm und Harmony mit Corralm für die entsprechende Aufgabe in 7 s ausgeführt werden, wobei ein Kern eines Laptops zugewiesen wird („Methoden“ – Benchmarking). LIGER und MNNCorrect sind mit etwa 6 bzw. 1,25 Minuten deutlich langsamer. Obwohl der SCMixology-Datensatz relativ klein ist (1401 Zellen), würde sich dieser Unterschied in der Laufzeit im Maßstab erheblich auf die Gesamtgeschwindigkeit einer Pipeline auswirken, was einen Vorteil von Corralm und Harmony mit Corralm verdeutlicht.

Clusterbewertungsmaßnahmen wie ARI bewerten, ob Cluster erneut identifiziert werden können, quantifizieren jedoch nicht direkt, wie gut Datensätze in ihre niedrigdimensionalen Einbettungsdarstellungen integriert sind. Wir schlagen eine neue Metrik, die skalierte Varianz (SV), zur Bewertung der Chargenintegration von Datensätzen vor, die ähnliche Zellpopulationen über Chargen hinweg umfassen (Abb. 4B; detailliert unter Methoden). Für jede Dimension jeder Einbettung berechnen wir die Varianz der Teilmenge der Beobachtungen aus jedem Batch und skalieren mit der Gesamtvarianz in dieser Dimension als Maß für die Unter- oder Überstreuung der Einbettungen der Teilmenge in dieser Dimension. Beispielsweise wurden im SCMixology-Benchmarking-Datensatz biologisch identische Proben mit drei Bibliotheksvorbereitungsmethoden (Dropseq; Celseq2; 10X) untersucht, wobei erwartet wurde, dass jede Charge die gleiche Zellverteilung aufweist. SV-Werte, die näher bei eins liegen, weisen auf eine bessere Integration (mehr Ähnlichkeit in der Streuung) in einer bestimmten Dimension pro Charge hin. In Übereinstimmung mit Abb. 4A zeigten die SV-Diagramme (Abb. 4B), dass SCTransform die beste Integration aufwies, wobei alle SV-Punkte sehr nahe bei eins lagen. In ähnlicher Weise zeigten auch Corralm und Harmony with Corralm eine gute Batch-Integration und beide übertrafen Harmony mit PCA, dessen SV-Werte weit von eins entfernt waren.

Bei der komplexeren und realistischeren scRNAseq-Integrationsaufgabe für die Bauchspeicheldrüse wurde die Leistung der Datenintegrationsmethoden qualitativ durch Vergleich von UMAPs (Abb. 4C und S5) und quantitativ mit ASW-Cluster-Metriken64 (Abb. 4D) bewertet, wie in einer früheren Benchmarking-Studie62. Unter der Annahme, dass die angegebenen Zelltypbezeichnungen aus jedem Datensatz der Grundwahrheit entsprechen, sollte der ASWcell-Typ in einer Einbettung, in der Zelltypen kompakte und perfekt getrennte Cluster bilden, nahe bei 1 liegen. Die Batch-Integration wurde mit 1 – ASWbatch gemessen, wobei Werte nahe 1 (ASWbatch nahe 0) weisen auf Integration und weniger Clustering pro Batch hin. Corralm ist eine einfache gemeinsame Dimensionsreduktion, die weder Optimierung für Batch noch explizite Batch-Integrationsschritte beinhaltet und daher voraussichtlich nicht die für Batch-Korrektur optimierten Methoden übertrifft. Wir sehen jedoch, dass Corralm Multibatch-PCA übertrifft (Abb. 4D). Darüber hinaus lässt sich Corralm gut mit Integrationspipelines kombinieren: Die Kombination von Harmony oder MNN-Korrektur mit Corralm-Einbettungen verbessert die Einbettung im Vergleich zu Corralm allein und den ursprünglichen Pipelines mit PCA. In Abb. 4D berichten wir, dass Corralm (mit Freeman-Tukey-Residuen) in Verbindung mit Harmony hinsichtlich der Integration und biologischen Clustertrennung eine vergleichbare Leistung wie die Seurat-Routine aufweist. Qualitativ sind diese UMAPs ähnlich (Abb. 4C). Im Gegensatz dazu waren andere in Abb. 4C gezeigte Methoden bei der Integration der Chargen weniger erfolgreich, obwohl sie offenbar zumindest einen Teil der biologischen Struktur bewahrten.

Die Corral-Implementierung von CA nutzt schnelle, ungefähre, teilweise SVD aus dem irlba R-Paket65; Selbst wenn ein Kern auf einem Laptop zugewiesen wird („Methoden“ – Benchmarking), läuft Corral für einen Datensatz mit 1.500 Features und über 20.000 Zellen (50 Komponenten) in weniger als einer Minute. Abbildung 5A zeigt, dass glmPCA für die analoge Aufgabe über eine Stunde dauert und dass die Laufzeit von glmPCA über einen Bereich von Datensatzgrößen (1500 Features) mit der Anzahl der Zellen schnell zunimmt, während CA (Corral) viel günstiger skaliert. Mit der Verbesserung der SVD-Implementierungen kann die Laufzeit- und/oder Speichernutzung weiter reduziert werden, indem diese modular in die Corral-Pipeline integriert werden. Standard-CA und die von uns betrachteten Variationen sind keine spärlichen Implementierungen; Die Rechenleistung kann durch Anpassungen für Sparsity weiter verbessert werden. Da CA ähnliche Rechenanforderungen wie PCA hat, ist das Ersetzen von PCA durch CA ein einfacher Pipeline-Ersatz.

Rechenleistung von CA und seinen Anpassungen. (A) Zeichnen Sie den Vergleich der Laufzeit für Standard-CA und glmPCA für zehn Datensätze auf und wählen Sie jeweils bis zu 1500 Features aus. Standard-CA dauert durchweg weniger als eine Minute, selbst bei Datensätzen mit mehr als 20.000 Zellen, während glmPCA weniger günstig skaliert werden kann und für die entsprechende Eingabematrix (1500 Features x ~ 22.000 Zellen) mehr als eine Stunde benötigt. (B) Diagramm zum Vergleich der Laufzeit mit zunehmender Anzahl von Features im Aztekin Xenopus-Schwanzdatensatz über die CA-Anpassungsmethoden hinweg. Da sie ähnliche Routinen verwenden, sind ihre Laufzeiten ziemlich ähnlich. (C) Diagramm zum Vergleich der Laufzeit mit zunehmender Anzahl von Features im Zhengmix8-Datensatz über die CA-Anpassungsmethoden hinweg. Sowohl in (B) als auch in (C) ist bemerkenswert, dass CA und seine Anpassungen selbst mit einer Größenordnung mehr Funktionen in einem Bruchteil der Zeit ausgeführt werden, die glmPCA benötigt.

Die Korrespondenzanalyse (CA) ist eine statistische Technik mit einer reichen theoretischen Grundlage, die erstmals vor fast einem Jahrhundert vorgeschlagen und mathematisch charakterisiert wurde66 und die ständig weiterentwickelt und erweitert wurde. CA wurde regelmäßig „wiederentdeckt“ und in einer Vielzahl von Disziplinen angepasst20,28,67,68,69 und zuletzt im Bereich der scRNAseq-Analyse: Mehrere Gruppen haben eine residuenbasierte Normalisierung nach Pearson vor der Matrixzerlegung mit PCA vorgeschlagen2,13, 14, eine Routine, die konzeptionell der Standard-CA ähnelt – abgesehen von Unterschieden in der Art und Weise, wie Residuen berechnet werden, ist ein zusätzlicher Unterschied in dieser Routine der zusätzliche Z-Score-Normalisierungsschritt4 von PCA nach der Berechnung der Pearson-Residuen, im Gegensatz zur direkten Zerlegung der Residuenmatrix mit SVD .

Die Korrespondenzanalyse mit Freeman-Tukey-Chi-Quadrat-Residuen (CA-FT) ist eine einfache und effektive Anpassung von CA zur Dimensionsreduzierung von scRNAseq-Zählungen. Wir verglichen die Leistung von CA und fünf CA-Varianten, die sich mit der Überdispersion von scRNAseq befassen, und verglichen diese mit glmPCA2, einer in diesem Bereich beliebten Methode. CA-FT war bei einer scRNAseq-Cluster-Wiederherstellungsaufgabe insgesamt am leistungsstärksten. Unsere Analysen zeigten auch, dass in Kombination mit Standard-CA (Pearson-Residuen) die Einbeziehung varianzstabilisierender Transformationen und „Power-Deflation“-Glättung die Leistung bei nachgelagerten Clustering-Aufgaben im Vergleich zu Standard-CA allein verbessert. Daher empfehlen wir zur Dimensionsreduzierung von scRNAseq-Daten die Verwendung von CA-FT oder, bei Verwendung von Standard-CA, die Einbeziehung von Varianzstabilisierung und/oder Glättung.

Datennormalisierung und Dimensionsreduzierung wirken sich erheblich auf nachgelagerte scRNAseq-Analysen aus. Die Leistung von Dimensionsreduktionsansätzen hängt von der Varianzstruktur, dem Rauschen und anderen Merkmalen eines Datensatzes ab. Wie bereits an anderer Stelle berichtet18, stellen wir fest, dass die Leistung der Methoden je nach den Merkmalen der einzelnen Datensätze variiert. Benchmarking-Studien sind durch das Fehlen robuster Referenzdatensätze eingeschränkt, die die Tiefe der Komplexität und Nuancen in der tatsächlichen biologischen Forschung widerspiegeln. Die meisten qualitativ hochwertigen „Ground-Truth“-Benchmarking-Datensätze werden aus einfachen „Pseudo“-Zellmischungen oder aus Pools unterschiedlicher Zelltypen abgeleitet. Weder spiegeln sie die wahre Vielfalt der Zelltypen in Geweben noch die Eigenschaften realer Forschungsdaten wider. Typischerweise sind Parameter wie die Anzahl „echter“ Cluster a priori unbekannt und hängen von der spezifischen Forschungsfrage und dem Kontext ab. Ein ergänzender Ansatz besteht darin, Benchmarking-Datensätze in Betracht zu ziehen, die durch Sequenzierung komplexer Gewebeproben gewonnen werden, obwohl diese Datensätze auch ihre eigenen Nachteile haben; Den Zellen in solchen Studien werden Identitäten auf der Grundlage einer Analysemethode (und für einen bestimmten Satz von Studienzielen) zugewiesen, ohne dass die Zuweisungen unabhängig validiert werden können. Daher stellen diese Einzelkontext-Anmerkungen einen zu engen Standard für zukünftige Benchmarking-Studien anderer Methoden dar, der niemals die für die anfängliche Zuordnung verwendete Methode übertreffen kann. Mit Fortschritten bei systematischen Benchmarking-Frameworks für komplexe Datensätze in verschiedenen Kontexten werden wir besser in der Lage sein, die Vorzüge jedes Ansatzes zu testen und optimale Ansätze basierend auf Datenmerkmalen zu identifizieren.

Daher sind die hier vorgestellten Analysen durch die kontextspezifischen Anmerkungen unserer Benchmarking-Datensätze etwas eingeschränkt, da wir als Grundwahrheitsbezeichnungen die mit diesen Datensätzen veröffentlichten Originalanmerkungen verwenden. Mit Ausnahme von SCMixology und Zhengmix (beide bestehen aus klar definierten Zellclustern und sind von Natur aus einfacher als Daten aus komplexen Geweben) verfügten die von uns analysierten Datensätze nicht über unabhängig validierte Zelltypanmerkungen, sodass die Leistung durch die ursprünglichen Zelltypzuweisungen begrenzt ist. Selbst wenn eine bestimmte Methode wichtige Subpopulationen oder seltene Zelltypen besser von der Clusterbildung unterscheidet, spiegeln sich diese Vorteile möglicherweise nicht im ARI wider, und die Methode würde tatsächlich einen kleinen Abzug für Unterschiede zur „Referenz“ erhalten. Angesichts der Komplexität und Subjektivität der Annotation von Zellclustern können Forscher abhängig von den Forschungszielen unterschiedliche Zellpopulationen oder Cluster aus demselben Datensatz aufrufen. Die Vielfalt der Forschungsfragen und Datenherausforderungen in der Einzelzellbiologie erfordert die Breite statistischer und rechnerischer Ansätze. Der robuste konzeptionelle Rahmen für CA und seine empirischen Leistungsvorteile gegenüber PCA sprechen für seine Anwendung in scRNAseq-Analysen.

Wir haben CA, CA-FT und andere Variationen implementiert, die eine Überdispersion von scRNAseq-Daten im R/Bioconductor-Paketkorral (einschließlich Dokumentation, Tutorials, Vignetten) anpassen und so die Integration in häufig verwendete Analysepipelines ermöglichen3,37. Wir schließen mit Ideen für die zukünftige Entwicklung – CA kann, insbesondere wenn es im breiteren Rahmen des Dualitätsdiagramms angesiedelt ist, sowohl als Plattform als auch als reichhaltige Quelle für die Weiterentwicklung weiterer Methoden dienen. Durch die gleichzeitige Visualisierung der Einbettungen von Zellen und Genen betont der CA-Biplot die diesen Daten innewohnende Zeilen-Spalten-Dualität und erleichtert so die gemeinsame Analyse von Genen und Zellen. Der einheitliche Ansatz zur Analyse von Gen- und Zelleinbettungen bietet einen natürlichen Rahmen für die Erweiterung und/oder Integration mit anderen Ansätzen, einschließlich der Analyse der Gen-Set-Anreicherung, der überwachten Zerlegung und der Projektion zusätzlicher Daten in einen gemeinsamen latenten Raum – beispielsweise mit einem ähnlichen Ansatz wie zuvor in Mogsa und Omicade410,34,36 verwendet. Einbettungen können als Matrixoperatoren verwendet werden, um zusätzliche Daten in einen gemeinsam genutzten latenten Raum zu projizieren und so eine multimodale und Multi-Batch-Integration sowie schnelle Approximationsmethoden zu ermöglichen. Die Matrixprojektion mittels Multiplikation ist schnell und skalierbar, selbst für sehr große Datensätze, und kann in zukünftigen Erweiterungen als Grundlage für schnelle, ungefähre Dimensionsreduktionsansätze dienen, die auf der Zerlegung einer repräsentativen Teilmenge der Daten und der anschließenden Projektion der vollständigen Matrix in den Raum basieren . Da Fortschritte bei Methoden zur Bibliotheksvorbereitung die Sequenzierung einer immer größeren Anzahl einzelner Zellen ermöglichen, sind rechnerische Überlegungen bei der Auswahl analytischer Methoden und dem Entwurf von scRNAseq-Pipelines von entscheidender Bedeutung.

Ähnlich wie viele andere Matrixfaktorisierungsmethoden umfasst die Korrespondenzanalyse zwei Hauptschritte: eine Datentransformationsroutine (siehe auch Abb. 1A) und eine Matrixzerlegungsoperation (wie SVD oder Eigenanalyse). Bei der Anwendung von „Standard“-CA auf scRNAseq-Zählungsdaten verwenden wir SVD, um Pearson-Residuen der Gen-für-Zelle-Expressionszählungsmatrix zu zerlegen, wobei die Residuen den Unterschied zwischen den beobachteten und den erwarteten Daten quantifizieren. In diesem Fall ist der erwartete Wert das Produkt der Zeilen- und Spaltengewichtung aus der ursprünglichen Zählmatrix. Ein positives Residuum, das darauf hinweist, dass der beobachtete Wert (Anzahl) für dieses Merkmal/Gen- und Zellpaar höher ist als erwartet, deutet auf eine Assoziation oder Co-Abhängigkeit hin; Dementsprechend zeigt ein negatives Residuum einen niedrigeren Wert als erwartet, was auf einen negativen Zusammenhang zwischen der Expression einer Genexpression und einer Zellsubpopulation schließen lässt. Bei der Quadratur handelt es sich bei den Residuen um Chi-Quadrat-verteilte Zufallsvariablen, und ihre Quadratsumme bildet eine Chi-Quadrat-Anpassungsteststatistik mit (n-1)(m-1) Freiheitsgraden47,70.

Bei der Korrespondenzanalyse handelt es sich um eine doppelte Skalierung entlang der Zeilen und Spalten jeder Zählmatrix.

Die auf scRNAseq-Zählungsdaten angewendete CA durchläuft die folgenden zwei diskreten Schritte:

Transformation von Zählungen zu standardisierten Residuen. Angenommen, \(\mathbf{X}\) ist eine \(m\times n\)-Matrix mit \(n\) Zellen (indiziert auf \(j\)) in den Spalten und \(m\) Merkmalen (indiziert auf). \(i\)) in den Zeilen, bestehend aus Beobachtungen \({x}_{ij}\). Die Häufigkeit \({p}_{ij}\), das Gewicht der \(i\)-ten Zeile \({p}_{i.}\) und das Gewicht der \(j\)-ten Spalte \({p}_{.j}\) für eine gegebene Beobachtung \({x}_{ij}\) sind:

Die erwartete Häufigkeit für die Beobachtung \({x}_{ij}\) beträgt \({p}_{i.}\hspace{0.25em}{p}_{.j}\) und entspricht unseren Erwartungen in einer Zelle sehen, vorausgesetzt, es besteht keine Beziehung zwischen einer Zeile und einer Spalte. Die standardisierten (Pearson-)Residuen \({r}_{p;ij}\) sind die Differenz zwischen dem Beobachteten und dem Erwarteten und können berechnet werden:

Diese Transformation entspricht der Berechnung, die bei der Kontingenztabellenanalyse kategorialer Daten angewendet wird und die Stärke der Assoziation zwischen Elementen in einer Zeile und einer Spalte misst. Es ergibt sich eine Matrix \({\mathbf{M}}_{\mathbf{S}}\), wobei die Summe der Abstände der Punkte zu ihrem Schwerpunkt („Gesamtträgheit“) die Chi-Quadrat-Statistik der Matrix26 ist ,28. Als Ergebnis dieser Transformation ist \({\mathbf{M}}_{\mathbf{S}}\) zentriert und sollte eher gaußförmig erscheinen und ist daher eine geeignete Eingabe für SVD.

Matrixzerlegung. \({\mathbf{M}}_{\mathbf{S}}\) wird mithilfe der Singulärwertzerlegung (SVD) zerlegt, um die linke Singulärmatrix \(\mathbf{U}\) und die Diagonalmatrix der Singulärwerte \( zu finden. \mathbf{D}\) und der rechten Singularmatrix \(\mathbf{V}\) so dass:

Und

Die resultierende \(\mathbf{U}\)-Matrix kann entweder direkt als Einbettung verwendet werden, wobei jede Spalte eine Dimension im neuen latenten Raum darstellt, oder es können Koordinatenwerte berechnet werden. Standardkoordinatenwerte werden durch Division der \(\mathbf{U}\)- und \(\mathbf{V}\)-Matrizen durch die Vektoren der Zeilengewichte bzw. Spaltengewichte ermittelt. Die Hauptkoordinatenwerte werden durch Multiplikation der Standardkoordinatenwerte mit dem Vektor der Diagonalwerte der Matrix \(\mathbf{D}\) ermittelt. Die Hauptkoordinatenwerte unterscheiden sich von den Standardkoordinatenwerten durch einen Skalar in jeder Dimension und spiegeln beide die Ordinationswerte der Features und Zellen wider38. Anders als bei PCA, wo Unterschiede in den Einbettungen annähernd euklidischen Abständen entsprechen, wird bei der Korrespondenzanalyse die gesamte Chi-Quadrat-Statistik zerlegt. Der Wert der zugrunde liegenden Chi-Quadrat-Statistik ist hoch, wenn eine Verbindung zwischen einem Zeilen-Spalten-Paar der Tabelle besteht.

Wir haben fünf CA-Varianten in Betracht gezogen, um die Überdispersion der scRNAseq-Zählungen zu bekämpfen (ebenfalls grafisch zusammengefasst in Abb. 2A).

CA mit Freeman-Tukey-Chi-Quadrat-Residuen Anstatt die oben beschriebenen Pearson-Residuen zu berechnen, werden die Residuen berechnet:

Die Matrix dieser Restwerte wird dann mit SVD zerlegt, wie in Schritt 2 oben beschrieben.

CA mit varianzstabilisierender Transformation: Quadratwurzel Die Quadratwurzel der Zählmatrix \(\mathbf{X}\) wird vor der Durchführung der Resttransformation berechnet.

CA mit varianzstabilisierender Transformation: Anscombe Jedes Element \({x}_{ij}\) der Zählmatrix \(\mathbf{X}\) wird in \({x}_{ij}^{*“ transformiert }=2\sqrt{{x}_{ij}+\frac{3}{8}}\). Die Resttransformation wird anhand der varianzstabilisierten Zählmatrix \({\mathbf{X}}^{*}\) berechnet.

CA mit varianzstabilisierender Transformation: Freeman-Tukey Jedes Element \({x}_{ij}\) der Zählmatrix \(\mathbf{X}\) wird in \({x}_{ij}^) transformiert {*}=\sqrt{{x}_{ij}}+\sqrt{{x}_{ij}+1}\). Die Resttransformation wird anhand der varianzstabilisierten Zählmatrix \({\mathbf{X}}^{*}\) berechnet.

CA mit Leistungsdeflation Nach der Durchführung der Pearson-Residuentransformation wird jeder Wert in der Residuenmatrix unter Beibehaltung des Vorzeichens in eine Potenz von \(\alpha \in \left(0,1\right)\) transformiert. Jedes Element \({r}_{ij}\) in der Restmatrix wird in \({r}_{ij}^{*}={\text{sgn}}\left({\text{r} }_{\text{ij}}\right) {\left|{r}_{ij}\right|}^{\mathrm{\alpha }}\). Wir empfehlen, \(\alpha \in [0,9,0,99]\) für einen „weichen“ Glättungseffekt auszuwählen und Ergebnisse für \(\alpha =0,9\) anzuzeigen.

Die Anpassung der Korrespondenzanalyse für die Integration mehrerer Tabellen ähnelt der Methode für Einzeltabellen mit zusätzlichen Matrixverkettungsoperationen. Bei der Integration von Datensätzen verwenden wir indizierte Residuen, indem wir die standardisierten Residuen durch die Quadratwurzel des erwarteten Anteils dividieren, um den Einfluss von Säulen mit größeren Massen (Bibliothekstiefe) zu reduzieren, was eine bekannte Ursache für Batch-Effekte in scRNAseq-Studien ist. Indizierte Residuen haben eine einfache Interpretation. Beispielsweise zeigt ein Wert von 0,5 an, dass der beobachtete Wert 50 % höher ist als der erwartete Wert. Ein Wert von –0,5 zeigt an, dass der beobachtete Wert mit einer um 50 % geringeren Wahrscheinlichkeit als erwartet eine Gen-Zell-Assoziation aufweist als erwartet.

Ordnen Sie Tabellen zu und wählen Sie Funktionen aus. Identifizieren Sie den Schnittpunkt der Features über die zu integrierenden \(k\)-Matrizen und erstellen Sie eine Teilmenge der Tabellen nur für diese \({m}^{*}\)-Features. Während wir uns in diesen Analysen auf die Batch-Integration konzentrieren und daher auf Features abgleichen, können die Tabellen entweder nach Features abgeglichen werden, um eine Integration über Batches hinweg zu ermöglichen, oder nach Zellen, um eine multimodale Integration über Omic-Typen hinweg abzugleichen.

Transformation von Zählungen in indizierte Residuen. Gegeben ist für jede Tabelle mit \(n\) Zellen und \({m}^{*}\) Merkmalen die Zeilengewichtung \({p}_{i.}\), die Spaltengewichtung \({p}_{. j}\) und Häufigkeit \({p}_{ij}\) für jede Beobachtung werden wie oben für Standard-CA beschrieben berechnet. Die indizierten Residuen \({r}_{ij}\) können berechnet werden:

Jede Tabelle wird separat skaliert, um die interne Struktur jedes Datensatzes beizubehalten.

Matrizen verketten. Die transformierten Matrizen der indizierten Residuen werden dann entlang der übereinstimmenden Merkmale verkettet, um eine neue Matrix \({\mathbf{M}}_{\mathbf{C}}\) zu bilden, die \({m}^{*}\) hat. Merkmale und die Gesamtzahl der Zellen in den \(k\)-Matrizen (dh die Summe von \(n\) über \(k\)).

Matrixzerlegung. Die Singularwertzerlegung (SVD) wird auf die verkettete Matrix der indizierten Residuen \({\mathbf{M}}_{\mathbf{C}}\) angewendet, um die linke Singularmatrix \(\mathbf{U}\) diagonal zu finden Matrix der Singulärwerte \(\mathbf{D}\) und rechte Singulärmatrix \(\mathbf{V}\), so dass:

Und

Die Spalten der \(\mathbf{U}\)-Matrix dienen dann als die durch dieses Verfahren erzeugten Einbettungen, und die Zellen entsprechen ihren Indizes in der verketteten Matrix \({\mathbf{M}}_{\mathbf{C }}\).

Abhängig von der nachgelagerten Analyse kann es wichtig sein, eine angemessene Anzahl von PCs auszuwählen. Ähnlich wie bei PCA kann die Anzahl der Komponenten mithilfe der Ellenbogenmethode mit dem Scree-Plot ausgewählt werden, z. B. wie im findPC R-Paket implementiert (wie in Abb. 4C für Corralm mit Harmony)71.

Bei der Integration von Einbettungsdarstellungen über Chargen hinweg sind Maßnahmen zur Clusterbewertung wirksam, um die Gruppenkompaktheit und die Wiederherstellung von Zellpopulationen durch Clustering zu bewerten. Sie bewerten jedoch nicht direkt, wie gut Datensatzeinbettungen stapelübergreifend integriert sind. Um uns speziell auf die Batch-Integration zu konzentrieren, haben wir eine heuristische skalierte Varianzmetrik entwickelt und angewendet, die die relative Streuung jedes Batches im Verhältnis zum gesamten Datensatz erfasst. Die skalierte Varianz der Komponentendimension \({d}^{*}\) für die Teilmenge der Beobachtungen im Batch \({b}^{*}\), \(S{V}_{{b}^{* },d}\), wird berechnet mit:

Dabei ist \(\mathbf{E}\) die Matrix der Einbettungen und \(b\) indiziert die Zeilen (Beobachtungen nach Stapel), während \(d\) die Spalten indiziert, um anzugeben, welche Komponentendimension ausgewertet werden soll. Wenn die Datensätze gut integriert sind, liegen die SV-Werte für jede Charge nahe bei 1, was darauf hindeutet, dass jede Charge im Vergleich zur gesamten Einbettung eine ähnliche Streuung aufweist. Diese Metrik ist geeignet, wenn erwartet wird, dass die in verschiedenen Datensätzen dargestellten Zelltypen ähnlich sind, sie kann jedoch Situationen nicht berücksichtigen, in denen die erwartete Verteilung der Zelltypen (und damit der Einbettungen) zwischen den Chargen grundlegend unterschiedlich ist.

Wir haben die zehn in Tabelle 1 gezeigten scRNA-seq-Benchmarking-Datensätze berücksichtigt. Die Einbettungen mit reduzierter Dimension aus jeder Methode wurden mithilfe des Walktrap-Graph-Clusterings für den nächsten Nachbarn geclustert, wie im Standard-NNGraph-Parametersatz des Bluster-Pakets72,73 implementiert. Die Leistung bei der Clustering-Aufgabe wurde mit dem Adjusted Rand Index (ARI)74 bewertet, wobei als „Ground Truth“ die Zelltypbezeichnungen aus den Originaldatensätzen verwendet wurden. Walktrap wurde als Hauptmethode für das Clustering basierend auf der Leistung ausgewählt; Wir haben, ähnlich wie andere, beobachtet, dass der Walktrap-Algorithmus die hierarchische Struktur besser bewahrt als das Louvain-Clustering und insgesamt einen höheren ARI75 erreicht. Die Ergebnisse zum Vergleich von Louvain-Clustering und Walktrap-Clustering sind in Abb. S4 enthalten. Wir stellen fest, dass zwar zwischen den Durchläufen eine gewisse Variabilität bei Clustern und ARI beobachtet wurde, CA-FT jedoch durchweg als die leistungsstärkste Methode über den gesamten Datensatzbereich hinweg eingestuft wurde. Die in Abb. 2C gezeigten Ergebnisse stammen aus Clustering mit einer unterschiedlichen Anzahl von PCs. Die in Abb. 2B gezeigten Ergebnisse werden berechnet, indem das Maximum aller getesteten PCs aus Abb. 2C ermittelt wird. Für glmPCA ist der angezeigte Wert der Durchschnitt der Maxima, die von jedem Samen erreicht werden (insgesamt zehn getestete Samen). Datensätze (siehe unten) wurden aus drei R/Bioconductor-Datenpaketen erfasst: CellBench, DuoClustering2018 und scRNAseq. Links zu diesen Informationen finden Sie weiter unten im Abschnitt „Datenverfügbarkeit“.

In der SCMixology-Integration (Abb. 4A, B) wird jede der Benchmark-Methoden mit den Standardeinstellungen ausgeführt, wie in der jeweiligen Dokumentation/Vignette vorgeschlagen. mnnCorrect aus dem Batchelor R/Bioconductor-Paket wird auf den Logcounts-Matrizen ausgeführt und dann mit PCA60 zerlegt. Das LIGER-Ergebnis wird als UMAP-Visualisierung angezeigt, da wir festgestellt haben, dass die direkte Visualisierung der UMAP-Einbettungen eine Herausforderung darstellt, da es sich um eine NMF-basierte Methode handelt, da die Dimensionen der Einbettungen nicht nach Leistung geordnet sind und außerdem auf nur positive Werte beschränkt sind59 . Ebenso wird LIGER aus dem gleichen Grund nicht im skalierten Varianzdiagramm angezeigt, und wir würden nicht empfehlen, den Ansatz des skalierten Varianzdiagramms mit anderen Methoden zu verwenden, die keine Rangkomponenten generieren.

Bei der Pankreas-Integration (Abb. 4C, S5) wurden alle UMAP-Diagramme mit n_neighbors = 40 oder n_neighbors = 50 erstellt. Die Methoden wurden ähnlich wie in den SCMixology-Integrationsergebnissen implementiert. PCA (skaliert nach Tabelle) wurde wie in unserem Kurzbericht4 beschrieben implementiert. Multibatch-PCA wurde mit der Batchelor-Implementierung (multibatchPCA) durchgeführt, ebenso wie die „ + MNN“-Methode (reducedMNN). Im Ergebnis für corralm + Harmony wurde vor der Ausführung von Harmony61 die Ellbogenmethode (implementiert in findPC; Option „Perpendicular“71) für die PC-Auswahl verwendet. Die durchschnittliche Silhouettenbreite (ASW) wurde mit dem Cluster-R-Paket unter Verwendung der euklidischen Distanz64,76 implementiert. Um eine gemeinsame Auswertung zu ermöglichen, wurden die Bezeichnungen harmonisiert, sodass übereinstimmenden Zelltypen in allen Datensätzen die gleiche Bezeichnung zugewiesen wird. Insbesondere wurden aktivierter Stern und ruhender Stern zu Stern verschmolzen; gamma/pp und pp wurden mit gamma zusammengeführt; Ductus und Ductus wurden zusammengeführt.

Code und Dokumentation sind im Corral R/Bioconductor-Paket verfügbar: https://www.bioconductor.org/packages/corral. R-Code zur Reproduktion der Zahlen und Analysen in diesem Manuskript ist auf Github verfügbar unter: https://github.com/laurenhsu1/corral_manuscript. Ein Tutorial, das verschiedene Implementierungen von PCA und CA, einschließlich Corral, beschreibt, ist verfügbar unter: https://aedin.github.io/PCAworkshop. Die in diesen Analysen verwendeten Datensätze sind in Tabelle 1 im Abschnitt „Benchmarking“ der Methoden detailliert aufgeführt, einschließlich Zitaten und wo direkt über R-Datenpakete auf die Daten zugegriffen werden kann. Um den Zugriff zu erleichtern, sind unten Links für jedes in diesem Dokument verwendete Bioconductor-Datenpaket aufgeführt: CellBench: https://bioconductor.org/packages/release/bioc/html/CellBench.htmlDuoClustering2018: https://bioconductor.org/packages /release/data/experiment/html/DuoClustering2018.htmlscRNAseq: https://www.bioconductor.org/packages/release/data/experiment/html/scRNAseq.html.

Hicks, SC, Townes, FW, Teng, M. & Irizarry, RA Fehlende Daten und technische Variabilität in Einzelzell-RNA-Sequenzierungsexperimenten. Biostatistik 19, 562–578 (2018).

Artikel Google Scholar

Townes, FW, Hicks, SC, Aryee, MJ & Irizarry, RA Merkmalsauswahl und Dimensionsreduktion für Einzelzell-RNA-Seq basierend auf einem multinomialen Modell. Genombiol. 20, 295 (2019).

Artikel CAS Google Scholar

Amezquita, RA et al. Orchestrierung der Einzelzellanalyse mit Bioleitern. Nat. Methoden 17, 137–145 (2020).

Artikel CAS Google Scholar

Hsu, LL & Culhane, AC Einfluss der Datenvorverarbeitung auf die integrative Matrixfaktorisierung einzelner Zelldaten. Vorderseite. Oncol. 10, 973 (2020).

Artikel Google Scholar

Kiselev, VY, Andrews, TS & Hemberg, M. Herausforderungen beim unbeaufsichtigten Clustering von Einzelzell-RNA-Seq-Daten. Nat. Rev. Genet. 20, 273–282 (2019).

Artikel CAS Google Scholar

Nguyen, LH & Holmes, S. Zehn schnelle Tipps für eine effektive Dimensionsreduktion. PLOS-Computing. Biol. 15, e1006907 (2019).

Artikel ADS CAS Google Scholar

Stein-O'Brien, GL et al. Betreten Sie die Matrix: Faktorisierung deckt Wissen aus Omics auf. Trends Genet. 34, 790–805 (2018).

Holmes, S. Multivariate Datenanalyse: Der französische Weg. In Institute of Mathematical Statistics Collections 219–233 (Institute of Mathematical Statistics, 2008). doi:https://doi.org/10.1214/193940307000000455.

Hotelling, H. Beziehungen zwischen zwei Mengen von Variablen. Biometrie 28, 321 (1936).

Artikel MATH Google Scholar

Meng, C. et al. Dimensionsreduktionstechniken für die integrative Analyse von Multi-Omics-Daten. Knapp. Bioinform. 17, 628–641 (2016).

Artikel CAS Google Scholar

Pearson, K. Über Linien und Ebenen der engsten Anpassung an Punktsysteme im Raum. London. Edinb. Dublin Philos. Mag. J. Sci. 2, 559–572 (1901).

Artikel MATH Google Scholar

Diaconis, P., Goel, S. & Holmes, S. Horseshoes in mehrdimensionaler Skalierung und lokalen Kernelmethoden. Ann. Appl. Stat. 2, 777–807 (2008).

Artikel MATH Google Scholar

Hafemeister, C. & Satija, R. Normalisierung und Varianzstabilisierung von Einzelzell-RNA-seq-Daten mithilfe einer regulierten negativen Binomialregression. Genombiol. 20, 296 (2019).

Artikel CAS Google Scholar

Lause, J., Berens, P. & Kobak, D. Analytische Pearson-Residuen zur Normalisierung von Einzelzell-RNA-seq-UMI-Daten. Genombiol. Rev. 22, 258 (2021).

Artikel CAS Google Scholar

Durif, G., Modolo, L., Mold, JE, Lambert-Lacroix, S. & Picard, F. Probabilistische Zählmatrixfaktorisierung für die Analyse einzelner Zellexpressionsdaten. Bioinformatik 35, 4011–4019 (2019).

Artikel CAS Google Scholar

Pierson, E. & Yau, C. ZIFA: Dimensionsreduktion für die nullinflationierte Einzelzell-Genexpressionsanalyse. Genombiol. 16, 241 (2015).

Artikel Google Scholar

Risso, D., Perraudeau, F., Gribkova, S., Dudoit, S. & Vert, J.-P. Eine allgemeine und flexible Methode zur Signalextraktion aus Einzelzell-RNA-Seq-Daten. Nat. Komm. 9, 284 (2018).

Artikel ADS Google Scholar

Sun, S. Genauigkeit, Robustheit und Skalierbarkeit von Dimensionsreduktionsmethoden für die Einzelzell-RNA-Seq-Analyse. Genome Biol.20, 269 (2019).

Artikel Google Scholar

Benzcrire, J.-P. Statistische Probleme und geometrische Methoden. Cah. Anal. Daten 3, 131–146 (1978).

Google Scholar

Benzcri, J.-P. & andere. Datenanalyse. Flug. 2 (Dunod Paris, 1973).

De la Cruz, O. & Holmes, S. Das Dualitätsdiagramm in der Datenanalyse: Beispiele moderner Anwendungen. Ann. Appl. Stat. 5, 2266–2277 (2011).

Artikel MATH Google Scholar

Escoufier, Y. Das Dualitätsdiagramm: Ein Mittel für bessere praktische Anwendungen. In Developments in Numerical Ecology (Hrsg. Legendre, P. & Legendre, L.) (Springer, 1987).

Escoufier, Y. Operator im Zusammenhang mit einer Datenmatrix: eine Umfrage. In Compstat 2006 – Proceedings in Computational Statistics (Hrsg. Rizzi, A. & Vichi, M.) 285–297 (Physica HD, 2006). doi:https://doi.org/10.1007/978-3-7908-1709-6_22.

Legendre, P. & Legendre, L. Numerische Ökologie. (Elsevier, 2012).

Holmes, S. & Huber, W. Moderne Statistik für die moderne Biologie. (Cambridge University Press, 2019).

Google Scholar

Greenacre, MJ Korrespondenzanalyse: Korrespondenzanalyse. Wiley Interdisziplinär. Rev. Comput. Stat. 2, 613–619 (2010).

Artikel Google Scholar

Digby, PGN & Kempton, RA Multivariate Analyse ökologischer Gemeinschaften (Springer, 1987).

Buchen Sie Google Scholar

Greenacre, MJ Theorie und Anwendungen der Korrespondenzanalyse. (Academic Press, 1984).

Grantham, R., Gautier, C., Gouy, M., Mercier, R. & Pavé, A. Verwendung des Codon-Katalogs und die Genomhypothese. Nukleinsäuren Res. 8, 197–197 (1980).

Artikel Google Scholar

Perriere, G. Verwendung und Missbrauch der Korrespondenzanalyse in Codon-Nutzungsstudien. Nukleinsäuren Res. 30, 4548–4555 (2002).

Artikel CAS Google Scholar

Fellenberg, K. et al. Korrespondenzanalyse angewendet auf Microarray-Daten. Proz. Natl. Acad. Wissenschaft. Rev. 98, 10781–10786 (2001).

Artikel ADS CAS Google Scholar

Busold, CH et al. Integration von GO-Annotationen in die Korrespondenzanalyse: Erleichterung der Interpretation von Microarray-Daten. Bioinformatik 21, 2424–2429 (2005).

Artikel CAS Google Scholar

McMurdie, PJ & Holmes, S. phyloseq: Ein R-Paket für reproduzierbare interaktive Analysen und Grafiken von Mikrobiom-Volkszählungsdaten. PLoS ONE 8, 11 (2013).

Artikel Google Scholar

Culhane, AC, Perriere, G., Considine, EC, Cotter, TG & Higgins, DG Zwischengruppenanalyse von Microarray-Daten. Bioinformatik 18, 1600–1608 (2002).

Artikel CAS Google Scholar

Culhane, AC, Perrière, G. & Higgins, DG Plattformübergreifender Vergleich und Visualisierung von Genexpressionsdaten mithilfe der Ko-Trägheitsanalyse. BMC Bioinformatics 15 (2003).

Meng, C. et al. MOGSA: Integrative Einzelproben-Gensatzanalyse mehrerer Omics-Daten. Mol. Zelle. Proteomics 18, S153–S168 (2019).

Artikel CAS Google Scholar

Culhane, AC & Hsu, LL Dimensionsreduktion für Anfänger: Per Anhalter Leitfaden zur Matrixfaktorisierung und PCA. (2019) https://github.com/aedin/PCAworkshop.

Greenacre, M. Die Beiträge seltener Objekte in der Korrespondenzanalyse. Ökologie. 94(1), 241–249 (2013).

Artikel Google Scholar

Tian, ​​L. et al. Benchmarking von Einzelzell-RNA-Sequenzierungsanalyse-Pipelines mithilfe von Gemischkontrollexperimenten. Nat. Methoden 16, 479–487 (2019).

Artikel CAS Google Scholar

Zheng, GXY et al. Massiv paralleles digitales Transkriptionsprofiling einzelner Zellen. Nat. Komm. 8, 14049 (2017).

Artikel ADS CAS Google Scholar

Duò, A., Robinson, MD & Soneson, C. Eine systematische Leistungsbewertung von Clustering-Methoden für Einzelzell-RNA-Seq-Daten. F1000Research 7, 1141 (2020).

Mosteller, F. & Tukey, JW Die Verwendung und Nützlichkeit von Binomialwahrscheinlichkeitspapieren. Marmelade. Stat. Assoc. 44, 174–212 (1949).

Artikel CAS MATH Google Scholar

Bartlett, MS Die Verwendung von Transformationen. Biometrie 3, 39 (1947).

Artikel CAS Google Scholar

Anscombe, FJ Die Transformation von Poisson-, Binomial- und negativ-binomialen Daten. Biometrie 35, 246–254 (1948).

Artikel MATH Google Scholar

Freeman, MF & Tukey, JW Transformationen im Zusammenhang mit der Winkel- und Quadratwurzel. Ann. Mathematik. Stat. 21, 607–611 (1950).

Artikel MATH Google Scholar

Tukey, JW Explorative Datenanalyse. (Addison-Wesley, 1977).

Beh, EJ, Lombardo, R. & Alberti, G. Korrespondenzanalyse und die Freeman-Tukey-Statistik: Eine Studie archäologischer Daten. Berechnen. Stat. Daten Anal. 128, 73–86 (2018).

Artikel MATH Google Scholar

Plackett, RL, Bishop, YMM, Fienberg, SE & Holland, PW Diskrete multivariate Analyse: Theorie und Praxis. JR-Stat. Soc. Ser. Gen. 139, 402 (1976).

Artikel Google Scholar

Cressie, N. & Read, TRC Multinomiale Anpassungstests. JR-Stat. Soc. Ser. B Methodol. 46, 440–464 (1984).

Greenacre, M. Beitrags-Biplots. J. Comput. Graph. Stat. 22, 107–122 (2013).

Artikel Google Scholar

Krensky, AM & Clayberger, C. Biologie und klinische Relevanz von Granulysin. Tissue Antigens 73, 193–198 (2009).

Artikel CAS Google Scholar

Gonzalez, LL, Garrie, K. & Turner, MD Rolle von S100-Proteinen für Gesundheit und Krankheit. Biochim. Biophys. Acta BBA Mol. Zellauflösung 1867, 118677 (2020).

Wang, S. et al. S100A8/A9 bei Entzündung. Vorderseite. Immunol. 9, 1298 (2018).

Artikel Google Scholar

Gordon, S., Plüddemann, A. & Martinez Estrada, F. Makrophagenheterogenität in Geweben: Phänotypische Vielfalt und Funktionen. Immunol. Rev. 262, 36–55 (2014).

Tomasello, E. & Vivier, E. KARAP/DAP12/TYROBP: Drei Namen und eine Vielzahl biologischer Funktionen. EUR. J. Immunol. 35, 1670–1677 (2005).

Artikel CAS Google Scholar

Su, H., Na, N., Zhang, X. & Zhao, Y. Die biologische Funktion und Bedeutung von CD74 bei Immunerkrankungen. Entzündung. Res. 66, 209–216 (2017).

Artikel CAS Google Scholar

Matern, BM, Olieslagers, TI, Voorter, CEM, Groeneweg, M. & Tilanus, MGJ Einblicke in den Polymorphismus in HLA-DRA und seine evolutionäre Beziehung zu HLA-Haplotypen. HLA 95, 117–127 (2020).

Artikel CAS Google Scholar

Doledec, S. & Chessel, D. Co-Trägheitsanalyse: Eine alternative Methode zur Untersuchung von Arten-Umwelt-Beziehungen. Frischw. Biol. 31, 277–294 (1994).

Artikel Google Scholar

Welch, JD et al. Die Single-Cell-Multi-Omic-Integration vergleicht und kontrastiert Merkmale der Identität von Gehirnzellen. Zelle 177, 1873-1887.e17 (2019).

Artikel CAS Google Scholar

Haghverdi, L., Lun, ATL, Morgan, MD & Marioni, JC Batch-Effekte in Einzelzell-RNA-Sequenzierungsdaten werden durch den Abgleich gegenseitiger nächster Nachbarn korrigiert. Nat. Biotechnologie. 36, 421–427 (2018).

Artikel CAS Google Scholar

Korsunsky, I. Schnelle, sensible und genaue Integration von Einzelzellendaten mit Harmony. Nat. Methoden 16, 16 (2019).

Artikel Google Scholar

Tran, HTN et al. Ein Benchmark für Batch-Effekt-Korrekturmethoden für Einzelzell-RNA-Sequenzierungsdaten. Genombiol. 21, 12 (2020).

Artikel CAS Google Scholar

Lücken, MD et al. Benchmarking der Datenintegration auf Atlasebene in der Einzelzellgenomik. Nat. Methoden 19, 41–50 (2022).

Artikel CAS Google Scholar

Rousseeuw, PJ Silhouettes: Eine grafische Hilfe zur Interpretation und Validierung der Clusteranalyse. J. Comput. Appl. Mathematik. 20, 53–65 (1987).

Artikel MATH Google Scholar

Baglama, J. & Reichel, L. Augmented haben Lanczos Bidiagonalisierungsmethoden implizit neu gestartet. SIAM J. Sci. Berechnen. 27, 19–42 (2005).

Artikel MATH Google Scholar

Hirschfeld, HO Ein Zusammenhang zwischen Korrelation und Kontingenz. Mathematik. Proz. Camb. Philos. Soc. 31, 520–524 (1935).

Artikel ADS MATH Google Scholar

Abdi, H. & Valentin, D. Multiple Korrespondenzanalyse. Enzykl. Mess. Stat. (2007).

Beh, EJ & Lombardo, R. Eine Genealogie der Korrespondenzanalyse: Eine Genealogie der Korrespondenzanalyse. Aust. NZJ-Stat. 54, 137–168 (2012).

Artikel MATH Google Scholar

Hill, MO Korrespondenzanalyse: Eine vernachlässigte multivariate Methode. Appl. Stat. 23, 340 (1974).

Artikel Google Scholar

Pearson, K. Über das Kriterium, dass ein gegebenes System von Abweichungen vom Wahrscheinlichen im Fall eines korrelierten Variablensystems so beschaffen ist, dass vernünftigerweise angenommen werden kann, dass es aus Zufallsstichproben entstanden ist. London. Edinb. Dublin Philos. Mag. J. Sci. 50, 157–175 (1900).

Zhuang, H., Wang, H. & Ji, Z. findPC: Ein R-Paket zur automatischen Auswahl der Anzahl der Hauptkomponenten in der Einzelzellanalyse. Bioinformatik 38, 2949–2951 (2022).

Artikel CAS Google Scholar

Lun A. Bluster: Clustering-Algorithmen für Bioleiter. R-Paketversion 1.8.0. (2022). https://bioconductor.org/packages/bluster.

Pons, P. & Latapy, M. Computing-Communitys in großen Netzwerken mithilfe von Random Walks. in Computer- und Informationswissenschaften – ISCIS 2005 (Hrsg. Yolum, pInar, Güngör, T., Gürgen, F. & Özturan, C.) vol. 3733 284–293 (Springer Berlin Heidelberg, 2005).

Hubert, L. & Arabia, P. Ergebnisse vergleichen. J. Klassifizierung. 2, 193–218 (1985).

Artikel MATH Google Scholar

Barkas, N. et al. Gemeinsame Analyse heterogener Einzelzell-RNA-seq-Datensatzsammlungen. Nat. Methoden 16, 695–698 (2019).

Artikel CAS Google Scholar

Maechler, M., Rousseeuw, P., Struyf, A., Hubert, M. & Hornik, K. Cluster: Grundlagen und Erweiterungen der Clusteranalyse. R-Paketversion 2.1.4 (2022). https://cran.r-project.org/web/packages/cluster

Baron, M. et al. Eine transkriptomische Einzelzellkarte der Bauchspeicheldrüse von Mensch und Maus zeigt die Populationsstruktur zwischen und innerhalb der Zellen. Zellsystem 3, 346-360.e4 (2016).

Artikel CAS Google Scholar

Muraro, MJ et al. Ein Einzelzell-Transkriptom-Atlas der menschlichen Bauchspeicheldrüse. Zellsystem 3, 385-394.e3 (2016).

Artikel CAS Google Scholar

Lawlor, N. et al. Einzelzelltranskriptome identifizieren menschliche Inselzellsignaturen und offenbaren zelltypspezifische Expressionsänderungen bei Typ-2-Diabetes. Genomres. 27, 208–222 (2017).

Artikel CAS Google Scholar

Chen, R., Wu, X., Jiang, L. & Zhang, Y. Einzelzell-RNA-Seq zeigt hypothalamische Zellvielfalt. Cell Rep. 18, 3227–3241 (2017).

Artikel CAS Google Scholar

Darmanis, S. et al. Eine Untersuchung der Transkriptomdiversität des menschlichen Gehirns auf Einzelzellebene. Proz. Natl. Acad. Wissenschaft. 112, 7285–7290 (2015).

Artikel ADS CAS Google Scholar

Aztekin, C. et al. Identifizierung einer regenerationsorganisierenden Zelle im Xenopus-Schwanz. Wissenschaft 364, 653–658 (2019).

Artikel ADS CAS Google Scholar

Referenzen herunterladen

Wir sind dankbar für hilfreiche Diskussionen mit Prof. John Quackenbush und seinem Labor an der Harvard TH Chan School of Public Health, dem Labor von Prof. Aedín Culhane an der University of Limerick und mit Bioconductor-Kollegen, die durch das Seed-Network-Programm der Chan Zuckerberg Initiative finanziert werden. Wir sind auch dankbar für die Unterstützung von Prof. Judith Agudo und ihrem Labor am Dana-Farber Cancer Institute.

Dieses Projekt wurde teilweise durch die Fördernummer CZF2019-002443 (Lead PI: Martin Morgan) der Chan Zuckerberg Initiative DAF ermöglicht, einem beratenden Fonds der Silicon Valley Community Foundation, deren Förderer ACC ist. LH wird teilweise durch das NIH NIGMS Biostatistics Training Grant Program in Statistical Genetics/Genomics & Computational Biology (Predoctoral Training Grant T32GM135117) finanziert.

Abteilung für Biostatistik, Harvard TH Chan School of Public Health, Boston, MA, USA

Lauren L. Hsu

Abteilung für Krebsimmunologie und Virologie, Dana-Farber Cancer Institute, Boston, MA, USA

Lauren L. Hsu

Limerick Digital Cancer Research Centre, Gesundheitsforschungsinstitut, School of Medicine, University of Limerick, Limerick, Irland

Edin C. Culhane

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

LH und ACC haben das Manuskript verfasst und die vorgestellten Methoden konzipiert. ACC hat die Bioconductor-Workshop-Vignette auf CALH geschrieben, das R/Bioconductor-Paketkorral entwickelt, Code zur Durchführung von Analysen geschrieben und Abbildungen erstellt.

Korrespondenz mit Aedín C. Culhane.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Hsu, LL, Culhane, AC Korrespondenzanalyse zur Dimensionsreduzierung, Batch-Integration und Visualisierung von Einzelzell-RNA-seq-Daten. Sci Rep 13, 1197 (2023). https://doi.org/10.1038/s41598-022-26434-1

Zitat herunterladen

Eingegangen: 02. September 2022

Angenommen: 14. Dezember 2022

Veröffentlicht: 21. Januar 2023

DOI: https://doi.org/10.1038/s41598-022-26434-1

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.