# Hausaufgabe, 13. Woche
In dieser Hausaufgabe können Sie die Analyse der Einzelzell-Transkriptomik-Daten aus der Vorlesung nochmals selbst nachvollziehen.
## Laden der Count-Matrix
Im Paper von Stoeckius et al. (Nature Methods, 2017, [doi:10.1038/nmeth.4380](doi.org/10.1038/nmeth.4380)) finden Sie ganz am Ende die "Accession", unter der die Daten im [Gene Expression Omnibus (GEO)](https://www.ncbi.nlm.nih.gov/geo/) hinterlegt sind: GSE100866.
Suchen Sie dort die Matrix mit den UMI-Counts für die mRNA der 8006 Blutzellen ("8K CMBC RNA") und laden Sie sie in R. Führen Sie dann den Code aus der Vorlesung aus, um die Mauszellen und Mausgene zu entfernen, so dass Sie eine Matrix mit 8006 Spalten (für die 8006 mononukläeren Blutzellen) und etwa 20000 Zeilen für die humanen Gene haben.
Falls Ihr Computer Schwierigkeiten hat, mit so eienr großen Datenmatrix zu arbeiten, verwenden Sie [diese Datei](https://papagei.zmbh.uni-heidelberg.de/simon/Vl2021/cbmc_counts_small.zip) mit eienr kleineren Matrix, in der ich 3000 Zellen zufällig ausgewählt habe und schwach exprimierte Gene entfernt habe
## PCA
- Normalisierung: Teilen Sie jedes Matrixelement durch die Gesamtzahl an Molekülen der jeweiligen Zelle, um so die Anteile zu erhalten, die die einzelnen Gene am Gesamtumfang der mRNA-Moleküle der Zelle haben. Denken Sie daran, die Matrix zu transponieren, wie in der Vorlesung gezeigt.
- Log-Transformation: Zählen Sie eine kleine Zahl (z.B. $10^{-4}$) zu den Anteilen hinzu und nehmen Sie dann den Logarithmus.
- PCA: Führen Sie eine PCA der transformierten Matrix durch, um für jede Zelle einen Vektor aus 30 "principal components" (PCs) zu erhalten. Denken Sie daran, dass die PCA-Funktion aus dem irlba-Paket die Zellen in den Zeilen, nicht in den Spalten, erwartet.
- Plotten Sie die ersten beiden PCs gegeneinander.
- Färben Sie in diesem Plot alle Zellen ein, bei denen mindestens ein mRNA-Molekül von einem der beiden T-Zell-Corezeptor-Genen CD3D oder CD3E detektiert wurde.
## UMAP
- Führen Sie nun eine weitere Dimensionsreduktion durch, indem Sie die Matrix mit den PCs aller Zellen an die "umap"-Funktion (aus dem Paket "uwot") übergeben.
- Plotten Sie das UMAP-Embedding. Heben Sie wieder die Zellen farblich hervor, in denen CD3D oder CD3E detektiert wurden.
## Zelltypen
Welche der im UMAP-Plot erkennbaren Cluster oder Blobs enthält die T-Zellen?
Finden Sie ebenso die B-Zellen (erkennbar an der Expression von CD78A und CD78B), die Monozyten (Marker: CD14) und die NK-Zellen (Marker: das für Granulosyn kodierende Gen; welches Symbol hat es?).