# Hausaufgaben, 9.Woche ###### tags: `Vl Datenanalyse 21/22` ## Aufgabe 1: Nochmal OSCC Sehen Sie sich noch mal die Hausaufgabe von der 7. Woche an (die Analyse der RNA-Seq-Daten der OSCC-Studie). Beim ersten Versuch, vor zwei WOchen, hatten die meisten von Ihnen Schwierigkeiten, aber in den letzten beiden Übungen haben wir die schwierigen Punkte aus verschiedenen Blickwinkeln besprochen. Versuchen Sie es also bitte einfach nochmal. Gelingt es Ihnen nun, den MA-Plot zu erstellen? Machen die Transformationen zum Logarithmus nun Sinn? ## Aufgabe 2: Skript der Vorlesung Sehen Sie sich das Skript der Vorlesung dieser Woche nochmal an. Laden Sie die Rmd-Datei und probieren Sie alle R-Code-Chunks aus. "Tasten" Sie sich bei Code-Chunks mit mehreren Zeilen zeilenweise vor, indem Sie mit nur der ersten Zeile beginnen und dann immer je eine Zeile mehr ausführen. ## Aufgabe 3: Gene-set Enrichment Verschaffen Sie sich zunächst eine Liste aller Gene, die in unserem OSCC-Beispiel signifikant hochreguliert sind im Vergleich Tumor zu Normal. Sie sollten Sie bei Aufgabe 2 gefunden haben (rowwise t tests); wenn nicht, können Sie sie auch [hier](https://papagei.zmbh.uni-heidelberg.de/simon/Vl2021/oscc_ttres.rda) herunter laden. Laden Sie sich nun von der Webseite der [Moleculare Signatures Database](http://www.gsea-msigdb.org/gsea/msigdb/index.jsp) die Liste der Gene im Gene-Set "Hallmark Endothelial to mesenchymal transition" herunter. Wählen Sie das Text-Format ("txt") und lesen Sie die Datei mit "readLines" ein. Fügen Sie nun der Tabelle mit den Ergebnissen der t-Tests eine Spalte hinzu, die angibt, ob das jeweilige Gen in der Gen-Liste aus der MSigDb vorkommt. Dazu können Sie eine Zeile wie ``` mutate( in_gene_set = gene %in% gene_set ) ``` verwenden. Erzeugen Sie dann daraus eine sog "contingency table" (auch Vier-Felder-Tafel genannt), die so aussieht: | Anzahl Gene | signif. hochreguliert | nicht signif. hochreguliert | | -------- | -------- | -------- | | **im Gene-Set** | nn | nn | | **nicht im Gene-Set** | nn | nn | Zählen Sie dazu für jedes dser vier Felder, für wie viele Gene der Wert zutrifft und für wie viele nicht. Bestimmen Sie dann den Anteil von Genen aus dem Gen-Set innerhalb der signifikant hochregulierten Gene, sowie den Anteil von Genen aus dem Gen-Set innerhalb der nicht signifikant hochregulierten Gene. Wiederholen Sie dies für ein weiteres Gene-Set aus der MSigDb.