# Hausarbeit zur Vorlesung "Datenanalyse in der Biologie", Wintersemester 2021/22 ## Vorbemerkungen - Keine Sorge, die Angabe sieht länger aus als sie ist. Sie enthält mehr Hinweise und Erläuterungen als Aufgaben. - Sie müssen nicht alle Aufgaben bearbeiten, um zu bestehen (aber um volle Punktzahl zu erhalten, natürlich schon). - Erstellen Sie Ihre Hausarbeit, wie Sie einen Praktikumsbericht erstellen würden. Fügen Sie also genug Text ein, so dass auch ein Leser, der die Aufgabenstellung nicht kennt, versteht, um was es geht. Wenn Sie also Daten laden, erläutern Sie kurz, wo die Daten herkommen und wie sie erhoben wurden. Erklären Sie also vor jeder Analyse, was Sie herausfinden möchten, und nach jedem Ergebnis, was es bedeutet. Die Qualität des Textes geht in die Bewertung ein. (Schreiben Sie aber bitte nicht zu viel, sonst muss ich so viel lesen.) - Wenn Sie Analysen durchführen, geben Sie den R-Code hierzu an und erklären Sie, was die einzelnen Zeilen bewirken sollen, damit ich erkennen kann, dass Sie Ihren Code auch verstehen. - Ich empfehle, die Arbeit als R-Notebook mit R-Studio anzufertigen. Senden Sie mir die fertige Arbeit als PDF- oder HTML-Datei und fügen Sie ggf. die Rmd-Datei hinzu. - **Abgabetermin ist der 19. April 2022**. Senden Sie Ihre Arbeit an simon.anders@bioquant.uni-heidelberg.de . Wenn Sie den Abgabetermin aus triftigen Gründen (Krankheit, wichtige persönliche Gründe, größere studienbezogene Verpflichtungen, o.ä.) nicht einhalten können, wenden Sie sich bitte an mich. - **Nachtrag zum Abgabetermin** (eingefügt am 15.4.): Bitte beachten Sie ggf. diesen Post im Forum: https://moodle.uni-heidelberg.de/mod/forum/discuss.php?d=111145#p228661 - Die Angabe steht online seit dem 4. März 2022. - Ich habe auf Moodle ein [Forum](https://moodle.uni-heidelberg.de/mod/forum/view.php?id=583918) für Fragen eingerichtet. Wenn Sie Schwierigkeiten haben, stellen Sie Ihre Fragen dort, so dass alle meine Antwort sehen können, und nicht manche von Ihnen einen Vorteil durch privat gestellte und beantwortete Fragen haben. - "Aller Anfang ist schwer." Das gilt besonders in der Bioinformatik, wo der erste Schritt einer Analyse (oft sogar das Laden der Daten) häufig der schwierigste ist. Wenn Sie also bereits am Beginn einer Aufgabe große Schwirigkeiten haben sollten, schäuen Sie sich bitte nicht, im Forum zu fragen. - Wenn Sie allgemeine Fragen zum Vorlesungsstoff oder zur Bioinformatik haben, können Sie sich jederzeit per Mail an mich wenden oder in meinem Büro (BioQuant, Raum 664) vorbei kommen. ## Aufgabe 1: Entwicklung der Adipositas-Epidemie In dieser Aufgabe werden wir wieder, wie in der Vorlesung, mit den Daten der NHANES-Studie zur Volksgesundheit in den USA arbeiten. In der Vorlesung haben wir bisher immer mit Durchgang J (10. Durchgang, 2017-2018) gearbeitet. Hier werden wir nun auch die älteren Durchgänge verwenden, die ebenso jeweils Daten von 2 Jahren umfassen. Unser Ziel ist, grafisch darzustellen, wie sich der Anteil an Personen mit krankhaftem Übergewicht in der abgedeckten Zeit (1999 bis 2018) entwickelt hat. ### (a) Zusammenstellen der Daten Laden Sie von der Webseite der NHANES-Studie zu den 10 Durchgängen der Jahre 1999 bis 2018 die Datentabellen herunter, in denen Sie sie demographischen Angaben ("DEMO") und die Daten zu den Körpermaßen (body measurements, "BMX") der Probanden finden. Fügen Sie diese 20 Tabellen zu einer Tabelle zusammen, die eine Zeile für jeden Probanden jedes Jahres hat, sowie Spalten mit folgenden Informationen: Lebensalter in Jahren, Geschlecht, Körpergröße, Gewicht, Ethnie, sowie alle weiteren Spalten, die Sie in den folgenden Aufgaben brauchen. Hinweise: - Um die DEMO- und die BMX-Tabellen zusammen zu fügen, verwenden Sie einen Table-Join nach Probanden-Nummer, wie in der Vorlesung besprochen. (Frage hierzu: Gab es Probanden, die an mehreren Durchgängen teilnahmen?) - Um Tabellen untereinander zusammen zu fügen, verwenden Sie `bind_rows`. Zum Beispiel fügt `bind_rows( tbl1, tbl2, tbl3)` die angegeben drei Tabellen (die alle dieselben Spalten haben müssen) so zusammen, dass eine lange Tabelle entsteht, die erst die Zeilen der ersten, dann der zweiten und dan der dritten Tabelle enthält. - Wie erkennen Sie in der Gesamt-Tabelle, welcher Proband aus welchem Durchgang stammt? Sehen Sie sich hierzu die Spalte `SDDSRVYR` in den DEMO-Tabellen an. - Wann immer eine Spalte kodierte Faktoren enthält, ersetzen Sie die numerischen Codes bitte durch Worte. Ersetzen Sie also z.B. in der Spalte zum Geschlecht die Werte "1" und "2" durch z.B. "maennlich" und "weiblich", "m" und "w" oder ähnliches. - In der Vorlesung haben wir die Ethnie imemr der Spalte RIDRETH3 entnommen. Verwenden Sie diesmal RIDRETH1, da RIDRETH3 erst seit 2018 erfasst wurde und daher in den älteren Durchgängen fehlt. ### (b) Berechnen des Anteils Adipöser Die Weltgesundheits-Organisation empfiehlt, Übergewicht ab einem Body-Mass-Index (BMI) von 30 als krankhaft zu bezeichnen. Berechnen Sie für jeden Durchgang, welcher Anteil der Männer und Frauen in der Studien-Population jeweils krankhaft übergewichtig ("adipös") ist. Als Grundgesamtheit verwenden Sie alle erwachsenen Teilnehmer (Alter min. 18 Jahre), für die die Daten für den BMI (also Größe und Gewicht) vorliegen. Erstellen Sie eine Tabelle, mit einer Zeile pro Durchgang und drei Spalten: die Jahre des Durchgangs, der Anteil Adipöser unter den Männern, und der Anteil Adipöser unter den Frauen. ### (c\) Grafische Darstellung Stellen Sie die Daten aus der vorherigen Aufgabe in einem Plot dar, der die zeitliche Entwicklung des Anteils Adipöser für die beiden Geschlechter darzustellt. Sie werden einen Knick bemerken. Wundern Sie sich nicht; wir kommen weiter unten darauf zurück. ### (d) Aufteilung nach Ethnie, Fehlerbalken Spalten Sie die Daten nach Geschlecht und nach Ethnie auf. Erstellen sie für jede Ethnie getrennt einen Plot wie unter (c\) (oder verwenden Sie verschiedene Farben, um dies in einem Plot darzustellen). Berechnen Sie binomische Konfidenzintervalle für die einzelnen Anteilswerte und stellen Sie diese im Plot durch Fehlerbalken dar. Hinweis (hinzugefügt am 6.3.): Mit "Anteil" ist jeweils gemeint der Bruchteil der Probanden einer Gruppe, der adipös ist (z.B.: xx% der weißen Frauen sind adipös.) ### (e) Berücksichtigung der Probanden-Gewichte Bisher und auch in der Vorlesung haben wir stets die vereinfachende, aber unrichtige, Annahme gemacht, dass die Probanden der NHANES-Studie einzeln und unabhängig voneinander aus der amerikanischen Gesamtbevölkerung zufällig ausgewählt wurden. Wenn dem so wäre, würde jeder der $n$ Probanden für denselben Anteil $1/n$ der amerikanischen Bevölkerung stehen. Aus Gründen, die ich im Anhang (siehe unten) genauer erkläre, ist dem aber nicht so. Die Spalte "WTMEC2YR" gibt für jeden Probanden an, wie viele Einwohner dieser Proband repräsentiert. Wiederholen Sie die Aufgaben (b) und (c\), berechnen Sie aber dieses Mal den Anteil Adipöser an einer Gruppe wie folgt: Addieren Sie die Probanden-Gewichte (Werte in Spalte WTMEC2YR) für alle adipösen Probanden in der Gruppe und teilen Sie dies durch die Summe der Probanden-Gewichte aller Probanden in der Gruppe. Erstellen Sie hieraus einen neuen Plot. Verzichten Sie dieses Mal auf die Berechnung von Konfidenzintervallen und auf das Einzeichnen von Fehlerbalken. ### (f) Interpretation Die Zunahme krankhaften Übergewichts ist eines der wichtigsten Gesundheitsprobleme der westlichen Welt, oft bezeichnet als die Adipositas-Epidemie. Beschreiben Sie, was Sie aus den eben erstellten Plots zu diesem Thema ablesen können, und kommentieren Sie dies. ## Aufgabe 2: Risikofaktoren für Adipositas Welche Bevölkerungsschichten sind wohl besonders anfällig für Adipositas? Wir nähern uns dieser Frage wieder mit den NHANES-Daten an. Verwenden Sie hier nur die Daten aus dem 10. Durchgang (2017-18). Um die Aufgabe nicht zu schwierig zu machen: Ignorieren Sie die Probanden-Gewichtungen in dieser Aufgabe; tun Sie also so, als ob alle Probanden unabhängig voneinander aus der Gesamtbevölkerung zufällig ausgewählt wurden. ### (a) Adipositas und Einkommen Ist Adipositas eine Armuts-Krankheit? Untersuchen Sie, ob Probanden, deren Familien-Einkommen nahe an oder unter der Armutsgrenze liegt, häufiger adipös sind. Dichotomisieren Sie dazu den BMI, wie zuvor, bei der Grenze 30 in "adipös" und "nicht adipös", und teilen Sie die Probanden ebenso in "arm" und "nicht arm" auf, indem Sie die Grenze beim 1.3-fachen der Armutsgrenze setzen. (Verwenden Sie Spalte "INDFMPIR".) Erstellen Sie, wieder nach Ethnie und Geschlecht aufgeschlüsselt, Kontingenztafeln (arm ja/nein gegen adipös ja/nein). Bestimmen Sie, aufgeschlüsselt nach Geschlecht und Ethnie, das relative Risko, d.h., berechnen Sie, um welchen Faktor das Risiko, adipös zu sein, steigt, wenn jemand arm ist. (Als "Risiko", adipös zu sein, verwenden wir hier einfach den Anteil adipöser Probanden in der jeweiligen Kategorie.) ### (b) statistische Signifikanz Wir wählen eine Kategorie aus, z.B. weiße Frauen: Ist der Zusammenhang zwischen Adipositas und Armut statistisch signifikant? Untersuchen Sie hierzu die Kontingenztafel aus Teilaufgabe (a) durch einen geeigneten statistischen Test und kommentieren Sie das Ergebnis. [Hinweis (hinzugefügt am 6.3.): "Zusammenhang" heißt natürlich nicht notwendigerweise, dass eine klare Ursache-Wirkungs-Beziehung besteht. Wir teilen hier die Bevölkerung in Gruppen auf und fragen nur, ob die Prävalenz von Adipositas sich zwischen den Gruppen unterscheidet. Gerade wo die Gruppeneinteilung biologisch bedingt zu sein scheint (Geschlecht, Hautfarbe), können Unterschiede leicht ihre Ursache eher in sozio-ökonomisch bedingten Lebensumständen haben, und unsere einfache Analyse darf natürlich nicht den Anspruch erheben, diesem komplexen und aus gutem Grund politisch aufgeladenen Thema gerecht zu werden.] ### (c\) weitere Kovariate Neben Geschlecht, Ethnie und Armut gibt es sicher noch weitere Faktoren, die einen Zusammenhang mit Adipositas aufweisen könnten. Wählen Sie aus den vielen in NHANES erfassten Angaben zwei weitere aus, bei denen Ihnen ein Zusammenhang möglich erscheint. Erstellen Sie geeignete Plots, um die von Ihnen gewählten Daten und ihren möglichen Zusammenhang mit Adipositas oder BMI grafisch darzustellen. Führen Sie ggf. einen statistischen Test durch. Wie interpretieren Sie Ihre Plots und Ihren Test? Kommentieren Sie Ihr Ergebnis. Gehen Sie dabei auch auf die Frage ein, ob gesagt werden kann, ob wirklich der andere Faktor die Ursache der Adipostas ist, oder ob der Ursache-Wirkung-Zusammenhang nicht auch umgekehrt oder komplex sein könnte. ## Aufgabe 3: Einzelzell-Sequenzierung der Lunge Das Projekt "Tabula Muris", beschrieben in [diesem Paper](https://www.nature.com/articles/s41586-018-0590-4), war eines der ersten sog. Zell-Atlas-Projekte mit Einzelzell-Transkriptomik: Für 20 verschiedene Gewebe oder Organe der Maus wurden die Zellen dissoziiert und ihr Trankriptom sequenziert. Wir möchten uns hier die Daten von der Lunge ansehen, die mit der SMARTSeq2-Technik erzeugt wurden. Die Count-Matrizen können von der [Webseite des Projekts](https://tabula-muris.ds.czbiohub.org/) herunter geladen werden. Ich habe die Matrix für die Lunge verkleinert, in dem ich die Zeilen für wenig informative Gene entfernt habe, damit sie auch auf einem älteren Computer handhabbar wird . (Genauer gesagt: Ich habe alle Gene entfernt, bis auf die 3000 Gene mit dem höchsten Varianz-Mittelwert-Verhältnis der Anteilswerte.) Sie finden die Matrix [hier](https://papagei.bioquant.uni-heidelberg.de/simon/Vl2021/Tabula_muris_Lung.csv.gz). ### (a) Dimensionsreduktion Erstellen Sie eine dimensionsreduzierte Darstellung der Zellen, also einen UMAP- oder tSNE-Plot. Sie können z.B. dem Vorgehen aus dem Vorlesungs-Skript, oder auch dem aus dem Seurat-Tutorial folgen. Mögliches Vorgehen: Normalisieren Sie die Counts, indem Sie durch die Werte für jede Zelle durch die Gesamtzahl an Reads pro Zelle teilen, addieren Sie einen kleinen Wert (z.B. $10^{-5}$), nehmen Sie den Logarithmus, und führen Sie dann eine zu 30 Komponenten trunkierte PCA durch. Geben Sie die PCA-Matrix an die UMAP-Methode, und plotten Sie schließlich die 2D-UMAP-Einbettung der Zellen ### (b) Endothelzellen Endothelzellen spielen in der Lunge eine besonders wichtige Rolle: sie müssen das Blut um die Lungenbläschen herum leiten und den Gasaustausch ermöglichen. Man erkennt Endothelzellen z.B. daran, dass sie die Gene *Pecam1* und *Cdh5* exprimieren. Färben Sie die Zellen in Ihrem UMAP-Plot nach der Expressionsstärke dieser beiden Gene ein und finden Sie so heraus, wo in Ihrem Plot die Endothel-Zellen zu finden sind. ## (c\) Clustering Teilen Sie die Zellen in Cluster von Zellen mit ähnlichem Expressions-Profil ein, indem Sie ein Louvain/Leiden-Clustering durchführen. (Auch das haben wir in der Vorlesung gemacht.) Stellen Sie das Ergebnis dar, indem Sie die Zellen nach Cluster-Zugehörigkeit einfärben. Welche Cluster werden durch die Endothelzellen gebildet? Erstellen Sie einen weiteren Plot mit nur zwei Farben, einen für die Zellen in den Endothel-Clustern, einen für die übrigen Zellen. ## (d\) Expressionsvergleich *Diese Aufgabe ist evtl. etwas schwieriger als die vorigen.* Berechnen Sie für jedes Gen den Mittelwert der Expression (auf der Log-Skala), einmal gemittelt über alle Zellen in den Endothel-Cluster, einmal über die übrigen Zellen. Erstellen Sie einen Plot, mit einem Punkt für jedes Gen, und dem Mittelwerte über die Endothel-Zellen als y- und die anderen Mittelwerten als x-Koordinate. Unsere Marker *Pecam1* und *Cdh5* sollten klar herausstechen. Können Sie noch einige weitere Gene bestimmen, die in Endothelzellen deutlich stärker als anderswo exprimiert sind? ## Bonusaufgabe: Aerozyten *Diese Bonusaufgabe ist nicht erforderlich, wenn Sie nur eine "durchschnittliche" Bewertung erzielen möchten. Sie dient dazu, denjenigen unter Ihnen, die besonders gut oder interessiert sind, eine zusätzliche Herausforderung zu bieten, und soll mir beim Bewerten helfen, zu erkennen, wer sich eine 1,0 verdient hat.* Gillich et al. haben sich die Daten der Tabula Muris zur Lunge genauer angesehen. Dabei sind ihnen einige Zellen aufgefallen, die sich von den anderen Endothelzellen und deren bekannten Expressionsmuster deutlich unterscheiden. In [ihrer Veröffentlichung](https://www.nature.com/articles/s41586-020-2822-7) weisen sie nach, dass es sich hierbei um einen neuen Typ von Kapillar-Endothelzellen handelt, der nur in der Lunge vorkommt, und den sie "alveoläre Kapillar-Endothelzellen" (aCaps) oder "Aerozyten" tauften. Sie können als Bonausaufgabe versuchen, die anfängliche Beobachtung (Abbildung 1 des Papers von Gillich et al.), nachzuvollziehen. Verfeinern Sie dazu die Annotation Ihrer Cluster von Endothelzellen, wie es auch Gillich et al. in der Abbildung gemacht haben. Wie im Abschnitt "Analysis of scRNA-seq data" des Papers beschrieben, kann man die Subtypen wie folgt erkennen: - Endothelzellen, die *Pdpn* und *Prox1* exprimieren, kleiden keine Blutgefäße, sondern Lymphgefäße, aus. - Der Van-Willebrandt-Faktor (Gen *Vwf*) wird nur in größeren Blutgefäßen (Arterien und Venen) exprimiert, nicht aber in Kapillaren. - Arterien exprimieren außerdem *Gja5* und *Bmx*, Venen *Nr2f2*. (Die Expression ist aber recht schwach und gibt daher kein so klares Signal.) - Die verbleibenden Cluster (die also zwar *Pecam1* und *Cdh5*, aber nur allenfalls sehr wenig der eben genannten Marker exprimieren) sind Endothelzellen der Blut-Kapillaren. - Hierunter finden sich zum einen Zellen, die den Arterien und Venen zumindest nahe sind, und zum anderen andere solche, die einen völlig separaten Cluster bilden. Ersteres sind die gewöhnlichen kapillaren Endothelzellen (general capillaries, gCaps), letztere die Aerozyten (aCaps). Können Sie ungefähr eingrenzen, welches die gCaps and welches die aCaps sind? Nehmen Sie ggf. die anderen Marker aus der Abbildung 1 des Papers zuhilfe. Finden Sie nun einige Gene, die in den aCaps deutlich höher als in den gCaps exprimiert sind. Sind es dieselben, die auch in der Heatmap in der Abbildung gezeigt sind? --- ## Anhang: Erläuterungen zu den NHANES-Probanden-Gewichten In der Vorlesung habe ich die Daten der NHANES-Studie so verwendet, also ob die Probanden der Studie einzeln und unabhängig voneinander aus der amerikanischen Gesamtbevölkerung zufällig ausgewählt wurden. Tatsächlich ist das Auswahl-Verfahren aber deutlich komplizierter. Diese Erklärung, die ich anfangs weggelassen habe, möchte ich hier nachholen. Die NHANES-Studie verwendet ein vierstufiges Auswahlverfahren, dessen Details Sie, wenn Sie möchten, [hier](https://wwwn.cdc.gov/nchs/nhanes/tutorials/module2.aspx) nachlesen können. Es genügt aber, wenn Sie die folgenden beiden Punkte kennen: Zum Einen: Wenn die Probanden wirklich frei verteilt aus dem Gesamtgebiet der USA gezogen würden, würde wohl jeder Proband aus einem anderen Ort kommen. Die Teams, die die Befragungen und die körperlichen Untersuchungen durchführen, müssten also für jeden einzelnen Probanden weite Reisen durchführen. Das wäre natürlich viel zu aufwändig. Daher wurden jedes Jahr etwa 15 Landkreise (Counties) als sog. "primary sampling units" (PSU) zufällig aus der Liste aller Landkreise der USA ausgewählt. Die Teams bereisten dann über das Jahr nach und nach diese Counties und wählten jedes Mal aus den Einwohnern des Counties einige Duzend Probanden aus, die befragt und untersucht wurden. Auch bei dieser Auswahl wurde der Countiy in Siedlungsgebiete unterteilt und nur einige der Gebiete zufällig ausgewählt. Zum Anderen: Da das Ziel der Studie ist, Probleme in der Volksgesundheit aufzudecken, war es sinnvoll, besonderes Augenmerk auf benachteiligte Bevölkerungsgruppen zu legen, um besonders gute Daten dort zu bekommen, wo häufigere Gesundheitsprobleme zu erwarten sind. Daher wurden die Counties und nach einem Schema ausgewählt, das Counties mit einem hohen Anteil bestimmter Minderheiten (oder einem hohen Anteil wirtschaftlich schwacher Einwohner) bevorzugt. Somit sind bestimmte Midnerheiten in den NHANES-Stichproben bewusst überrepräsentiert. Welche Minderheiten verstärkt untersucht wurden, änderte sich von Durchgang zu Durchgang. Ein einfaches Verfahren für so eine "absichtlich verzerrte", aber dennoch zufällige, Auswahl wäre z.B., für jedes "normale" County der USA einen Zettel in eine Lostrommel zu werfen, für "bevorzugte" Counties aber zwei Zettel mit demselben Namen, und dann 15 Zettel zu ziehen, um die PSUs auszuwählen. Das tatsächliche Verfahren war natürlich komplizierter; insbesondere muss die Ziehungswahrscheinlichkeit auch von der Einwohnerzahl der Counties abhängen. Ziehungs-Wahrscheinlichkeit: Wir können für jeden Einwohner der USA eine Wahrscheinlichkeit angeben, dass dieser Einwohner für einen gegebenen Durchgang der NHANES-Studie ausgewählt wurden. Einwohner der Counties, die "bevorzugt" behandelt wurde, sind höher als Einwohner von mehr "durchschnittlichen" Counties (im vereinfachten Modell mit der Lostrommel: doppelt so hoch). Probanden-Gewichte: Die NHANES-Statstiker haben diese Wahrscheinlichkeit für jeden Probanden berechnet, und in eine "Gewichtung" (sample weight) umgerechnet. Diese Zahl ist in der DEMO-Tabelle in der Spalte "WTMEC2YR" angegeben und wird als Probanden-Gewichtung ("sample weight") bezeichnet. Die Zahlen sind so skaliert, dass sie folgendermaßen interpretiert werden können: Das "sample weight" eines Probanden gibt an, wie viele Einwohner der USA dieser Proband "repräsentiert". Die Summer aller Probengewichte ist also gleich der Einwohnerzahl der USA. Probanden aus in der Auswahl "bevorzugten" Minderheiten haben ein kleineres Gewicht, was die Über-Repräsentation dieser Minderheit genau ausgleicht. Verwendung der Probanden-Gewichte: Nehmen wir an, wie möchten wissen, welcher Anteil der Einwohner Amerikas adipös sind. In der Vorlesung haben wir dazu einfach die Anzahl der adipösen Probanden geteilt durch die Anzahl aller Probanden, für die wir den BMI wissen. Das Ergebnis einer solchen Rechnung ist aber durch die gewollte Überrepräsentation der Minderheiten verzerrt. Um ein korrektes Ergebnis zu erhalten, das repräsentativ für die Gesamt-USA ist, rechnen wir hingegen wir folgt: Wir summieren die Probanden-Gewichte aller adipösen Probanden auf und teilen durch die Summer der Probanden-Gewichte aller Probanden. Diese Feinheit hatte ich in der Vorlesung ausgelassen; sie bewirkt aber dennoch einen deutlichen Unterschied. Weitere Details: - Das Wort gewicht hat jetzt zwei Bedeutungen. Achten Die also darauf, Körper-Gewicht (in kg) und (statistisches) Probanden-Gewicht (Anzahl der durchd en Probanden repräsentierten Personen) nicht durcheinander zu bringen. - Nicht alle Probanden haben an allen Untersuchungen teilgenommen. Daher gibt es mehrere Probengewichte, z.B. WTINT2YR für die Gesamtheit aller Probanden, mit denen Interviews durchgeführt wurden, WTMEC2YR für alle, die in den "Mobile Examination Centers" (MECs) untersucht wurden, etc. Wir verwenden der Einfachheit halber die Gewichte aus WTMEC2YR, da in den MECs auch Körpergewicht und Größe gemessen werden. - Die NHANES-Statistiker haben mit einem komplizierten Verfahren in die Gewichte auch hinein gerechnet, wie häufig Non-Responder (also ausgewählte Personen, die nicht teilnehmen wollten) in den einzelnen Sampling-Units waren, sowie andere Besonderheiten. Deshalb ergibt sich für jeden Probanden ein ganz eigenes Gewicht. - Die Tatsache, dass wir bei Probanden aus derselben Sampling-Unit erwarten müssen, dass sie sich ähnlicher sind als zwei völlig zufällig ausgewählte Einwohner der USA, bedeutet, dass wir bei naiven Versuchen, die Varianz oder den Standardfehler eine Größe zu berechnen, zu kleine Werte arhalten. Die Berechnung von Standardfehlern in Studien wie NHANES ist daher deutlich komplizierter, als wir es in einer Einführungsvorlesung besprechen könnten. Überlassen Sie dies daher professionellen Statstikern und verzichten Sie auf Fehlerbalken, wann immer Sie die Probandengewichte verwenden. ###### tags: `Vl Datenanalyse 21/22`