``` ```# Questions * - [ ] Please add questions, that test conceptional understanding of the topics of the last three weeks of the Bioinformatics lecture: - Image Analysis - Machine Learning - Segmentation ## Breakout Room 1 1. Was sind mögliche Anwendungsbereiche für Image Analysis? - Mikroskopie (z.B. Fluoreszenzbilder) - Medizinische Bildgebung (MRT,CT) - Auswerten von Bakterienkulturen - Auswertungen von Verhaltensphysiologische Prozesse (Z.B. Drehzahl vom Schwänzeltanz von Bienen) - Kartierungen von Tieren 2. Was sind drei Tasks bei Machine Learning? - Classification - Regression - Segmentation 3. Erkläre die Modelle für das Trainieren beim Machine Learning. - Training: inputs + parameters -> architecture -> prediction + labels -> loss -> new parameter ## Breakout Room 2 - Warum liegt der Dice-score zwischen 0 und 1 =>Der Dice Score zeigt an wie sehr 2 Masken miteinander übereinstimmen, wobei 1 eine völliger übereinstimmung darstellt, und 0 vollständige abweichung. - Wofür wird die Loss-Funktion verwendet? => Gibt den Unterschied zwischen dem Ergebnis des Netzwerks (Prediction) und der Vorhersage der Maske (Label) aus und passt damit die Parameter an. Der loss sollte möglichst klein ausfallen - Was sind mögliche Bildanalyse Methoden und wofür werden sie eingesetzt? => Blurring und Filter (wie der Gaussche Filter) um Artefakte aus dem Bild zu entfernen => Thresholding um Bildkomponenten nach den Grauwerten zu unterscheiden (z.B. Bild von Hintergrund) => Connected components um zusammengehörige Pixel verbundener Flächen zu finden => Morphometrics um Messbare informationen aus dem Bild in Zahlen darzustellen - Was sind die vor- und nachteile eines Deep neural networks? => Schnellle Bildanalyse => Zur anwendung kein Spezifisches Wissen benötigt => Anfällig für fehler => Neural Network nur so gut wie Lerning Datensatz, kann teilweise mit anderen Bildformaten - Welche Möglichkeiten von Supervised learing Algorithmen gibt es ohne neural networks? Wie funktionieren diese? => K-Nearest Neighbours -Klassen werden als Punktwolken in Koordinatensysteme eingetragen -Neue Klasse die zugeordnet werden soll wird eingetragen, Distanz zu nächsten K Nachbarn wird berechnet und entsprechend zum nächsten eingruppiert => Decision Tree -Seire von Ja-Nein Fragen ähnlich eines Bestimmungsschlüssels => Random Forest -Viele randomisierte Decision Trees werden befragt, die Mehrheitsantwort wird als Otput verwendet - Warum werden die Trainingsdaten eines Neural-Network gesplitted? ## Breakout Room 3 Was ist ein neuronales Netzwerk und wie ist es aufgebaut? - Ein neuronales Netz ist eine Ansammlung von einzelnen Informationsverarbeitungseinheiten (Neuronen) - Neuronen sind in layern angeordnet und meistens mit allen Neuronen des nachfolgenden layers verbunden - Input layer → hidden layer → output layer - Bei einer vorhandenen Netzstruktur bekommt jedes Neuron ein zufälliges Anfangsgewicht zugeteilt → die input Daten werden in das Netz gegeben und von jedem Neuron mit seinem individuellen Gewicht gewichtet → Ergebnis dieser Berechnung wird an die Neuronen des nächsten layers weitergegeben, (Aktivierung der Neuronen) → eine Berechnung des Gesamtergebnisses geschieht im output layer -Was versteht man unter Cross Entropy? Welche Parameter gehen in die Berechnung der Cross Entropy ein? => In der Segmentierung entspricht die Cross Entropy im Prinzip einer Klassifikation jedes einzelnen Pixels. Durch Bilden des Mittelwertes kann der Loss des gesamten Bildes ermittelt werden. Parameter die eine ROlle spielen (predicted probability, ground truth) Wie kann man die Sensitivität seines Segmentierungsmodels testen? =>Durch Rotation, Skalierung, Helligkeitsänderung, Bildausschnitt ändern ## Breakout Room 4 Wie lassen sich neuronale Netze trainieren? - Nach jedem Durchgang lassen sich mit Hilfe einer loss-function (z.B. Cross-Entropy-Loss, squared-error-loss etc.) die Parameter des Netzwerkes anpassen Was ist der Vorteil von computerassistierter Bildanalyse? - Ergebnisse sind schneller - Ergebnisse sind konsistent reproduzierbar In welcher Form werden Bilder im Computer reprästentiert? - Bilder Bestehen aus Pixeln (= picture element). Dabei ist jeder pixel ein Tupel aus drei Werten zwischen 0 und 255 (bei 8-bit Bildern). Jeder Wert repräsentiert dabei die Intensität des entsprechenden Farbkanals (R, G, B). Wie müssen Trainigsdaten für neuronale Netzwerke gesplitted werden? Warum? - Training / Validation / Test Sets - um das Modell zu testen mit zuvor nicht verwendeten Daten; Netzwerk könnte die Trainingsdaten auswendig lernen (=overfitting), aber neue Daten müssen dadurch nicht unbedingt auch gut funktionieren --> Daten von Modell fernhalten bis Training beendet ist und nach dem Training als Test-Set (für Netzwerk fremde, neue Daten) verwenden Was ist ein binäres Bild/Maske? - Es ist ein Bild, was nur aus 2 Werten besteht: Schwarz/Weiss Erklären Sie die Funktionsweise eines Random Forest. - besteht aus mehreren Decision Trees - Vorhersage: jeder der internen Decision Trees wird gefragt - das, was die Mehrheit der Decision Trees als Anwort generiert, ist die Gesamtantwort des Forest* ## Breakout Room 5 1. Skizziere und beschreibe/erkläre ein allgemeines Maschine learning Konzept (inputs, parameters, architecture, predictions, labels,loss) 2. Welche Daten werden für Machine Learning benötigt? Wie werden diese aufgeteilt? -Gesamter Datensatz-> Benutzbare Daten/Hold-Out Daten -> Training Daten / Validierungs Daten / Test Daten 4. Welche drei Modelle werden beim Machine Learning angwendet? - K-nearest neighbour, Decision Tree, Random forrest 6. Was ist der Unterschied/Zusammenhang zwischen Klassifikation und Segmentierung? Klassifikation wird auf einBild angewendet (zu welcher Klasse/Art es gehört) und bei der Segmentierung wird es jeder Pixel eines Bildes einer Klasse zugeordnet 7. Berechne den DICE Score für (BSP) 8. Berechne den Loss Wert für (BSP) ## Breakout Room 6 1. Wie berechnet sich die cross Entropy und der Dice und was sagen sie aus? Cross Entropy - negative Summe aller true probabilities * predicted probability Dice - 2 * Wahrscheinlichkeit der Schnittmenge aus Klassifikationen A & B / Wahrscheinlichkeit Klassifikation A * Wahrscheinlichkeit Klassifikation B Cross Entropy sagt aus wie gut die predicted probability mit der true probability übereinstimmt Dice - prozentuale Übereinstimmung der true und der predicted probability pro Pixel 3. Shortly explain what a gaussian blur is. = a convolutional image manipulation method that uses a gaussian function convolution = a small matrix (kernel) is run over each pixel in the image new pixel value is calculted based on the other values in the kernel In welcher Form werden Bilder im Computer reprästentiert? Bilder Bestehen aus Pixeln (= picture element). Dabei wird jeder pixel als ein Tupel aus drei Werten zwischen 0 und 255 (bei 8-bit Bildern) dargestellt, wenn man die Farbwerte in RGB repräsentiert(Rot, Grün, Blau). 4. ## Breakout Room 7 1. Was sagt uns der Dice Score? - Ermöglicht es uns den loss-Wert / die Effektivität des Algorithmus als Prozentzahl zu interpretieren 2. Wie stellt der Computer Bilder dar? - Bilder bestehen aus einzelnen Pixeln (picture element), wobei jedem Pixel drei Werte zwischen 0 und 255 (bei 8-bit) zugewiesen werden. Diese entsprechen den Farbkanälen (R, G, B) 3. Was ist der Vorteil von computerassistierter Bildanalyse? - Ergebnisse sind schneller da als händisch - Ergebnisse sind konsistent reproduzierbar 4. Was ist Thresholding - Simpelste Form der Bild-Segmentierung - Bild in Grautöne konvertieren - Einen Wert im Histogram wählen - Alle Werte darüber erhalten den Wert 255; alle Werte darunter erhalten den Wert 0 - Resultat: Bild mit nur 2 pixel values, das man als Maske verwenden kann 5. Zeichne den generellen machine learning task/woraus besteht der generelle machine learning task? ## Breakout Room 8 1. Erklären Sie die Funktionsweise eines Random Forest. - besteht aus mehreren Decision Trees - Vorhersage: jeder der internen Decision Trees wird gefragt - das, was die Mehrheit der Decision Trees als Anwort generiert, ist die Gesamtantwort des Forest 2. Warum braucht man für die Testung eines Modells sogenannte Hold-out Data? - hold out data = test data - Netzwerk könnte die Trainingsdaten auswendig lernen (=overfitting), aber neue Daten müssen dadurch nicht unbedingt auch gut funktionieren -->Hold-out Data von Modell fernhalten bis Training beendet ist und nach dem Training als Test-Set (für Netzwerk fremde, neue Daten) verwenden 3. Wie berechnet man den loss und wie interpretiert man ihn? - mithilfe der Cross-Entropy: Formel -->je kleiner der loss, desto besser die Vorhersage des Modells -->loss fließt wieder in neue Berechnung der Parameter des Modells ein 4. Wie berechnet man den Dice-Score und welche Werte kann dieser annehmen? - Formel -->Werte zwischen 0 und 1 -->je größer der Wert, desto (Rückmeldung für uns als Menschen) 5. Was sind die Task-Familien des Machine-learning? - Klassifikation - Regression - Segmentierung ## Breakout Room 9 1) What is a loss function and name an example? - function to determine how well the model is performing - loss function is high when predicted labels deviate much from ground truth labels - over multiple iterations of learning the goal is to minimize that loss function (=gradient descent) - example: cross entropy 2) Explain how (in which parts and why) a data set is split for machine learning. - training data (majority of data; used to train the model) - validation data (used to validate the training) - test data (used to test the performance of the model; data unseen by the model) 3) Explain the difference between regression and classification. - regression is used for predicting a continous variable (for example: predicting what the survival chance for a patient is, based on some input data) - classifictaion is used to predict descrete variables (labels) (for example: if a patient survives or not, based on some input data) - special case of classification: segmentation (classification of each pixel in an image) 4) In which form are images represented in a computer? - an image consists of pixels (= picture element) - each pixel is a tuple of 3 values between 0 and 255 (for 8 bit images) - each value represents the intensity of the respective channel (r, g, b) ## Breakout Room 10 1.) Was ist der Unterschied zwischen der Cross entropy und des Dice Score - Cross entropy berechnet den loss fürsn deep learning model - der Dice Scroe kann benutzt werden um die Effektivität des Models 2.) Was ist der Vorteil von computerassistierter Bildanalyse? Ergebnisse sind schneller da als händisch & konsistent reproduzierbar 3.)Was sind Artefakte? Ein kleiner Punkt, der nicht zum Bild gehört. Dieser kann per Gausfilter bereinigt werden kann. 4.) In welche Teile werden Datensätze aufgeteilt? Training Data Validation Data -Test Data