# Spezialisierung ## Angabe > Data-Science Sensordaten werden meist als Grundlage für etwaige Steuerungen verwendet. Wie in dem Beispiel, sollen Temperatur- bzw. Luftqualitätsdaten zur aktiven Steuerung bzw. Benachrichtigung eingesetzt werden. Wie können Daten aus Sensor Networks in Echtzeit analysiert und entsprechend weiter verwendet werden? Wie können ungewöhnliche Abweichungen bzw. Fehler bei Temperaturmessungen erkannt und entsprechend ignoriert werden? Welche Möglichkeiten der Umsetzung bieten sich hier an? ## Ausarbeitung Wichtig ist zu beachten, dass die erhaltenen Daten den Erwartungen entsprechen. Wenn man in den letzten 24h nur Temperatur-Werte $\in [30,35]$ bekommen hat, macht ein plötzlicher Datenpunkt von 42°C sehr wenig Sinn. Natürlich ist nicht nur darauf zu achten, dass die Daten zu den bisherigen Beobachtungen passen, sondern auch allgemein sinnvoll sind. Zum Beispiel, macht ein Temperaturwert von meinem Balkon von 60°C trotzdem keinen Sinn, auch wenn die zuvor erhaltenen Daten in $\in [57,66]$ lagen. Hier handelt es sich dann entweder um ein Fehlverhalten des Sensors, oder die Appokalyplse naht. Es ist also notwenig, sinnvolle Wertebereiche zu definieren. Für Temperatur wäre das zum Beispiel $[-20, 45]$ in Österreich. Eine Möglichkeit, so eine Datenüberwachung zu implementieren, ist eine Wahrscheinlichkeitsverteilung, $N \sim (\mu, \sigma)$, weil Temperatur ja in der Regel normalverteilt ist. > Wenn die Daten im Wertebereich liegen, weist ihnen $N$ eine Wahrscheinlichkeit zu, dass der gelieferte Temperaturwert Sinn macht. Nun kann man z.B. definieren, dass alle Daten, die eine Wahrscheinlichkeit von unter $0.5$ haben, verworfen werden. ![](https://i.imgur.com/4Ng65jB.png)[1] ### KEN-Technik Um einen kurzen Einblick über die Ken-Technik zu geben folgt hier ein kurzes Zitat aus [2]: > [...] a robust approximate technique called Ken that uses replicated dynamic probabilistic models to minimize communication from sensor nodes to the network’s PC base station. In addition to data collection, we show that Ken is well suited to anomaly- and event-detection applications. Der Ansatz dieser Technik ist es ein dynamisches probabilistisches Modell sowohl direkt im Sensornetwork als auch auf der Basisstation, wo die Daten im Endeffekt verarbeitet werden soll, zu Verfügung zu stellen. [2] ![Schematische Darstellung [2]](https://i.imgur.com/F64u6Uh.png) ## Quellen [1] T. Palpanas, “Real-Time Data Analytics in Sensor Networks,” Managing and Mining Sensor Data. pp. 173–210, 2013. [2] D. Chu, A. Deshpande, J. . Hellerstein, and Wei Hong, “Approximate Data Collection in Sensor Networks using Probabilistic Models,” in 22nd International Conference on Data Engineering (ICDE’06), 2006, pp. 48–48, doi: 10.1109/ICDE.2006.21.