Data Carpentry "Python Ecology" @ LSE im Feb. 2020

Dieses Pad dient dem schnellen Austausch von Code-Schnipseln, Links und Notizen


ARCHIV: "R & Git"-Carpentry im Okt. 2019

Siehe TIBHannover.GitHub.io/2019-10-08-LSE-Hannover

Datenorganisation

Do's:

  • genau eine Überschrift für jede Spalte
    • Prinzipien wie für Variablennamen
    • nur eine Überschrift für Spalte
  • Einheit:
    • entweder in Spaltenname (meist besser)
    • oder in eigene Spalte
    • aber Einheit immer mit angeben
  • keine Kommentare (außer dedizierte Kommentarspalte)

analyse

download.file(url="https://ndownloader.figshare.com/files/2292169",
              destfile = "data_raw/portal_data_joined.csv")

Pandas Tutorial: http://zetcode.com/python/pandas/

Missing Values

Double-Check for missing values (after erasing them): dataframe.isnull().values.any()

Datenvisualisierung

Zeitreihen

  • zunächst Zeitreihen von verschiedenen Genttialen Variablen.
  • facet_wrap => 1 Variable
  • facet_grid => 2 Variablen (Tabelle)
  • Korrelationsmatrix: entwerder base-Graphics: plot für data.frame
  • oder GGally::ggpairs
  • Achsen (x, y, Farbe, ): werden mit scale_* geändert
  • knitr: https://yihui.name/knitr/
  • knitr/rmarkdown buch: https://bookdown.org/yihui/rmarkdown/

Regression

regression = linear_model.LinearRegression()
regression.fit(x, y)
regression.predict(x)

Alternatively:

regression = linear_model.LinearRegression().fit(X,Y)
regression.predict(X)

(important attributes: coef_, intercept_)

Git

Fragen?

Select a repo