# Optimierungspaper
___
## [On Graduated Optimization for Stochastic Non-Convex Problems](http://proceedings.mlr.press/v48/hazanb16.pdf)
### Überblick
Es wird ein Algorithmus gegeen, der mit eier Wahrscheilicheit vo 1-p für die lasse der $\sigma$-nicen nicht-onvexen Funtionen eine $\epsilon$-optimale Lösung in O(1/$\sigma$^2^$\epsilon$^2^) Iterationen findet
Mit Hilfe der Gradient Oracles wird eim Smoothing noise hinzugerechnet
### Methoden
#### Gradient Oracles

#### Suffix-SGD

### Variablen
$\epsilon$ - target error
p - maximale Fehlerwahrscheilicheit
$\mathcal{K}$ - Menge der möglichen x
### Algorithmen
### GradOpt<sub>G</sub>

### GradOpt<sub>V</sub>

___
## [Online Adaptive Methods, Universality and Acceleration](https://papers.nips.cc/paper/7885-online-adaptive-methods-universality-and-acceleration.pdf)
### Überblick
Eigentlich nur für konvexe Funktionen - trotzdem einfach ausprobieren!
### Methoden
### Variablen
### Algorithmus
Accelegrad
## [A Hitting Time Analysis of Stochastic Gradient Langevin Dynamics](https://arxiv.org/pdf/1702.05575.pdf)
### Überblick
Kompakter Parameterraum:
"Der Parameterraum, nennen wir ihn D, ist eine Teilmenge des R^n in dem wir die Mean-Zeitreihe der Länge n suchen. Defaultmäßig definieren wir das Optimierungproblem auf dem gesamten R^n, also D=R^n. Tatsächlich kann man den Parameterraum aber einschränken, wenn man sich überlegt in welcher Menge ein Mean liegen muss. Wenn diese Menge dann noch abgeschlossen und beschränkt ist, haben wir einen kompakten Parameterraum. Je kleiner der ist, desto besser, denn desto näher sind wir an der Lösung. Eine einfache Überlegung einen kompakten Parameterraum zu finden ist folgende:
(1) Jedes Element des Means ist ein arithmetisches Mittel von Elementen der Sample Zeitreihen (folgt aus der necessary condition of optimality für die Frechet Funktion).
(2) Ein arithmetisches Mittel ist größer (oder gleich) als der kleinste Wert und kleiner (oder gleich) als der größte Wert
(3) Daraus folgt, dass jedes Mean Element im Intervall [kleinster Wert aller Sample Zeitreihen, größter Wert aller Sample Zeitreihen] =: [a,b] ist. Also kann man die Suche nach einem Mean auf D = [a,b]^n beschränken. Dies ist ein Würfel, also kompakt." - David
### Methoden
### Variablen
Xi = multiplier of noise
eta = learning rate
k<sub>max</sub> = Anzahl Durchläufe
D =
"The hyperparameter D can be chosen large enough so that the constraint yk ∈ B(xk−1; D) is satisfied with high probability,
see Theorem 1."

### Algorithmus
SGLD
## [Improved SVRG for non-strongly-convex or sum-of-non-convex objectives](https://arxiv.org/pdf/1506.01972.pdf)
### Überblick
Eigentlich nur für konvexe Funktionen - trotzdem einfach ausprobieren!
### Methoden
### Variablen
### Algorithmus
___
## Timeseries Datensets
http://www.timeseriesclassification.com/dataset.
https://www.cs.ucr.edu/~eamonn/time_series_data_2018/
___
## 08.07.2020
### Ziele
#### Überprüfen der Parameter für SGLD
## Sinnvolle Gedanken
multidimensionales Xi
decaying Xi
negatives gaussian noise in abhängigkeit von position in K (muss kombiniert werden mit multidimensionales Xi)
Xi errechnen in Abhängigkeit von min k_max
Xi errechnen in Abhängigkeit von geringster differenz in einer dimension von K