# Week 7 Improvement Experimental Results ## Feedback 1. Sebelum mencoba pembagian 8 level traffic congestion, dicoba dulu untuk level-level yang lebih kecil. Diperbaiki lebih lanjut algoritmanya agar bisa lebih konvergen. - Coba cek dengan batch 2,4,6,8 level congestion dan bikin algoritmanya dari bawah - Pastikan terlebih dahulu konvergen kurva rewardnya - Coba plotting panjang antrian/total waiting vehicle/waktu tunggu - 3. Harus dibuat algoritma-algoritma lain untuk membandingkan experimental resultsnya. Hal ini dilakukan untuk menunjukkan bahwa Coordinated lebih bagus dari Independent dan Pre-Timed Control. - Algoritma Pre-Timed - Algoritma Single-Agent 2 Intersection - Algoritma Double-Agent 2 Intersection Independent - Algoritma Double-Agent 2 Intersection Coordinatied 4. Coba optimasi lebih lanjut terkait state definition & reward . Menurut Pak Infall, reward definition bisa diperbaiki lebih lanjut untuk optimasi dengan memperhatikan polinomial Q-function. Dari polinom tersebut bisa terlihat reward akan terbobot oleh $\gamma^n$ sehingga bisa diuji konvergensinya. Dicari bentuk reward yang seperti apa yang bisa mempercepat/memastikan konvergensi tersebut. 5. Definisi State & Definisi Reward bisa diperbaiki/dioptimasi berdasarkan engineering design. Coba baca lagi Sutton-Bartonya. 6. Coba gunakan tabel untuk melakukan komparasi hasil eksperimen antara Pre-Timed, Independent, Coordinated. Pakai metric-metric yang sudah dipakai pada paper referensi yang ada. 7. Coba perbaiki kurva reward sampai 100k steps, dilihat konvergensinya seperti apa. Seharusnya sih mendekati garis lurus ya. Coba perbaiki kurva states juga seharusnya itu jangan state number tapi harus dikonversi balik ke panjang antrian/jumlah mobil agar tujuannya lebih tercapai/kelihatan/terbukti :::success Coba ingat kembali tujuan dari paper pertama ini apa. Tujuannya untuk membuktikan kalau Coordinated itu lebih baik dibandingkan Independent. Oleh karena itu, harus bikin tabel komparasi antara yang Independent & Coordinated. Gunakan metric seperti yang ada di banyak referensi. Misal, panjang antrian, waktu tunggu, jumlah kendaraan tiap jalur. ::: ## Improvement 1 Mencoba memperbaiki kurva hasil? Atau mencoba untuk men-scale down terlebih dahulu jumlah state levelnya? Atau mencoba untuk mencari bagaimana menentukan Reward & State yang bagus itu kayak gimana? Memperbaiki kurva hasil terlebih dahulu. Coba sampai 100k steps seperti apa. Jangan lupa memainkan nilai alpha dan gamma. Jangan lupa memainkan porsi kapan epsilonnya langsung ke greedy tanpa harus explorasi lagi. ## Improvement 2 Menerapkan algoritma PreTimed, Independent Single & Double, Coordinated ## Improvement 3 Menerapkan di RTL!