Projet IAT - HackMD

# Projet IAT ###### tags: `IAT`, `Projet` ## Formalisation ### Pistes Si toucher -> Récompense Vision des ennemis ? -> Position des ennemis connue Position de la munition -> Vitesse ? Récompense -> Ennemi touché -> Correspond à une collision de la munition avec une position Y qui ne correspond pas au bord supérieur de la fenêtre: A chaque tour: Récupération de l'état du boulet ( get_bullet_state() ) si fire: récupération de la position du boulet ( get_bullet X() et get_bullet Y() ) tirer seulement quand on peut toucher un alien et pas en continu (comme par défaut) Modèle : Tir -> If pas récompense -> Décalage + Tir trouver dans quel sens l'alien se déplace -> premier tir on fait get.position et à la collision aussi et voir dans quel sens l'alien s'est décalé Actions: Tirer, Droite, Gauche, Idle Poltique -> Choix entre les 4 actions à chaque itération Etats : Matrice de pixels modélisation de l'état : prendre le système à un état T, créer une structure de données qui prend en compte l'envirronnement /!\ ne prendre en compte que la position de l'alien le plus bas (peut être PB si l'alien le plus bas change car tous les aliens ne commencent pas à la même hauteur) Etat = Vecteur Ensemble des états = vecteur de vecteurs Mode de fonctionnement du projet: Choix d'un premier état composé de: position X du joueur, position x et y du vaisseau le plus bas, position x et y du missile, état du missile. Premier run: étude des performances Boucler l'opération: redimensionner l'état et étudier l'évolution des performances Hyper paramètres: - epsilon_profile: (1.0 , 0.1) - batch-size: 32 - replay_memory_size: 1000 - target_update_frequency: 100 - tau: 1.0 - max_step: temps avant lequel le jeu reset - n_episode: nbre de répétitions du test - alpha - gamma meilleur score pour l'instant: 47 en 300 tirs ![](https://i.imgur.com/uaSeBhP.png) Discretiser lespace Tester avec QAgent !!! (du TP1) Evolution des hyper parametres et modélisation de l'état: I. etat: position en x de l'agent, position en x et y de l'ennemi le plus bas, etat du boulet et position du boulet (position x et y continu) hyper paramètre: Résultats: Conclusion/Lien vers l'étape suivante: II. etat: position x de l'agent, position x et y de l'ennemi, etat du boulet (position x et y discret: 5 positions différentes possibles) hyper paramètre: Résultats: Conclusion/Lien vers l'étape suivante: III. etat: position x de l'agent, position x et y de l'ennemi, etat du boulet hyper paramètre: Résultats: Conclusion/Lien vers l'étape suivante: