[Entreprise] Google - Construire des solutions plus intelligentes sans expertise en machine learning

--- tags: Semaine-Entreprise, ICE --- # [Entreprise] Google - Construire des solutions plus intelligentes sans expertise en machine learning ``` Intervenant : Laurent Picard @PicardParis Entreprise : Google Cloud ``` ## Informations essentielles ### machine learning du point de vue du dev Laurent Picard est dev advocate Google Cloud Pionnier du E-Book Machine learning def : Data en entrée -> en extraire de l'information Ia inclu Machine Learning qui inclu Deep Learning (notion de sous ensemble) Deep learning -> essayer d'imiter le cerveau par des réseaux de neuronnes Résoudre des problèmes qu'on arrivait pas a résoudre avant. ![](https://i.imgur.com/6Gf5xSD.png =500x) Machine Learning = Théorie Union Data Union Computing MACHINE LEARNING = ML 3 façons de profiter du ML (du dev skills à la ML expertise) : - Modèles prets a l'emploi : APIs de ML - Customized Models : AutoML - Neural networks : ML API et Auto ML c'est commme des legos, facile à utiliser sans grande expertise. Modèles prêts à l'emploi : Image/video/texte en entrée le but c'est d'extraire de l'info. #### API vision : reconnaissance d'images: permet de décrire l'image avec des labels dans un .json. Peut trouver plusieurs images correspondantes sur le web et en extraire la position gps ![](https://i.imgur.com/wZkFEkB.png =400x) Peut détecter des objets ou des personnes très précisement sur l'image. Position des vêtements, personnes en arrière-plan... Détection de visages: position du visage et de ses composants, peut aussi reconnaître des émotions sur gollum, par probabilité. On peut avoir les positions des yeux, du nez.... mais aussi du texte a partir d'une photo ![](https://i.imgur.com/eUngZiI.png =400x) Reconnaissance d'écriture manuscrite mais pas d'ananlyse syntaxique (ex : w est reconnu en v..) Mais on peut lancer des entrainements sur un modèle pour le faire progresser et donc diminuer les erreurs. Sur une image de Tolkien le modèle est capable de dire que c'est Tolkien dans un journal espagnol et de donner des images qui ressemblent. Capable de donner un identifiant unique qui correspond a une personne, construisent un arbre de connaissances développé et augmenté depuis une vingtaine d'années. L'API vision est disponible en open source sur GitHub Pour du Go, Java, .NET, Node.js, PHP, Python, Ruby. On peut extrapoler à la vidéo puisque la vidéo est une image avec une dimension temporale. L'API peut détecter les changements de plans, la voix et suivre les objets .... peut le faire avec des gifs. Le gros point ça reste le texte, capable de repérer les dépendances dans les mots, la conjugaison, la grammaire, et même le sens des mots : British->Anglais.. Elle est aussi capable de détecter les entités dans un texte , que ce soit une personne, un endroit ou encore une oeuvre d'art. ![](https://i.imgur.com/wbadr5N.png =500x) Capable de détecter les sentiments dans un texte Peuvent aussi analyser les réseaux sociaux et analysent les sentiments. Analyse des emails de retours client (et tickets) : traitent les retours négatifs en premier. Permet de situer comment l'entreprise est perçu par les utilisateurs #### Google translate API : En 2015-2016 les résultats étaient corrects mais sans plus. Puis ils sont devenus très bons du jour au lendemain. Ils sont passés d"un modèle statistique à un modèle de machine learning. Ce changement de modèle a permis de passer à une très très bonne qualité. De plus cette qualité est assez facile à améliorer car on peut fournir de plus en plus d'exemples et de contre exemples. Les utilisateurs peuvent en fournir en notifiant Google que telle ou telle traduction ne leur plaît pas et cela sera intégré. convergence vers la qualité d'une traduction pro. Quand on apporte une modif on participe a améliorer le système, notre nouvelle trad va être intégrée a un nouvel entrainement plus tard #### Speech-to-Text API : Fonctionne en temps réel. (les banques qui avaient des répondeurs vocaux c'est terminé). On a tous un assistant sur nos smartphones qui marchent sur un modèle ML. Robustes au bruit, ces réseaux apprennent grâce à des échantillons de la vie réelle, et dans la vie il y a du bruit. C'est grâce à cela que cette robustesse s'est construite et que les assistants at home fonctionnent aussi bien. on peut savoir où se situe chaque mot dans un flux audio -> indexage et faire des recherche mot à mot. On peut faire de la traduction sur un flux audio (tx de reconaissance à 93%) #### Text To Speech: On prends du texte et c'est lu en suivant la ponctuation et tout. Avant c'était des robots qui lisaient et grâce au ML on arrive à avoir des voix quasi humaines. DeepMind bat des pros au jeu de g o, ou des pros à starcraft 2. WaveNet natural voices by Deepmind : le modèle le plus avancé de tous. 1 seconde peut contenir 20 secondes. Voix que l'on peut entendre avec un appareil google ou android. On obtient des réponses en temps réel de la recherche par rapport aux mots que l'on prononce, même avec un accent. Peu de fails AutoML ![](https://i.imgur.com/W4GyyEX.png) Learning to learn : neural architecture search Extrêmement consommateur en resources. Sur la base d'un modèle existant on peaufine le modèle avec de la data pour construire des couches supplémentaires. API Vizir **[Slides de la présentation ici](https://speakerdeck.com/picardparis/building-smarter-apps-with-machine-learning-from-magic-to-reality)** ## Jobs / Offres de Stages ### En France #### CDI #### Stage #### Etc ### À l'étranger #### CDI #### Stage #### Etc