# AI界を席巻する「Transformer」をゆっくり解説(1日目) AI界を席巻する「Transformer」を解説するシリーズ1日目です。 原文は、「Attention Is All You Need」で、Google Brain、Google Research、University of Trontoのメンバー達が2017年に公開したものです。論文は分かりにくいタイトルが多い中で、このタイトルは秀逸ですね。 入れ替わりが激しいAI技術ですが、Transformerは、2021年5月時点でむしろその勢いを増してる技術で、今回はその土台となった論文です。 [Attention Is All You Needの論文PDFはこちら](https://arxiv.org/pdf/1706.03762.pdf) - 1日目: Abstract - 2日目: Introduction / Background - 3日目: Model Architecture - 4日目: Why Self-Attention - 5日目: Training - 6日目: Results / Conclusion - 7日目: Source Code 早速みていきましょう。 ## Abstract | 要約 > The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. まず、これまでメジャーな文章翻訳モデルは、エンコーダーやデコーダーを含めた、難しい再帰型ニューラルネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)だった。一番優秀だったモデルもエンコーダーとデコーダーをアテンションでつなぐ仕組みだった。 用語がばんばん出てくるので、簡単に解説すると、 - Encorder: 入力データをシステムが読める形式に変換(エンコード)する変換器のこと。後で出てきますが、今回の入力データは英語の文章で、出力データはベクトルです - Decorder; エンコーダーの反対。今回の入力データは翻訳されたベクトルで、出力データはドイツ語の文章です - RNN: 再帰型ニューラルネットワーク。時系列データによく利用されるモデル。時系列データとは文章などの自然言語処理や、売上や株価などの過去から未来を類推するような場合を言います。詳細は要望があれば別途 - CNN: 畳み込みニューラルネットワーク。畳み込みという日本語が聞き慣れないので分かりづらいですが、これはこれで画像認識に革命を起こしたモデル。詳細は要望があれば別途 - Neural Network: 人間の脳のニューロンを模して名づけられたアーキテクチャーやモデルのこと。ニューロンのように多数の接続端子と多数のフィルターを通して信号(データ)が伝搬して変換するモデル - Attention: 今回の本命なので後述 という感じです。次。 > We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. そこで、シンプルなのに新しい、「Transformer」なるアーキテクチャーを提案する。これは主に「Attention」で出来ていて、RNNやCNN CNNを全く使わないモデルだ。 とにかく、肌感覚はないが、RNNやCNNを使った翻訳モデルを極めていくのには、苦痛を感じていた、ということですね。ここも何が苦痛の原因だったのかもっと知りたいという要望があれば別途やります。 > Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. 2つの翻訳実験の結果、性能で過去の結果を上回った。 なおかつ、もっと並列処理化して、学習時間を大幅に減らすことが出来る余地も残しつつ。 つまり、めちゃくちゃ結果が出た、ということですね。現に、ざっとリサーチする限り、Transformerはこれまでのモデルを駆逐しつつあるようです。 > Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU. > On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. WMT2014の英独翻訳で、BLEUスコア28.4を叩き出した。これは過去最高新記録だった。 また、英仏翻訳でもBLEUスコア41.8という過去最高新記録を出した。これらは、8個のGPUで3.5日間の学習機関だけで、だ。 ということで、記録を大幅に塗り替えた、とのこと。 BLEUスコアというのは、 - もっともよく使用される機械翻訳のスコアのこと - 人間の翻訳者の翻訳と比較して、近ければ近いほど、高くなる - 人間の翻訳の解答例は1つではなく、複数用意される - スコアは計算式で出され、0~1になり、1に近いほどよい - 40を超えると高品質とされる - スコアなので、当然欠点もあり、類似語で意味が通っていても、複数用意された解答と一致しないと、点数が低くになる - 逆に、notなど、否定語があるかないかで意味が真逆になるが、他の言葉がほとんど合っていれば、点数が高くなる というものだそうです。こちらの記事を参考にしました。 [機械翻訳の評価に最もよく用いられる「BLEUスコア」とは](https://to-in.com/blog/102282) そうなると、英独のスコア28.4は高いようには一見見えないですね。これまでの機械翻訳だと高いとのことですが、実際のレベルはどうなのでしょうか? また、英仏のスコア41.8は逆に英独と比較して高く出すぎてるようにも思えます。仕事だったら「バグってんじゃないの?」と疑うところです。この辺りも実際のレベルが知りたいところですが、英日でないと評価しづらいですね・・・ > We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data. 巨大な学習データと少ない学習データの2パターンにて、このTransformerがうまくいくことを示した。 ## おわり AI界を席巻する「Transformer」を解説するシリーズ1日目は以上です。Abstractだけでも概要わかりますね。感想や要望・指摘等は、本記事へのコメントか、Twitterの[リプライ](https://twitter.com/hnishio0105/status/1389523912203980802?s=20)やDMでもお待ちしております! 次回、Introductionに進みます。