# 字句解析その2 - シェルもどきをgoで自作する #4 ## おさらい これまで - [シェルってなに?コマンドラインインタプリタってなに? - シェルもどきをgoで自作する#1](https://hackmd.io/@jyami/HJzohRn2D) - [コマンドと引数の分解、環境変数PATHから探索、外部コマンドと内部コマンド - シェルもどきをgoで自作する #2](https://hackmd.io/@jyami/HyeSkkThP) - [字句解析その1 - シェルもどきをgoで自作する #3](https://hackmd.io/@jyami/Hk3bWSMQO) シェルもどき[oreshell](https://github.com/jyami/oreshell)を自作している。 シェルは入力した文字列を読み取って、コマンドと引数群に分割してプロセス生成に渡している。 現在の実装では入力文字列を単純に空白で分割している。 空白文字を含んでいるファイル名/パス名(例:「cp \ oge "h ge"」)を扱えるようにするために字句解析を導入する。 ### 文字のエスケープを考慮した字句解析のステートマシン ```plantuml [*] --> lexText lexText : EOFを見つけたら、EOFトークンを切り出して終了する。 lexText --> [*] lexText -> lexWhitespace : 空白文字を見つけた lexWhitespace : 空白以外の文字が見つかる\nまでの間の1個以上の空白を\nトークンとして切り出して\nlexTextに戻る。 lexWhitespace --> lexText lexText --> lexEscapeChar : バックスラッシュ文字を見つけた lexEscapeChar : バックスラッシュ文字と\nその次の文字を\nトークンとして切り出して\nlexTextに戻る。 lexEscapeChar -> lexText lexEscapeChar --> lexError lexText --> lexQuotedString : クォーテーション文字を見つけた lexQuotedString -> lexText lexQuotedString : 次のクォーテーション文字\nまでの間の文字列を\nトークンとして切り出して\nlexTextに戻る。 lexQuotedString --> lexError lexText --> lexString : バックスラッシュ文字、\nクォーテーション文字、\n空白文字以外\nの文字を見つけた lexString : バックスラッシュ文字、\nクォーテーション文字、\n空白文字、EOF\nが見つかるまでの間の文字列\nをトークンとして切り出して\nlexTextに戻る。 lexString -> lexText ``` ## 入力された文字列を状態遷移に従って読み取る様子 ### 入力された文字列と文字を読み取るためのポインタ 以下は入力された文字列「cp \ oge "h ge"」を字句解析する直前を表した図である。 ![](https://i.imgur.com/pkh57be.png) PとSは、文字を読み取るためのポインタである。この2つのポインタは入力された文字列の先頭から末尾に向かって移動する。 以降で、入力された文字列をこの2つのポインタを使って読み取る様子を説明する。 ### 「cp」の切り出し ステートマシンは開始するとすぐに「lexText状態」に遷移する。 Pの現在位置に文字「c」を見つけたので「lexString状態」に遷移する。 「lexString状態」では、バックスラッシュ文字、クォーテーション文字、空白文字、EOFのいずれかが見つかるまで - Pの現在位置の文字の確認 - Pを次に移動 を繰り返す。 見つけたらSの位置からPの位置までの間の文字群を切り出す。 ![](https://i.imgur.com/mACVDwv.png) Pの現在位置に文字「c」を見つけた。 Pを次に進める。 ![](https://i.imgur.com/sppcmjD.png) Pの現在位置に文字「p」を見つけた。 Pを次に進める。 ![](https://i.imgur.com/JJrm0Uv.png) Pの現在位置に文字「 (空白)」を見つけた。 空白文字が見つかったので、Sの位置からPの位置までの間の文字群を切り出す。 ![](https://i.imgur.com/5TZIk6M.png) SをPの位置まで進める。 「lexText状態」に戻る。 ![](https://i.imgur.com/lx9UAbH.png) ### 一つ目の区切りの「 (空白)」の切り出し Pの現在位置に文字「 (空白)」を見つけたので「lexWhitespace状態」に遷移する。 「lexWhitespace状態」では、空白以外の文字が見つかるまで - Pの現在位置の文字の確認 - Pを次に移動 を繰り返す。 見つけたらSの位置からPの位置までの間の文字群を切り出す。 Pの現在位置に文字「 (空白)」を見つけた。 Pを次に進める。 Pの現在位置に文字「\」を見つけた。 ![](https://i.imgur.com/QETMHUu.png) 空白以外の文字が見つかったので、Sの位置からPの位置までの間の文字群を切り出す。 ![](https://i.imgur.com/9JBpXrJ.png) SをPの位置まで進める。 「lexText状態」に戻る。 ![](https://i.imgur.com/vBlUan2.png) ### 「\ 」(バックスラッシュ文字がついた空白文字)の切り出し Pの現在位置にバックスラッシュ文字を見つけたので「lexEscapeChar状態」に遷移する。 「lexEscapeChar状態」では、 - Pを次に移動(バックスラッシュ文字の分) - Pを次に移動(エスケープ対象となった文字の分) を行う。 そのあとSの位置からPの位置までの間の文字群を切り出す。 Pを次に進める。(移動後位置の文字は「 (空白)」) ![](https://i.imgur.com/VdtEvo6.png) Pを次に進める。(移動後位置の文字は「o」) ![](https://i.imgur.com/g1iE9Xz.png) Sの位置からPの位置までの間の文字群を切り出す。 ![](https://i.imgur.com/RCPeA9z.png) SをPの位置まで進める。 「lexText状態」に戻る。 ![](https://i.imgur.com/Bpabn4j.png) ### 「oge」の切り出し Pの現在位置に文字「o」を見つけたので「lexString状態」に遷移する。 「lexString状態」では、前述の通りバックスラッシュ文字、クォーテーション文字、空白文字、EOFのいずれかが見つかるまで - Pの現在位置の文字の確認 - Pを次に移動 を繰り返す。 見つけたらSの位置からPの位置までの間の文字群を切り出す。 Pの現在位置に文字「o」を見つけた。 Pを次に進める。 Pの現在位置に文字「g」を見つけた。 Pを次に進める。 Pの現在位置に文字「e」を見つけた。 Pを次に進める。 Pの現在位置に文字「 (空白)」を見つけた。 ![](https://i.imgur.com/kRDLGay.png) 空白文字が見つかったので、Sの位置からPの位置までの間の文字群を切り出す。 ![](https://i.imgur.com/k9kBJBB.png) SをPの位置まで進める。 「lexText状態」に戻る。 ![](https://i.imgur.com/qw3F2q5.png) ### 二つ目の区切りの「 (空白)」の切り出し 一つ目の区切りの「 (空白)」の切り出しと同じなので説明は省略。 ![](https://i.imgur.com/lmYS1Ul.png) ### 「"h ge"」(クォートで囲まれた文字列)の切り出し Pの現在位置に文字「"」を見つけたので「lexQuotedString状態」に遷移する。 「lexQuotedString状態」では、次のクォーテーション文字が見つかるまで - Pの現在位置の文字の確認 - Pを次に移動 を繰り返す。 見つけたらSの位置からPの位置までの間の文字群を切り出す。(ただし両端のクォート文字も切り出しに含める) Pの現在位置に文字「"」を見つけた。 Pを次に進める。 Pの現在位置に文字「h」を見つけた。 Pを次に進める。 Pの現在位置に文字「 (空白)」を見つけた。 Pを次に進める。 Pの現在位置に文字「g」を見つけた。 Pを次に進める。 Pの現在位置に文字「e」を見つけた。 Pを次に進める。 Pの現在位置に文字「"」を見つけた。 Pを次に進める。 ![](https://i.imgur.com/eRL3A0h.png) 次のクォーテーション文字が見つかったので、Sの位置からPの位置までの間の文字群を切り出す。 ![](https://i.imgur.com/ei39M0G.png) SをPの位置まで進める。 「lexText状態」に戻る。 ![](https://i.imgur.com/yJvdDQL.png) ### 終端の切り出し Pの位置が文字列全体の長さよりはみ出た場合、文字列全体の終端を検知したとみなす。 終端マークを切り出す。 ![](https://i.imgur.com/6qvL8Av.png) ## 字句解析で切り出したトークンを再構成する 字句解析を完了し、トークン群を切り出すことができた。 しかし、切り出したトークン群をそのままシェル内のプロセス生成に渡すことはできない。 [ここ](https://hackmd.io/@jyami/Hk3bWSMQO#%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E5%90%8D%E3%83%91%E3%82%B9%E5%90%8D%E3%81%8C%E7%A9%BA%E7%99%BD%E6%96%87%E5%AD%97%E3%82%92%E5%90%AB%E3%82%93%E3%81%A7%E3%81%84%E3%82%8B%E5%A0%B4%E5%90%88%E3%81%AF%E3%81%A9%E3%81%86%E3%81%99%E3%82%8B%EF%BC%9F)で説明した通り、プロセス生成に渡したい文字列の配列になるように、トークン群から要らない要素を削除、要素同士の連結をして再構成する必要がある。 ![](https://i.imgur.com/aNaS50E.png) 今回の例だと、 - 2つ目のトークンである空白文字を削除する。 - 3つ目のトークンと4つ目のトークンを連結する。 - 5つ目のトークンである空白文字を削除する。 - 7つ目のトークンであるEOFを削除する。 また、エスケープ処理した文字列リテラルから先頭のエスケープ文字「\」、または前後のクオート文字「"」「'」を撤去する。 実装の該当箇所は以下の通り。 ``` // 入力文字列を空白ごとに単語に分解するのをやめて、字句解析した結果から単語配列を作る。 //words := strings.Split(strings.Trim(string(line), " "), " ") words := lineToWords(string(line)) ``` ``` func lineToWords(line string) (words []string) { l := lexer.Lex(strings.Trim(line, " ")) // 字句解析 var word string for { // 字句解析結果トークンを一つづつ取り出す。 token := l.NextItem() if token.Type == lexer.ItemWhitespace { words = append(words, word) word = "" } else if token.Type == lexer.ItemEOF || token.Type == lexer.ItemError { words = append(words, word) break } else { // 文字列リテラルの連結 word = word + token.Unescape() } } return words } ``` ``` func (me Item) Unescape() string { switch { case me.Type == ItemEscapeChar: // 先頭のバックスラッシュ文字、または前後のクォート文字を撤去 return string(me.Val[1]) case me.Type == ItemQuotedString: // 前後のクォート文字を撤去 return strings.Trim(me.Val, string(me.Val[0])) } return me.Val } ``` [ソースコード](https://github.com/jyami/oreshell/tree/v0.3) ## 実行してみる ``` $ go run main.go (ore) > touch \ oge (ore) > ls \ oge ' oge' (ore) > cp \ oge "h ge" (ore) > ls ' oge' 'h ge' ```