富士○japanの「2人同時に発行申請すると上書き」バグの原因と対処方

# 富士○japanの「2人同時に発行申請すると上書き」バグの原因と対処方  --- ## 皆さんこんにちは！ :wave: ---  My Profile Otogawa Katsutoshi freelance backend enginner interesting deno, golang, python, and more... [twitter account](https://twitter.com/k_otogawa) ---  ## 突然ですがみなさん！役所のシステムは好きですか！ :sunglasses: --- ## 私はたまにブチギレそうになります😇 ---  ## 今回何しに来たか?というと神奈川県川崎市のコンビニの証明書交付サービスで、他人の戸籍謄本が発行されるバグがヤバすぎるのでその内容と対処法を説明しに来ました。 ## 要するに --- ## 役所のシステムの闇を暴く! ![闇を暴く](https://hackmd.io/_uploads/Bk_SrScP2.png =x400) --- ## 前提条件というか縛りクラウドやvps, オンプレ云々の違いなどインフラベンダー、DBベンダー側の設計で差が出ないようにします --- ## そもそもどういう不具合か？ ![問題提起](https://i.imgur.com/N4Umxfe.png =x500)  ---  ## 会社のサイトに書かれている  https://www.fujitsu.com/jp/group/fjj/about/resources/news/topics/2023/0330.html --- ## これを要約すると 3月27日（月）11:40コンビニで証明書交付申請をされる方が増加し、取引負荷が高まったため、印刷処理における遅延が発生いたしました。 --- この遅延に起因し、システム上設定されていたタイムアウトの上限を超える状態となり強制的な印刷処理の解除が生じ、次の印刷イメージファイルを誤って取得したため、申請された方とは異なる住民の方の証明書が発行されました。 --- ### これを見てん？って思った方は多いと思います。 ![ん？](https://i.imgur.com/N4Umxfe.png =x500) --- ## そもそも説明がおかしい 1. 高負荷だからタイムアウトしたことが、 2. 印刷時に違うファイルをとってきたことの説明になってない。 --- みなさんの会社のシステムは重くなったら、ユーザーの個人情報をpdfでダウンロードするときに違う人のファイルに入れ替わりますでしょうか？ならないと思います。  --- ## そうは言ってもどれぐらいの負荷か？  一応、ネットに情報があったので、Google Bardに聞いた情報を合わせて考えてみます。問題が起きた川崎市以外でもどの程度の負荷なのか？他の市だと？と考えてみます。 --- ## どれぐらいの人口でコンビニ数がどれくらいか？一つの基準で100万人都市を考えてみます。 100万人都市は日本で12個しかない。 --- だから、これらの市で負荷的に大丈夫なら、日本の市で負荷で困ることはない。  --- ## 人口と、コンビニ数問題が起きた川崎市は人口153万人で、コンビニ数は503件日本で最も人口が多い横浜市は377万人で、コンビニ数は1189件  --- ## 最も負荷がある都市で人数がそのまま負荷になると考えても、最大の負荷で川崎市で2.5倍程度の重さ。 --- ## 毎日どの程度発行されるかどの市で毎日どれぐらいのコンビニ証明書が発行されているか？公開されている数字がなかったので、大体を考えてみます。 --- ## Bardに大体の数出してみた日本全体で１日にどれぐらいコンビニ証明書が発行されているかGoogle Bardに聞いたら、100万件とでました。日本人はだいたい150人に1人がその日に証明書を発行していることになる。 --- ## 数字的には大体正しそう。従業員数100人の会社があったら、毎日一人、二人は役所なり免許の申請行ってるから、数字的にそんなおかしくないかと。 --- ## これを川崎市の例に当てはめてみるこの数字をそのまま川崎市にあてはめてやると、川崎市で毎日発行されているコンビニ証明書の数字がだいたいですが、わかります。川崎市で大体毎日1万人ぐらいがコンビニ証明書を発行していることになります。  --- ## 実際の負荷を仮定してみるここで話を簡単にするために、３つの時間に負荷が集中して、その時間以外は負荷がないとする。 --- ## 負荷が大きい時間帯はこれぐらいになりそう会社員の就業時間に合わせた、この時間帯に集中しそう。 1万人を時間帯の右の人数で分けてみる。 1. 朝の08:00~08:30 2000人 2. 昼の11:30~13:00 3000人 3. 夜の18:00~19:00 5000人 *証明書受付は毎日06:30から23:00まで  --- ## あれ負荷少なくね？市全体で一番重い負荷でも1分間に平均80人しか問い合わせ来てない... しかもコンビニ証明書の利用時間は決まっていて、毎日06:30から23:00間だけ申請できるとなっている。なのでその時間以外はメンテナンスできます。  --- ## よって毎日メンテナンスし放題 ![てへぺろ](https://i.imgur.com/g1tlEBC.png =x500)  --- ## 負荷というのはそもそも嘘です利用者が10倍になっても、今のコンピューターなら超余裕。みなさんの手元のパソコンでも普通に処理しきれます。レガシーなシステムでも余裕。  --- ## 今回のバグを修正した後に富士⭕️japan「別の利用者がファイルをつかめてしまう仕様の詳細などについては回答を控えた」  --- ## 真実は排他処理ができてないだけ。 ![てへぺろ](https://i.imgur.com/g1tlEBC.png =x500)  --- ## じゃあ何の排他処理ができていなかったか？仕様の詳細が公開されていないけど、twitterで言ってた、憶測でいいます。  --- ## 細かい仕様は公開されてないが。一度サーバーにファイルを出力して、その後ファイルを各プリンタにダウンロードする作りで、その出力するファイル名を時刻にしていたから、同じ時刻のファイルができた時に上書きされたのではないのかと。  --- ## 実際そうだったっぽい。この後富士⭕️japanからマイクロ秒一致していたら、ファイルが上書きされるという話がさらに出たのでほぼ確定。 ---  ## どうやって、これを解決するか？実際排他処理してみましょう。 --- ## 解決方法でtwitterで一番みたのはファイルを書き込みに行くときマイクロ秒一致したら、ミリ秒待つ。良さそうに見えますね。  --- ## 😂ある日突然システムが死んでしまいます。一致したらずらすだとユーザー数が増えるに従って衝突回数が増える。 --- ## 永遠に待っている列が無くならないシステムになる。  二人同時に書き込みに行きました。一人書き込みます。一人待ちます。待った一人が書き込みに行きます。別にまた新規に書き込みに行く人が出ました。これで書き込みに行く人は2人になりました。またもう一人待ちます。  --- ## 負荷が増えると実質的に無限ループになる開発の時には気にならなかったけど、リリースした後に思ったより負荷デカかったになって１、２年したら死ぬシステム。  最近のcloud 関係のサービスとの相性も悪い作り。 ![インシデント](https://hackmd.io/_uploads/H19EHBqDn.png =x400) --- 富士⭕️japanの記事をみると「タイムアウトを無くしたと」会社が言っているのでこれを採用したみたいです。ですので、ユーザー数増えたら一気に負荷で落ちるかもですね。  --- ## じゃあ、どうするか？基本は排他処理を自分で書かない。考えない。 --- ## 解決できる方法  1. rdbmsのsequence+時刻を使う 2. uuidかそれに近いものを使う 3. あらかじめ、ユニークな値をdbに保存しておいて、排他処理 1が基本 --- 2は特別な理由ない限り重くて運用負荷が大きいだけ。uuidを作成するのはまあまあ多い処理なので。 3を採用するときは2かつ3になることが多い。  --- ## どのやり方もOrmでは運用が困難か、手間が大きくなるということで、SQL素直に書きましょう。  --- ## rdbmsのsequence+時刻を使う  シンプルで運用エンジニアの負荷も少なく、dbの基本的かつ非常に重要な仕組みを使っているので、 db側のバグもほぼありえない。 ---  ## sequenceの特長  1. 1から始まって、2の64乗の値でループするrdbmsのオブジェクト。 2. 同じ時刻に違うセッションから参照しても違う値になることが保証されている。 3. 同じマイクロ秒で10の18上回処理回るならこれもアウトだけど、証券会社でもそんなこと起きないので、大丈夫 [postgresql sequence](https://www.postgresql.jp/document/15/html/sql-createsequence.html)   --- ## sequenceの使い方 1. 作成 ```sql CREATE SEQUENCE hello_seq START 1 CYCLE; ``` 2. 参照 ```sql SELECT nextval('hello_seq'); ``` この値と時刻をファイル名なり何なりに使ったらマイクロ秒レベルでユニークになる。  --- ## uuidかそれに近いもの  これが必須な時 1. 連番が嫌。(謎に何か嫌な人がいる。) 2. ファイルシステム含む、複数のDBがリアルタイムに同期、連携取れてない時に使う。(別々の場所で同時に作成しても、被りようがないため。) --- ## あらかじめ、ユニークな値をdbに保存しておいて、排他処理外部のシステムに依存している部分がある。その外部のシステムの負荷が大きいから、ユニークな値をあらかじめ発行しておくので、保存しているやつを好きに使って後でバッチ処理などで連携してくれという作り。 selectするときにselect for updateでデータ取ってきて云々をやる。  --- ## どういう時にやる必要があるか？  よくあるのは外部側のシステムの作りとして外部決済の決済番号や、シリアル番号がuuidになっていて、あらかじめ発行しておく必要があるとか。 --- ## どういう時に必要？2 たいてい向こう側がcobolか古いシステム。運用負荷をこちらが担うことになるので、あまりやるべき設計でない。運用負荷が高くなる。  ---  ## まとめ  1. 排他処理は時間で待たない 2. 排他処理の基本はsequence 3. 要件によってはuuidを選択する必要がある。 4. ユニークな値を保管して使うのは運用負荷高い。  ![](https://i.imgur.com/c1s1RCE.png =x500)