# データクラウドの基盤をどうするのか? - 前提、イントロダクション - 広義でのDXやWebサービスの機能化と並行して将来的に投資をして行かないといけない。 - IT戦略としてデータの活用は様々なビジネス展開ができる。 - お家の中のパーソナルな部分にアクセスできる位置なので、ポジション的に考えるといい位置にいて特徴のあるデータを集めることができる。 - 将来的に様々なビジネスプラン、何を会社として成し遂げたいかが一番重要なのだがまずは、第一段階として、本格的に基盤(フェアリーデバイスとそのデータを貯める)を整える準備が必要。 - そこで、基盤技術を選択する必要がある。(途中での進路変更がしにくい話だから後悔しないためにも議論が必要。) - 具体的にはデータウェアハウスの選定になる。 - RedshiftやBigQueryが有名どころ。 - 基礎的な説明、前提知識 - データウェアハウスとは、一言でいうとカラム型のデータベースである。カラム型データベースでは列を抜き出して操作する集計処理にたけている。分析となると縦方向に最適化されたデータベースの方が強力にデータ操作ができる。[Reference](https://www.publickey1.jp/blog/11/post_175.html) - 色々カラム型はあるがRedshiftやBigQueryは巨人の肩に乗っかることで並列処理を実現できる。 - エンジニアリング的なこと。<details>・[OLAP](https://qiita.com/tsucasa/items/c9ada44308aff2a115cf), [OLTP](https://docs.microsoft.com/en-us/azure/architecture/data-guide/relational-data/online-transaction-processing), [OLAP, Google](https://support.microsoft.com/en-us/office/overview-of-online-analytical-processing-olap-15d2cdde-f70b-4277-b009-ed732b75fdd6?ui=en-us&rs=en-us&ad=us)</summary> - 特徴 - 明確に技術の特徴を比較することは僕の今の知識では無理でした。 - データベースの専門的な知識が必要です。 - AWS Redshift - RedshiftがPostgre上に構築され、トランザクションDBとしての性質の一部を継承しているみたい。 - トランザクションをロールバック - GCP BigQuery - Dremeつまり、検索エンジンに関しては得意分野。 - Googleの大規模なクラスタ管理、ジョブ管理 - 値段に関しては課金の仕組みが違う。 - どっちがビジネス的にあっているのかで安くなるとかは変わる。 - イメージだと、思い処理を恒常的に行うならAWSの方が安くて、GCPは機械学習に適した料金設計をしている。基本はGCPの方が安い。 - パフォーマンスに関しては決着がついてなくて、ベンチマーク戦争をしている。 - [Bigquery ML](https://www.wantedly.com/companies/wantedly/post_articles/129482)を使うとこんなことができる。データを取り出さずに学習ができる。 - Redshiftで気にしないといけないこと。[zozoの移行事例](https://inthecloud.withgoogle.com/cloud-data-jp-19/Session4_Google%20Cloud_Data_Platform_Day.pdf) - ノード数 - Distribution Key - Sort Key - ストレージ䛾空き容量 - インデックスタイプ - これらをZOZOではコード管理していた。 - [Redshift](https://qiita.com/iga_ra_sh/items/3e95b4ff83e06f9431a1)も同じでデータウェアハウスでの機械学習が必要。 - AWSがオブジェクトストレージ「Amazon S3」を中心に据えるのに対し、「GCPではBigQueryがデータ分析の心臓に当たる」これが最大の強みかもしれない。 - 判断基準、やはり以下が議論の中心になってくると思う。 - 現在のシステムの適応性 - 料金 - ML - 完全なるマネージド環境 - マルチクラウド - 将来の戦略 - 僕が考える選択 - AWSがオブジェクトストレージ「Amazon S3」を中心に据えるなど、AWSの管理コストが嵩みそうな気もするから。ブラックボックス化しそう観点でBigqueryのほがいいのかなと思ったりしてます。 - 実際的にどちらがいいのかを突き詰めることは専門性の検討が必要です。