# PDBj勉強会 第94回 **2021/01/12(火)15:00~16:30** **出席:鷹野さん、笠原さん、工藤** **欠席:鈴木さん** ## PDB関係 ### PDBjのロゴが新しくなりました [PDBjロゴ](https://pdbj.org/info/logo) <img src="https://pdbj.org/images/pdbjlogo/png/pdbj_mark_color_s.png" alt="PDBj"/> シトクロムc([PDB:1cyc](https://pdbj.org/pdb/1cyc))を図案化したそうです。 ### empiar [本家UK](https://www.ebi.ac.uk/pdbe/emdb/empiar/)(EBI)からのダウンロードを[Aspera](https://www.ibm.com/jp-ja/products/aspera)で行っていたが、[Globus](https://ja.wikipedia.org/wiki/Globus)も並行で使うとお互い干渉することもなく合計速度は上がった。現在ダウンロード速度は約20TB/週。 本家のデータ増加に追い付く見込みが出てくる一方、PDBj側のストレージ枯渇の時期が早まる懸念がある(あと半年弱で1PBを超える→現行と新でそれぞれ1.2PBぐらいずつあるが、それまでに新システムを[GlusterFS](https://ja.wikipedia.org/wiki/GlusterFS)(分散ファイルシステムの一つ)で構築を完了した上でこちらに公開サービスを移行し、現行システム(約1.2PB)を解体しGlusterFSに参加させる必要がある。データコピーの時間も考慮するとあまり時間はない。 ## その他話題 ### PDBj Mine2 SQL検索をRESTで利用 [RESTインタフェース事例](https://pdbj.org/help/rest-interface-examples)にwgetやcurlでの事例を追加する。 ### バイオインフォマティクス検定テキスト そろそろ改訂が必要との認識があるが、いつになることやら。 内容が古くPDBフォーマットがベースになっていたりする。 PDBjで原稿チェック? PDBフォーマット廃止の理由は? →Chemical Component ID(3文字)が枯渇 PDBIDの枯渇はまだそれほど逼迫はしていないが一応8桁化は検討されている。[PDB Versioned Archive](ftp://ftp-versioned.pdbj.org/ )では、ファイル名の命名ルールのみ既に8桁化されている(例:pdb_0000100d_xyz_v1-2.cif.gz)。中身はまだ4桁PDBIDのまま。 ### 機械学習 今はいろんなツール・ライブラリがあるので、 * 入力データをどう調整するかが主な検討すべき課題かも * 自分でコードを書くよりは、いかに既存のライブラリを使うことがノウハウになりつつある? * でも、自分のしたいことにピッタリの手段を探すのが案外すんなりいかない ## 参考情報 * [PDBj勉強会 各回内容](https://hackmd.io/vZS6tNdjTaGEUXCFNn5Vew) * [各種資料(Google Drive)](https://drive.google.com/drive/folders/1vMa0DWILcqdIPDL4JQIunRxWIAscSdnq)