# PDBj勉強会 第85回 **2020/03/25(水)15:00~17:00** **出席:鷹野さん、鈴木さん、兼松佑典さん、近藤寛子さん、工藤** **欠席:笠原さん** ## hemeのデータベース「PyDISH」 鷹野さんらがつくっているhemeのデータベース PyDISH(Python-based DIStortion of heme in hemeprotein) について。 制作に関わっておられる兼松佑典さん(広島市立大→広島大学)、近藤寛子(北見工業大学)さんもご参加。 URL: http://pydish.bio.info.hiroshima-cu.ac.jp/ ### 利用規約 PDB Archiveにあるデータを使っているが利用条件を確認しておきたい。 * [PDB Archive](ftp://ftp.pdbj.org/)にあるデータそのものは自由に使って良いが、研究者のマナーとしてPDBIDは表記すべき(参考:[利用規約 - 日本蛋白質構造データバンク](https://pdbj.org/info/terms-conditions))。 * 対象PDBIDの抽出に[PDBj Mine](https://pdbj.org/mine)のSQL検索を使っている→PDBjの引用文献として以下を引用すべき(参考:[PDBjの引用・利用規約 - 日本蛋白質構造データバンク](https://pdbj.org/info/cite-us)の29,30番) * Protein Data Bank Japan (PDBj): Updated user interfaces, Resource Description Framework, analysis tools for large structures Kinjo, A.R., Bekker, G.-J., Suzuki, H., Tsuchiya, Y., Kawabata, T., Ikegawa, Y., Nakamura, H. Nucleic Acids Research 45(D1): D282-D288 (2017) [doi:10.1093/nar/gkw962](https://doi.org/10.1093/nar/gkw962) * New tools and functions in Data-out activities at Protein Data Bank Japan (PDBj) Kinjo, A.R., Bekker, G.-J., Wako, H., Endo, S., Tsuchiya, Y., Sato, H., Nishi, H., Kinoshita, K., Suzuki, H., Kawabata, T., Yokochi, M., Iwata, T., Kobayashi, N., Fujiwara, T., Kurisu, G. and Nakamura, H. Protein Science 27 (1): 95-102 (2018) [doi:10.1002/pro.3273](https://doi.org/10.1002/pro.3273) [Creative Commons](https://creativecommons.jp/licenses/)は「作品を公開する作者が『この条件を守れば私の作品を自由に使って構いません。』という意思表示をするためのツール」。[Creative Commons](https://creativecommons.jp/licenses/)にアイコン画像もある。 ### PDBエントリーリストの自動取得方法 [PDBj Mine](https://pdbj.org/mine)SQL検索の検索結果はREST APIを使って取得できる。 例:[ヘム(HEM)を含むエントリーのPDBIDと分子名を得る](https://pdbj.org/help/mine-sql-ex013) 下記SQLの結果をcsv(コンマ区切りテキストファイル)で取得する。 <pre> SELECT pdbid FROM chem_comp WHERE id='HEM' </pre> curlコマンドを使う例。カレントディレクトリのresult.csvに結果を保存。 <pre> curl -F "q=SELECT pdbid FROM chem_comp WHERE id='HEM'" -F "format=csv" https://pdbj.org/rest/mine2_sql >result.csv </pre> 参考: * [Rest interface examples - Help - 日本蛋白質構造データバンク](https://pdbj.org/help/rest-interface-examples):引数仕様などが記載されている。 * [RESTインタフェース - Help - 日本蛋白質構造データバンク](https://pdbj.org/help/rest-interface):上記のcurlコマンドを使った事例の他、Pythonやperlを使った事例も紹介されている。 以上の手順で得られた各PDBIDのmmCIFファイルを取得するには * wgetコマンドやftpコマンドをループで回して各PDBIDのファイルを取得する この場合、毎回全件をダウンロードすることになってしまう。rsyncコマンドを使えば差分があるファイル(タイムスタンプに差異があるファイル)のみを取得することはできる。 * rsyncコマンドを使い、全件に対し差分を取得する まず全mmCIFファイルをローカルに取得してしまい、それに対する対象ファイルだけを使う。 全mmCIFファイルをカレントディレクトリのmmCIFフォルダに取得するには以下のコマンドを実行する: <pre> rsync -avz --delete ftp.pdbj.org::ftp_data/structures/divided/mmCIF/ ./mmCIF </pre> 参考:[PDBアーカイブ / スナップショットアーカイブからのダウンロード - 日本蛋白質構造データバンク](https://pdbj.org/info/archive) ### PDBjからのリンク 以下のものを提供いただければPDBjからリンクを張ることは可能(少なくとも技術的には) * PDBIDとそれにリンクさせる相手側DBの登録番号のリスト * 相手側DBの登録番号からリンク先URLを生成するためのルール 実際リンクを張っていいかどうかはPDBj責任者の栗栖先生判断(ダメとは言わないと思うが)。 ## 参考情報 * [PDBj勉強会 各回内容](https://hackmd.io/vZS6tNdjTaGEUXCFNn5Vew) * [各種資料(Google Drive)](https://drive.google.com/drive/folders/1vMa0DWILcqdIPDL4JQIunRxWIAscSdnq)