PDBj勉強会第85回

# PDBj勉強会第85回 **2020/03/25（水）15:00～17:00** **出席：鷹野さん、鈴木さん、兼松佑典さん、近藤寛子さん、工藤** **欠席：笠原さん** ## hemeのデータベース「PyDISH」鷹野さんらがつくっているhemeのデータベース PyDISH（Python-based DIStortion of heme in hemeprotein）について。制作に関わっておられる兼松佑典さん（広島市立大→広島大学）、近藤寛子（北見工業大学）さんもご参加。 URL: http://pydish.bio.info.hiroshima-cu.ac.jp/ ### 利用規約 PDB Archiveにあるデータを使っているが利用条件を確認しておきたい。 * [PDB Archive](ftp://ftp.pdbj.org/)にあるデータそのものは自由に使って良いが、研究者のマナーとしてPDBIDは表記すべき（参考：[利用規約 - 日本蛋白質構造データバンク](https://pdbj.org/info/terms-conditions)）。 * 対象PDBIDの抽出に[PDBj Mine](https://pdbj.org/mine)のSQL検索を使っている→PDBjの引用文献として以下を引用すべき（参考：[PDBjの引用・利用規約 - 日本蛋白質構造データバンク](https://pdbj.org/info/cite-us)の29,30番） * Protein Data Bank Japan (PDBj): Updated user interfaces, Resource Description Framework, analysis tools for large structures Kinjo, A.R., Bekker, G.-J., Suzuki, H., Tsuchiya, Y., Kawabata, T., Ikegawa, Y., Nakamura, H. Nucleic Acids Research 45(D1): D282-D288 (2017) [doi:10.1093/nar/gkw962](https://doi.org/10.1093/nar/gkw962) * New tools and functions in Data-out activities at Protein Data Bank Japan (PDBj) Kinjo, A.R., Bekker, G.-J., Wako, H., Endo, S., Tsuchiya, Y., Sato, H., Nishi, H., Kinoshita, K., Suzuki, H., Kawabata, T., Yokochi, M., Iwata, T., Kobayashi, N., Fujiwara, T., Kurisu, G. and Nakamura, H. Protein Science 27 (1): 95-102 (2018) [doi:10.1002/pro.3273](https://doi.org/10.1002/pro.3273) [Creative Commons](https://creativecommons.jp/licenses/)は「作品を公開する作者が『この条件を守れば私の作品を自由に使って構いません。』という意思表示をするためのツール」。[Creative Commons](https://creativecommons.jp/licenses/)にアイコン画像もある。 ### PDBエントリーリストの自動取得方法 [PDBj Mine](https://pdbj.org/mine)SQL検索の検索結果はREST APIを使って取得できる。例：[ヘム（HEM）を含むエントリーのPDBIDと分子名を得る](https://pdbj.org/help/mine-sql-ex013) 下記SQLの結果をcsv（コンマ区切りテキストファイル）で取得する。 <pre> SELECT pdbid FROM chem_comp WHERE id='HEM' </pre> curlコマンドを使う例。カレントディレクトリのresult.csvに結果を保存。 <pre> curl -F "q=SELECT pdbid FROM chem_comp WHERE id='HEM'" -F "format=csv" https://pdbj.org/rest/mine2_sql >result.csv </pre> 参考： * [Rest interface examples - Help - 日本蛋白質構造データバンク](https://pdbj.org/help/rest-interface-examples)：引数仕様などが記載されている。 * [RESTインタフェース - Help - 日本蛋白質構造データバンク](https://pdbj.org/help/rest-interface)：上記のcurlコマンドを使った事例の他、Pythonやperlを使った事例も紹介されている。以上の手順で得られた各PDBIDのmmCIFファイルを取得するには * wgetコマンドやftpコマンドをループで回して各PDBIDのファイルを取得するこの場合、毎回全件をダウンロードすることになってしまう。rsyncコマンドを使えば差分があるファイル（タイムスタンプに差異があるファイル）のみを取得することはできる。 * rsyncコマンドを使い、全件に対し差分を取得するまず全mmCIFファイルをローカルに取得してしまい、それに対する対象ファイルだけを使う。全mmCIFファイルをカレントディレクトリのmmCIFフォルダに取得するには以下のコマンドを実行する: <pre> rsync -avz --delete ftp.pdbj.org::ftp_data/structures/divided/mmCIF/ ./mmCIF </pre> 参考：[PDBアーカイブ / スナップショットアーカイブからのダウンロード - 日本蛋白質構造データバンク](https://pdbj.org/info/archive) ### PDBjからのリンク以下のものを提供いただければPDBjからリンクを張ることは可能（少なくとも技術的には） * PDBIDとそれにリンクさせる相手側DBの登録番号のリスト * 相手側DBの登録番号からリンク先URLを生成するためのルール実際リンクを張っていいかどうかはPDBj責任者の栗栖先生判断（ダメとは言わないと思うが）。 ## 参考情報 * [PDBj勉強会各回内容](https://hackmd.io/vZS6tNdjTaGEUXCFNn5Vew) * [各種資料（Google Drive）](https://drive.google.com/drive/folders/1vMa0DWILcqdIPDL4JQIunRxWIAscSdnq)