owned this note
owned this note
Published
Linked with GitHub
# PDBj勉強会 第85回
**2020/03/25(水)15:00~17:00**
**出席:鷹野さん、鈴木さん、兼松佑典さん、近藤寛子さん、工藤**
**欠席:笠原さん**
## hemeのデータベース「PyDISH」
鷹野さんらがつくっているhemeのデータベース
PyDISH(Python-based DIStortion of heme in hemeprotein)
について。
制作に関わっておられる兼松佑典さん(広島市立大→広島大学)、近藤寛子(北見工業大学)さんもご参加。
URL: http://pydish.bio.info.hiroshima-cu.ac.jp/
### 利用規約
PDB Archiveにあるデータを使っているが利用条件を確認しておきたい。
* [PDB Archive](ftp://ftp.pdbj.org/)にあるデータそのものは自由に使って良いが、研究者のマナーとしてPDBIDは表記すべき(参考:[利用規約 - 日本蛋白質構造データバンク](https://pdbj.org/info/terms-conditions))。
* 対象PDBIDの抽出に[PDBj Mine](https://pdbj.org/mine)のSQL検索を使っている→PDBjの引用文献として以下を引用すべき(参考:[PDBjの引用・利用規約 - 日本蛋白質構造データバンク](https://pdbj.org/info/cite-us)の29,30番)
* Protein Data Bank Japan (PDBj): Updated user interfaces, Resource Description Framework, analysis tools for large structures Kinjo, A.R., Bekker, G.-J., Suzuki, H., Tsuchiya, Y., Kawabata, T., Ikegawa, Y., Nakamura, H. Nucleic Acids Research 45(D1): D282-D288 (2017) [doi:10.1093/nar/gkw962](https://doi.org/10.1093/nar/gkw962)
* New tools and functions in Data-out activities at Protein Data Bank Japan (PDBj) Kinjo, A.R., Bekker, G.-J., Wako, H., Endo, S., Tsuchiya, Y., Sato, H., Nishi, H., Kinoshita, K., Suzuki, H., Kawabata, T., Yokochi, M., Iwata, T., Kobayashi, N., Fujiwara, T., Kurisu, G. and Nakamura, H. Protein Science 27 (1): 95-102 (2018) [doi:10.1002/pro.3273](https://doi.org/10.1002/pro.3273)
[Creative Commons](https://creativecommons.jp/licenses/)は「作品を公開する作者が『この条件を守れば私の作品を自由に使って構いません。』という意思表示をするためのツール」。[Creative Commons](https://creativecommons.jp/licenses/)にアイコン画像もある。
### PDBエントリーリストの自動取得方法
[PDBj Mine](https://pdbj.org/mine)SQL検索の検索結果はREST APIを使って取得できる。
例:[ヘム(HEM)を含むエントリーのPDBIDと分子名を得る](https://pdbj.org/help/mine-sql-ex013)
下記SQLの結果をcsv(コンマ区切りテキストファイル)で取得する。
<pre>
SELECT pdbid FROM chem_comp WHERE id='HEM'
</pre>
curlコマンドを使う例。カレントディレクトリのresult.csvに結果を保存。
<pre>
curl -F "q=SELECT pdbid FROM chem_comp WHERE id='HEM'" -F "format=csv" https://pdbj.org/rest/mine2_sql >result.csv
</pre>
参考:
* [Rest interface examples - Help - 日本蛋白質構造データバンク](https://pdbj.org/help/rest-interface-examples):引数仕様などが記載されている。
* [RESTインタフェース - Help - 日本蛋白質構造データバンク](https://pdbj.org/help/rest-interface):上記のcurlコマンドを使った事例の他、Pythonやperlを使った事例も紹介されている。
以上の手順で得られた各PDBIDのmmCIFファイルを取得するには
* wgetコマンドやftpコマンドをループで回して各PDBIDのファイルを取得する
この場合、毎回全件をダウンロードすることになってしまう。rsyncコマンドを使えば差分があるファイル(タイムスタンプに差異があるファイル)のみを取得することはできる。
* rsyncコマンドを使い、全件に対し差分を取得する
まず全mmCIFファイルをローカルに取得してしまい、それに対する対象ファイルだけを使う。
全mmCIFファイルをカレントディレクトリのmmCIFフォルダに取得するには以下のコマンドを実行する:
<pre>
rsync -avz --delete ftp.pdbj.org::ftp_data/structures/divided/mmCIF/ ./mmCIF
</pre>
参考:[PDBアーカイブ / スナップショットアーカイブからのダウンロード - 日本蛋白質構造データバンク](https://pdbj.org/info/archive)
### PDBjからのリンク
以下のものを提供いただければPDBjからリンクを張ることは可能(少なくとも技術的には)
* PDBIDとそれにリンクさせる相手側DBの登録番号のリスト
* 相手側DBの登録番号からリンク先URLを生成するためのルール
実際リンクを張っていいかどうかはPDBj責任者の栗栖先生判断(ダメとは言わないと思うが)。
## 参考情報
* [PDBj勉強会 各回内容](https://hackmd.io/vZS6tNdjTaGEUXCFNn5Vew)
* [各種資料(Google Drive)](https://drive.google.com/drive/folders/1vMa0DWILcqdIPDL4JQIunRxWIAscSdnq)