2023年度第3回MDatahub開発合宿 === ###### tags: `MicrobiomeDataHub` `Meeting` - wifi - endpoint: HAS-DESIGNATED-1 passward: szo-1000 - endpoint: HAS passward: szo-2016 :::info - **Location:** [ホテルアソシア静岡](https://www.associa.com/sth/access/) 2階 あやめ - **Date:** 2024年1月22日13時-1月24日19時 - **Agenda** - 1月22日 (月) > [name=森宙史(遺伝研) 主催者] > [name=藤澤貴智(遺伝研) 現地参加者] > [name=大石直哉(dogrun) 現地参加者] > [name=石井学(GAJ) 現地参加者] > [name=守屋勇樹(DBCLS) オンライン参加者] > [name=谷澤靖洋(遺伝研) 現地参加者] > [name=Mohamed(遺伝研) 現地参加者] > - 1.1. 受付・会場準備 13時-13時30分`30 min` - 1.2. 合宿TODO list作成、分担決め会議 13時30分-15時 `90 min` - 1.3. 開発 15時-19時 `4 hour` - 1.4. ホテルチェックイン 19時-20時 `1 hour` - 1.5. 1日目のまとめと2日目の計画会議 20時-21時 `1 hour` - 1月23日 (火) > [name=森宙史(遺伝研) 主催者] > [name=藤澤貴智(遺伝研) 現地参加者] > [name=大石直哉(dogrun) 現地参加者] > [name=石井学(GAJ) 現地参加者] > [name=守屋勇樹(DBCLS) オンライン参加者] > [name=谷澤靖洋(遺伝研) 現地参加者] > [name=Mohamed(遺伝研) 現地参加者] - 2.1. 開発 9時-14時`5 hour` - 2.2. 昼食休憩 14時-16時 `2 hour` - 2.3. 進捗報告と作業分担検討会議 16時-17時 `1 hour` - 2.4. 開発 17時-20時 `3 hour` - 2.5. 2日間のまとめと3日目の計画会議 20時-21時 `1 hour` - 1月24日 (水) > [name=森宙史(遺伝研) 主催者] > [name=藤澤貴智(遺伝研) 現地参加者] > [name=大石直哉(dogrun) 現地参加者] > [name=石井学(GAJ) 現地参加者] > [name=守屋勇樹(DBCLS) オンライン参加者] > [name=谷澤靖洋(遺伝研) 現地参加者] > [name=Mohamed(遺伝研) 現地参加者] - 2.1. 開発 9時-13時`4 hour` - 2.2. 進捗報告と作業分担検討会議 13時-14時 `1 hour` - 2.3. 昼食 14時-15時 `1 hour` - 2.4. 開発 15時-18時 `3 hour` - 2.5. 3日間のまとめとMicrobiome Datahub論文化に向けた計画会議 18時-19時 `1 hour` - **参加者:** - 森宙史(遺伝研) 主催者 - 藤澤貴智(遺伝研) 現地参加者 - 大石直哉(dogrun) 現地参加者 - 石井学(GAJ) 現地参加者 - 守屋勇樹(DBCLS) オンライン参加者 - 谷澤靖洋(遺伝研) 現地参加者 - Mohamed(遺伝研) 現地参加者 - **Contact:** 森宙史(遺伝研) <hmori あっと nig.ac.jp> - **主催者:** 森宙史(国立遺伝学研究所) ::: :dart: 目標 --- ## MDatahub ☑️ 打合せ:1/22(月)14:20-(森、藤澤、大石、石井) Slack: togothon#mdatahub ### DONE - RefSeqゲノムのDFAST/DFASTQC実行してcs9に配置の手配(森、藤澤、石井)☑️ - MGnifyゲノムのDFAST/DFASTQC実行してcs9に配置の手配(森、石井) ☑️ - インフォラウンジさんのフロント環境デプロイを試す(藤澤)☑️ - インフォラウンジさんが開発しているフロントのレポジトリ - https://github.com/microbiomedatahub/docker-microbiome-datahub (main) - https://github.com/microbiomedatahub/microbiome-datahub (develop) - https://github.com/ddbj/ddbj-ld-proxy (main) - 独立したdevelop環境の動作確認 ☑️ - 現在mdatahub.org固定の箇所をBASE_URL環境変数を指定してフロントに反映されるように修正(藤澤) ☑️ - ESのindex_templateのロードおよび小さいindexデータの作成およびロードし、テストデータをdocker-microbiome-datahubにコミットする(藤澤) ☑️ - ~~データ取得および変換スクリプトをdocker-microbiome-datahubにコミットする(大石、藤澤)~~ - docker-microbiome-datahub 配下にdataflow_prototypeをcloneすることにした。☑️    - docker-microbiome-datahubにdevelopブランチを作ってテストデータとデータロードするsetup.shスクリプトをコミットし、README.mdを更新 ☑️ - cs9にMDatahubステージング環境作る(大石)☑️ - ddbj-ld-proxyレポジトリにいるnginx.confの設定を docker-microbiome-datahub に反映する(大石) - ddbj-ld-proxyレポジトリにいるdocker-compose.ymlのvolume mountの設定などをdocker-microbiome-datahubのcompose.ymlに反映する(大石) - localhost:8081/dataでデータにアクセスできるようにする - 本番環境と共存可能なようにcompose-staging.ymlを追加する - コンテナ名を変える - ポートを変える web 8081, es01 9201 ### TODO - BioProject, MAGのダウンロード機能開発(大石) - データダウンロード項目決め(森、大石)☑️ - RefSeq genomeデータの準備 - 取得のロジックを記載した(藤澤)☑️ - https://github.com/microbiomedatahub/dataflow_prototype/blob/main/README.md - cs9:/work1/mdatahub/public/genome/GCF/...にRefSeq genomeのディレクトリを作成する(石井)☑️ - スパコンもしくはcs9でRefSeq genomeのbiosample.xmlを取得する(大石) - データ更新スクリプトの開発(大石、藤澤) - https://github.com/microbiomedatahub/dataflow_prototype - JSONデータ分割とスクリプトの整理 - RefSeq GenomeとGIデータを作成でMAG生成スクリプトの動作確認と汎用化 - MDatahub来年度計画書書き(森) ## MDatahub-jPost連携 ☑️ 打合せ:守屋さんのzoom打合せ可能な日程候補をおしえてください Slack: togothon#mdatahub 1/22 17:00-18:00 →こちらでお願いします 1/23 11:00-18:00 1/22 17:10からZoomミーティング - 21.8万 MAG を MetaLab-MAG (Metaproteome 解析)で利用できるように整理(守屋) - 環境で分類, completeness 等で足切り([作業メモ](https://docs.google.com/document/d/16vLENEUEXXEDwvg54B5_Rz6qOWv2RpvlLaRfooFwnJQ/edit#heading=h.kc0wscv86o73)) ## DFAST - DDBJ template generator prototype開発 (谷澤・大石) - fastAPI でバックエンドプロトタイプ作成☑️ - メタデータの定義情報を取得するメソッドのみ試作 - todo) パラメータを受け取りMSSファイルを生成するメソッドを作成 - svelteでフロントエンドプロトタイプ作成(大石) - DFAST_QC 拡張 skANI + MASH (Mohamed + 谷澤)☑️ - DFAST結果にGO付加するスクリプト作成 (谷澤) ☑️ - script ファイル (`dfast2GO.py`) - https://dfast.ddbj.nig.ac.jp/static/dfast2GO.py から取得してください。 - 使い方 スパコン内で実行してください。 /usr/local/shared_data/mirror/ddbj.nig.ac.jp/dfast/dfast_core_db/protein/DFAST-default-GO.tsv においたデータを参照しています (このデータをカレントディレクトリにコピーして使ってもOK)。 ``` # Biopythonインストール必要 python dfast2GO.py -i input.gbk --output output.gbk --tsv output.tsv # または、singularityで実行 (Biopython不要) singularity exec /usr/local/biotools/b/biopython:1.78 python dfast2GO.py -i input.gbk --output output.gbk --tsv output.tsv ``` 出力先ファイルとして --output または --tsv のどちらかを指定する必要があります。 2023.4月以降に実行したDFAST結果にしか対応していません。(2023.4にDFASTの参照データの更新を行なっているため) Slack: ddbj-dev#mag ## Green Innovation・Gtex 打合せ:キックオフ1/23 (火) 16:00-16:30 (森、藤澤、藤本、大塚)☑️ - https://us02web.zoom.us/j/84750706991?pwd=Z2ZNUVRXREZkZFB5eWhsUDhXQ3pldz09 - ddbj-dev#ddbj-group-cloud (新規に作った)☑️ ### DONE - NITE選別CO2固定菌DFAST/DFAST-QC実行結果の確認 3000件 ☑️ - GI用サーバセットアップ (https://pzlast.nig.ac.jp)☑️ - mdb-devアカウント作成(森)☑️ - アカウント情報のメールしました。 - Mdatahub環境構築(藤澤)☑️ - 大石さんの修正を待ってpzlastサーバにデプロイする(藤澤) - /work/gi-mdatahub/app/docker-microbiome-datahub - Nextcloud環境構築キックオフ(森、藤澤、日立) ☑️ ### TODO - BioProjectとBioSampleを取得からProjectとGenomeのインデックスを作成してESにローカル環境ロードする(藤澤) - 何を入れるか1/26のGI定例で議論してから - Nextcloudに配置するために遺伝研スパコンの/home/gi領域にデータコピー(藤澤) ## DDBJ - FCS-GX案件化(藤澤、石井) - 1/24 - DDBJ Searchの案件化(丹生、藤澤、大石、末竹) - 1/26(金)に打合せ - レポジトリは、proxy-apiの階層にapiを育てる方向で - https://github.com/ddbj/ddbj-ld-proxy/tree/main/docker/proxy-api - DFAST案件化(谷澤、藤澤、末竹?) (`todo` 谷澤) - Assembly登録関連・DFAST or 次年度開発の前倒し - https://www.evernote.com/shard/s1/sh/fa324219-48d7-db37-0e69-8a34a1187ef0/s2sjeJqgCh8zogzWkwdLiUnuGzTUiGnhtFoI39jX3hoH6E9ea1dtOHaEJw - DFAST webサービス DKIM問題への対応(谷澤) - gmailアカウント + アプリパスで対応可能であることを確認。本番環境への反映はまだ 末竹さんと打合せ候補: 1/23 (火): 13:00 - 1/24 (水): 11:00 - 12:30, 14:30 - 1/25 (木): Togothon (一日います) 1/26 (金): Togothon (一日います) # 作業メモ ## cs9のパス構成の確認 ``` mdb_dev@cs9 mdatahub]$ pwd /work1/mdatahub [mdb_dev@cs9 mdatahub]$ tree -L 2 . ├── app │   ├── bpxml2json │   ├── dataflow_prototype │   └── ddbj-ld-proxy ├── private │   └── megap ├── public │   ├── dev │   ├── genome │   ├── genome-20230430 │   ├── project │   └── togodx-tpp └── repos └── dataflow_prototype ``` ## おそらくフロントが本番環境を見にいっている箇所 ``` microbiome-datahub/src/components/ProjectItems.tsx: const res = await fetch(`https://mdatahub.org/api${url}`, { microbiome-datahub/src/components/GenomeItems.tsx: const res = await fetch(`https://mdatahub.org/api${url}`, { microbiome-datahub/src/routes/Show.tsx: const res = await fetch(`https://mdatahub.org/api/${path}`) ``` ## Assembly RefSeq のDFAST/DFAST-QC実行 ### 条件 - https://docs.google.com/presentation/d/1WImru_uNhlLSwX6IH0QDfsViq2pRpS9P8-N_qH3x28c/edit#slide=id.g1481e1db3ba_0_0 /lustre9/open/shared_data/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt の22カラム目のrelation_to_type_material="assembly from type material"かつ25カラム目のgroup=archaea|bacteriaで #{assembly_accession}_#{asm_name}_genomic.fna.gz の配列 21748件 ``` [tf@at043 ASSEMBLY_REPORTS]$ grep "assembly from type material" /lustre9/open/shared_data/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt |egrep "archaea|bacteria" |cut -f1,20 |head -10 GCF_000738775.1 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/738/775/GCF_000738775.1_ASM73877v1 GCF_000716785.1 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/716/785/GCF_000716785.1_ASM71678v1 GCF_000716805.1 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/716/805/GCF_000716805.1_ASM71680v1 GCF_000771725.1 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/771/725/GCF_000771725.1_DSM-20436 GCF_000771645.1 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/771/645/GCF_000771645.1_DSM-23969 GCF_000771545.1 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/771/545/GCF_000771545.1_DSM-21854 GCF_000771285.1 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/771/285/GCF_000771285.1_DSM-20211 GCF_000771205.1 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/771/205/GCF_000771205.1_DSM-20098 GCF_000297215.2 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/297/215/GCF_000297215.2_ASM29721v2 GCF_000787375.1 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/787/375/GCF_000787375.1_ASM78737v1 ``` ### relation_to_type_materialの内訳確認 ``` [tf@at043 ASSEMBLY_REPORTS]$ less -S assembly_summary_refseq.txt |cut -f22 |sort |uniq -c |sort -nr 307416 na 21928 assembly from type material 10965 ICTV species exemplar 386 assembly from synonym type material 239 ICTV additional isolate 57 assembly from pathotype material 38 assembly designated as neotype 24 assembly designated as reftype 8 assembly designated as clade exemplar 1 relation_to_type_material 1 ## See ftp://ftp.ncbi.nlm.nih.gov/genomes/README_assembly_summary.txt for a description of the columns in this file. ``` ### 入力ファイルのゲノム配列は_genomic.fna.gz - _cds_from_genomic.fna.gz, _rna_from_genomic.fna.gzではない ``` [tf@at043 ASSEMBLY_REPORTS]$ ls -l ../all/GCF/000/702/765/GCF_000702765.1_ASM70276v1/*_genomic.fna.gz -rw-r--r-- 1 w3ddbjld ddbj-service 449772 6月 3 2023 ../all/GCF/000/702/765/GCF_000702765.1_ASM70276v1/GCF_000702765.1_ASM70276v1_cds_from_genomic.fna.gz -rw-r--r-- 1 w3ddbjld ddbj-service 414280 6月 1 2016 ../all/GCF/000/702/765/GCF_000702765.1_ASM70276v1/GCF_000702765.1_ASM70276v1_genomic.fna.gz -rw-r--r-- 1 w3ddbjld ddbj-service 4020 6月 3 2023 ../all/GCF/000/702/765/GCF_000702765.1_ASM70276v1/GCF_000702765.1_ASM70276v1_rna_from_genomic.fna.gz``` ``` ### DFASTで配列IDを変えないオプションとソートしないオプション ``` --use_original_name f --sort_sequence f ``` ## DFAST/DFASTQC実行用MGnifyゲノムのcs9の配置場所 * cs9:/work1/mdatahub/private/mgnify/ に約600fastaファイル入りのhoneybee-gut.tar.gzをおきました。 * 他にchicken-gut, cow-rumen, human-gut, human-vaginal, non-model-fish-gut, zebrafish-fecal, human-oral, marine, pig-gutがあり、それらもそれぞれ単一のtar.gzとしてmgnify/に置きます。 ## Gi-MDatahubデータの確認 ``` [mdb_dev@cs9 genome]$ pwd /work1/gi-mdatahub/public/genome [mdb_dev@cs9 genome]$ head -10 GCF_002189005.1.KO.func.txt K00370 1 K00371 1 K02567 1 K02568 1 K00370 1 K00371 1 K00362 1 K00363 1 K03385 0 K15876 0 [mdb_dev@cs9 genome]$ tree -L 1 GCF_002189005.1 GCF_002189005.1 ├── dfast ├── dfastqc └── genome.fna.gz ``` ### Reference GenomeのBioProjectの確認 PGAPを使ってないいにしえのモデル微生物3件。全てのリファレンスゲノムは、強制的に、PRJNA224116のRefSeqエントリーに紐づけることにする - https://ddbj.nig.ac.jp/resource/bioproject/PRJNA57675 - Bacillus subtilis subsp. subtilis str. 168 - https://ddbj.nig.ac.jp/resource/bioproject/PRJNA57777 - Mycobacterium tuberculosis H37Rv - https://ddbj.nig.ac.jp/resource/bioproject/PRJNA57799 - Salmonella enterica subsp. enterica serovar Typhimurium str. LT2 ``` [tf@at044 ~]$ grep "assembly from type material" /lustre9/open/shared_data/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt |egrep "archaea|bacteria" |cut -f2 |sort |uniq -c # 21745 PRJNA224116 1 PRJNA57675 1 PRJNA57777 1 PRJNA57799 ``` ### pzlastサーバでのデプロイエラー ``` [mdb_dev@mcs2 docker-microbiome-datahub]$ docker compose up web [+] Running 3/0 ✔ Container microbiome-es-1 Running 0.0s ✔ Container microbiome-api Running 0.0s ✔ Container microbiome-web Created 0.0s Attaching to microbiome-web microbiome-web | /docker-entrypoint.sh: /docker-entrypoint.d/ is not empty, will attempt to perform configuration microbiome-web | /docker-entrypoint.sh: Looking for shell scripts in /docker-entrypoint.d/ microbiome-web | /docker-entrypoint.sh: Launching /docker-entrypoint.d/10-listen-on-ipv6-by-default.sh microbiome-web | 10-listen-on-ipv6-by-default.sh: info: ipv6 not available microbiome-web | /docker-entrypoint.sh: Launching /docker-entrypoint.d/20-envsubst-on-templates.sh microbiome-web | 20-envsubst-on-templates.sh: Running envsubst on /etc/nginx/templates/default.conf.template to /etc/nginx/conf.d/default.conf microbiome-web | /docker-entrypoint.sh: Launching /docker-entrypoint.d/30-tune-worker-processes.sh microbiome-web | /docker-entrypoint.sh: Configuration complete; ready for start up microbiome-web | 2024/01/23 06:33:46 [emerg] 1#1: socket() [::]:80 failed (97: Address family not supported by protocol) microbiome-web | nginx: [emerg] socket() [::]:80 failed (97: Address family not supported by protocol) microbiome-web exited with code 1 ``` ### Microbiome Datahubでダウンロードしたい項目 * Project: * メタデータtsvファイル * title * identifier * description * sample_organism * sample_taxid * sample_host_organism * sample_host_organism_id * sample_host_disease * sample_host_disease_id * sample_host_location * sample_ph_range * sample_temperature_range * 系統組成のtsvファイル -> BioSample単位になる * 系統階層を指定させて、系統階層の系統組成ファイルをダウンロード * サンプルごとにどのBioProjectに紐付いているかも付加しないといけない * 系統階層の系統組成ファイルを作る? * MongoDBが良さそう? * Genome * メタデータtsvファイル * identifier * organism * bioproject * biosample * species_taxid * sample_host_organism * sample_host_organism_id * sample_host_disease * sample_host_disease_id * sample_host_location * sample_ph_range * sample_temperature_range * Total Sequence Length (bp) * Number of Sequences * Longest Sequences (bp) * N50 (bp) * GCcontent (%) * Number of CDSs * Coding Ratio (%) * Number of rRNAs * Number of tRNAs * quality * completeness * contamination * strain_heterogeneity * Genome sequenceファイル * DNA fasta(genome.fna) * 遺伝子 sequenceファイル * DNA fasta(cds.fna) * アミノ酸 sequenceファイル * protein fasta(protein.faa) * アノテーションファイル * (features.tsv) ``` ## Notes - 食事・宿泊先は各自で確保ください <!-- Other important details discussed during the meeting can be entered here. -->