20th Workflow Meetup && Pitagora Galaxy 2019-09 まとめ(9/30) ================================ 2019-09-30(Mon) 10:00 - 19:00 まで。 # 次回 2019-10-30(Wed) 10:00 - 19:00 まで。 いまのところ、東京単独開催、 理研日本橋東京連絡事務所、会議室1 # 次回の次 2019-11-27(Wed) 10:00 - 19:00 まで。 大阪、東京同時開催 大阪: 東京:理研日本橋東京連絡事務所、会議室1 # 全体 - 13:30-14:30 [TRANSFAC \- geneXplain geneXplain](http://genexplain.com/transfac/) の紹介 # 個別 ## 石井 - もろもろ、いくつかの書類 - CWLの rename したいときには、まず rename をしないようにする - 出力ファイルが固定の場合 - 次のツールがあるときは、そのまま次のステップにわたす。/tmp以下のworkdirが、毎度かわるので問題ない - ファイル名が固定、出力ファイル - CircleCIの設定ファイル中のtypoを、すえたけさんに、[指摘](https://github.com/manabuishii/kallisto-tutorial/commit/5a61917d86ada33162701e5a5dc5fe472364c759#diff-1d37e48f9ceff6d8030570cd36286a61L27)していただいた。 - その後、timeoutの本当の原因が、cwltest のタイムアウトであることがわかったので、タイムアウトの設定をCircleCIと、cwltest両方で行った。 - CircleCIのタイムアウトの[結果出力](https://circleci.com/gh/manabuishii/kallisto-tutorial/14) - `Too long with no output (exceeded 1s)` - cwltestのタイムアウトの場合の[結果出力](https://circleci.com/gh/manabuishii/kallisto-tutorial/13) - `Test 1 timed out:` - おおたさんより、CircleCIのシンタックスハイライターをいれたらどうかという良い提案をいただいたので、いれてみる予定 - Mac での docker の設定に関して得られた知見 - 搭載量の半分程度の割当(ぼうのうさん) - 搭載量の3/4程度の割当(はちやさん) - 搭載量のMAX程度の割当(おおたさん) - Mac miniに関して - 64GB、SSD 2TB、めっちゃよい(おおたさん、ぼうのうさん) - 10G Etherもあるとよい(そのうちそうなるから、先に入れたらどうか?) - 外部ディスプレイに使う方法 - [DUET](https://www.duetdisplay.com) - [サイドカー](https://www.macrumors.com/guide/sidecar/) - [LunaDisplay](http://lunadisplay.com) ## 西田 - 本日 特に何もせず... - 今後 https://github.com/nrnb/gsod2019_kozo_nishida の内容をbiocのworkflowに追加してもらえませんか、と言うかもしれない - 石井追記:[Season of Docs  \|  Google Developers](https://developers.google.com/season-of-docs/) - 完全にノートブック - Rのvignette 的なもの。 ## 丹生 - [zatsu-cwl-generator](https://github.com/tom-tan/zatsu-cwl-generator) をいじっていた - 雑に実行コマンドを与えることで、それらしい CWL のツール定義が出てくる - シングルバイナリも用意した ```console $ docker run --rm ttanjo/zatsu-cwl-generator:latest "cat aaa.txt bbb.txt > output.txt" #!/usr/bin/env cwl-runner # Generated from: cat aaa.txt bbb.txt > output.txt class: CommandLineTool cwlVersion: v1.0 baseCommand: cat arguments: - $(inputs.aaa_txt) - $(inputs.bbb_txt) inputs: ... ``` - 色々要望対応 - なんちゃって自動判定した出力オブジェクト部分をデフォルトでコメントアウト (`とりあえず動く`を実現) - `&>` や `>&` を与えた時のメッセージを親切に - 色々バグ潰し - README.md もテストしたい… - tag を付けて push した時に、自動的に Release page を作成して CI の artifacts を upload してほしい - `$GITHUB_REF` を使えば良さそうだが、よくわかっていない ```console $ echo $GITHUB_REF refs/heads/master ``` - 毎回似たようなことでハマっている気がする - ldc (Dコンパイラ) の Alpine 用クロスコンパイル環境を CI や VSCode remote container 時にビルドして無駄が多いのをなんとかしたい - コードレビューをしました ## 新海 - 自分の仕事をしてました(前回のコピペ) - 次回にはバイオハッカソンで触ったCWLのLASTワークフローの続きとかもうちょっとやりたい - https://github.com/nswork168/cwl_test ## 大田 - 色々あって遅れましたすみません! - 某開発案件のスライドを作っていた - Sapporoのデプロイをやっている - DAT2-CWL の仕上げやテストをやっている - 石井追記:バイオインフォ特有のワークフローのテストに必要なでかいデータは、Zenodeにおいて、以下のラッパーワークフローを用意している - そのでかいデータをひっぱってきて - 実際のワークフローを実行する - 例: https://github.com/inutano/DAT2-cwl/tree/meta16s-workflow/workflow/meta16s-seq - 石井追記:demoってやつが、ラッパースクリプト - 石井追記:最後に本体のワークフローを実行する - MichaelからCWLibraryにどんどん入れてねとのこと https://github.com/common-workflow-library/bio-cwl-tools ## 岩谷 - GSC受講生松平さんと鈴木先生と進捗状況の確認と今後の打ち合わせをしていました ## 松平 - 鈴木先生と岩谷さんと、慶應GSC事業のミーティングをしました ## 鈴木 - 慶應GSC事業のミーティング - [「微生物」本のリスト](https://github.com/haruosuz/books/blob/master/references/books.microbe.md) - 共生細菌ボルバキア [Wolbachia](https://github.com/haruosuz/microbe/blob/master/references/README.bacteria.md#wolbachia) - [Phylogenetic relationships and genome features](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5629928/figure/evw201-F2/) - [生命科学者のためのDr.Bonoデータ解析実践道場](https://www.medsi.co.jp/books/products/detail.php?product_id=3708) - 授業資料の準備 - [生命動態のデータサイエンス](https://github.com/haruosuz/DS4GD/tree/master/2019giga) - [バイオインフォマティクスのデータサイエンス](https://github.com/haruosuz/introBI/tree/master/2019) ## 藤野 - Genomon の CWL 移植のコードレビューをしていただいていました - 見返すと結構謎の書き方をしているな…… - inputs と parameters の position 仕様を勘違いしていた - 石井追記:基本的に同じ `position` を与えないのが良い - ローカルの相対パスで指定した実行ファイルを動かすという試みをしていた (`InitialWorkDirRequirement` で listing してファイルパスを `path` では無く`location` で指定する) - 石井追記:この件いかにも追記させてもらいました。 [CWLで、location と path なら、location を使ったほうが良い \- Qiita](https://qiita.com/manabuishiirb/items/d87c356be6c7542aaa7d) - あとは CWL 移植の続き ## 八谷 - 大規模計算を動かすためのジョブの投げ方について相談 - local disk を使いたい - Genomon CWL のコードレビュー - `InitialWorkDirRequirement` が勉強になった。 - GRCh38 reference genome について調査。bwakit で hs38DH を作る。 ``` Analysis sets: hs38 primary assembly of GRCh38 (incl. chromosomes, unplaced and unlocalized contigs) and EBV hs38a hs38 plus ALT contigs hs38DH hs38a plus decoy contigs and HLA genes (recommended for GRCh38 mapping) hs37 primary assembly of GRCh37 (used by 1000g phase 1) plus the EBV genome hs37d5 hs37 plus decoy contigs (used by 1000g phase 3) ``` | Reference | #. Sequences | | :------- | -------: | | hs37 | 85 | | hs37d5 | 86 | | hs38 | 195 | | hs38a | 456 | | hs38DH | 3366 | - hs38DHの内訳 - hs38 195 - alt 261 - HLA 525 - decoy 2385 - GeneXplain を試しに使ってみた。色々な機能があって、良くこれだけ作ったなぁ、と。~~ただし、デモデータはエラー終了したw~~うまく使いこなせなかったw - (池田です)どんなエラーだったか教えてください - "Gene set enrichment analyses (GSEA)"を使ってみました。使い方が分かっていないだけな気もします。。。 ``` Input table = data/Projects/CRC_6_CpG_biomarkers/Data Enrichment Weight Column = 空白 Species = Human Results folder = DownqValue0.05 (Enrichment analysis) このように入力して、"Run workflow" を押下。 エラーメッセージ: SEVERE - No column '(no options available)' in table data/Projects/CRC_6_CpG_biomarkers/Data/DownqValue0.05. ``` ## 那須野 - [zatsu-cwl-generator](https://github.com/tom-tan/zatsu-cwl-generator) を試した。 - Actions > Artifacts から `zatsu-cwl-generator-macos` バイナリをダウンロードする方法を丹生さんから教えていただいた。 - Galaxyで実行したHISAT2ワークフローをHistoryからCommand Lineの内容をコピーしてみるなどで出力を確認。 ``` ~$ ./zatsu-cwl-generator "hisat2 -x /reference/ht2/hg19/genome --dta --dta-cufflinks /export/galaxy-central/database/files/002/dataset_2897.dat > out.sam" ``` - Dockerイメージは `ttanjo/zatsu-cwl-generator` ですね >丹生さん ⇒修正されました - image size 3MB →すごい - [Harbor](https://goharbor.io/) 使ってる方いますか? - オンプレミスでPrivate Docker Registry - storage backend として S3, Ceph, OpenStack Swiftなども可 ## 坊農 - [Mishima.syk#14でCWLの紹介](https://gitpitch.com/bonohu/slides?p=190921mishimasyk14#/) - [DAT2-cwl](https://github.com/pitagora-network/DAT2-cwl)の検証をさせてもらおうと準備 - とりあえず`development`ブランチを`git clone` - `cwltool workflow/bacteria_genome/bacteria_genome.cwl --fastq1 test/data/DRR024501_1.fastq --fastq2 test/data/DRR024501_2.fastq` まだ途中?期待しています! - とあるバイオインフォマティクスブログの[初めてコマンドを使う人向けの解説](http://kazumaxneo.hatenablog.com/entry/2019/09/19/162338)で、まずDocker入れろ、を観測 ## 小野 - [Common Workflow Language に関する調査](https://qiita.com/manabuishiirb/items/9028086a93855c97d995)を読んで理解を深める - Rabix Composer入れてなかったのでひとまず入れて触ってみてた - [q2cwl](https://github.com/qiime2/q2cwl)ながめてた - 石井追記:これででてきたやつを食わせるための別ツールがあるので、気をつけたい。文法的にvalidだが、basecommandがq2なんとかっていう専用のコマンドになっているため。これを、おおたさんが普通のCWLにしたものを作った。meta16s のやつなど。なので、最初に取り組むときは *注意* - [Common Workflow Language User Guide](http://www.commonwl.org/user_guide/) ## 末竹 - DAT2-cwl の検証をしていた - https://hackmd.io/Nr1TNxDjQ2mq-yOL49lytw ## 池田 - おしかけてセミナーを開催させていただきました - TRANSFACの活用とgeneXplain platform, genome enhancer の紹介