15th Workflow Meetup まとめ ========================== (各自一番下の方に、名前とやったことを書いてもらえるとたすかります。) # 全体 ## 次回予定 - 2019-05-30(Thu) - 大阪、東京、同時開催 - [suecharo/SAPPORO: SAPPORO is a workflow and individual task execution system\. It is also useful for continuous testing of workflows\.](https://github.com/suecharo/SAPPORO) - WES(Workflow Execution System)の紹介 - 質疑応答いれて(1時間程度を予定) - 実際に書いてみる(1時間を予定) - ワークフローライブコーディング - ワークフローライブデバッギング - CWLのカンファレンスコール(17:00-18:00 (JST)) - アジア、オセアニアあたりのタイムゾーンの人が多め - その他 ## view.commonwl.org が動かないことを報告し、復活させてもらった - [Common Workflow Language Viewer](https://view.commonwl.org/) ## 今後やりたいこと - bioconda のレシピ作成(直近) - このバージョンのこのツールがないといったとき。 - Dockerfile の書き方 - パッケージング周り - python, ruby, R, julia ## ワークフロー ワークフローを記述するのに、どんな言語をつかっていますか? | 記述言語 | 人数 | | ---- | ---- | | シェル | 9 | | python | 6 | | CWL | 3 | | nextflow | 2 | | Makefile | 1 | | rake | 0 | | snakemake | 0 | | 上記以外、独自フレームワーク | 0 | ## どんな環境で、計算をしているか ほぼすべての人が、共有計算機環境 dockerを、許容している研究機関もある。 GPUが必要だと nvidia-docker をいれる必要があることがある。 ## Singurality - [【Singularity副社長と開発責任者が来日!】Singularity Workshop \- connpass](https://connpass.com/event/125112/) ### Singuralityのイメージはどうやって作るか? Dockerからの変換の人が多い 今後は、 ## こんなのことを、知りたい、聞きたい、やってみたい - nextflow について知りたい - すごい細かいユースケース - どの粒度で docker ファイルを作って - CWL ではどのように - GridEngine で、どうやって並列かされているか - パッケージングの単位 - ベストプラクティス的なこと - クラウドの計算 - Singularity ### dockerhubとquay.ioの使い分けポイント - dockerhubのビルドが遅い - dockerhubに手元でビルドとしたものをpushすることは可能 - ソースコードの変更して、githubなどにpushするたびに、自動でビルドしてくれる機能がある。 ### IDの変換をしたい - TogoTVにある解説 - [HGNCを使ってヒト遺伝子の正式略称\(GeneSymbol\)を検索する\(\+ヒトとマウスの遺伝子IDを変換する\) \- YouTube](https://www.youtube.com/watch?v=bBr4v5lMuYI) - Ensembl の BioMart を使う方法もある。 ### ワークフローシステムごとの参考情報 #### Nextflow のワークフローがまとまっているところ [nf\-core](https://nf-co.re/) - A community effort to collect a curated set of analysis pipelines built using Nextflow. #### CWL のワークフローがまとまっているところ - 公式による紹介 - [Common Workflow Language](https://www.commonwl.org/#Repositories_of_CWL_Tools_and_Workflows) - ヒトゲノムデータのワークフロー、今回の八谷さんより紹介していただきました - [ddbj/human\-reseq](https://github.com/ddbj/human-reseq) > ヒトゲノム(whole genome sequencing)データのワークフローで、入力=配列データ(FastQk形式)、出力=多型データ(genomic VCF形式) - 使い方 - [Home · ddbj/human\-reseq Wiki](https://github.com/ddbj/human-reseq/wiki) - RNA-seq なら - [pitagora\-network/pitagora\-cwl: Common Workflow Language tools and workflows by Pitagora\-Network](https://github.com/pitagora-network/pitagora-cwl) #### CWL のユーザーガイド ##### 公式のユーザーガイド CWLの、ユーザーガイド。これはテストをしているので動きます。 動かないのがあったら、教えてもらえると助かります。 - しかし、Rabix Composerで動かないチャプターもありまして、そこは修正をしないといけない。。。今度動かないリストをつくってみようとおもいます。 - [Common Workflow Language User Guide](http://www.commonwl.org/user_guide/) ##### Rabix Composer のチュートリアル Rabix Composerのチュートリアル - http://docs.rabix.io/tutorial-1-wrapping-samtools-sort #### Dockstore - [Dockstore](https://dockstore.org/) - Search Docker Tools and Workflows for the Sciences: > Dockstore, developed by the Cancer Genome Collaboratory, is an open platform used by the GA4GH for sharing Docker-based tools described with the Common Workflow Language (CWL), the Workflow Description Language (WDL), or Nextflow (NFL) #### 自動でsalmon ikra [大阪大学医学部 Python会 – Now is better than never](https://pythonoum.wordpress.com/) のメンバーによる。 - [yyoshiaki/ikra: 自動でsalmon!](https://github.com/yyoshiaki/ikra) > idepのinputとして発現量テーブル(gene × sample)をexperiment matrixから自動でつくる。salmonを用いる。 # 八谷先生より、ワークフローの解説を予定 [ddbj/human\-reseq](https://github.com/ddbj/human-reseq) > ヒトゲノム(whole genome sequencing)データのワークフローで、入力=配列データ(FastQk形式)、出力=多型データ(genomic VCF形式) # 石井 - CWLの簡単な紹介をした - 他の人のワークフローの使い方などの調査をした - 次回の予定を決めた # 西田 - https://github.com/kozo2/ecell4-azurebatch をいじってます (Global Azure Bootcamp に参加するので) - azure batch で https://github.com/ecell/ecell4-base を走らせるためのutilityです。 - 自分が関わるprojectにazure pipelinesを追加してます。 (Global Azure Bootcamp に参加するので) - cwl で DBのID変換ノウハウが貯めれるとうれしい?かもしれない? (やりたいことはenrichment analysis。enrichment analysis前にめっちゃID変換をやるので。) - 次回はdashかshinyの紹介、もしくはpapermilかR Markdownの紹介をしようかと思っています。 芳村さん市川さんの話を聞く限りではお二人にとってはcwlより重要そうな気が... - cwlとcwl viewerの画像のセットの一覧サイトを作ろうと思います。 # 大田 - [Sapporo](https://github.com/suecharo/SAPPORO) を遺伝研スパコンにデプロイするテストをしています - 閉鎖環境なので色々どん詰まっている (ファイル取ってくるのはできると思っていたがだめだった) - Andrea さんのツールコンテナ化の相談に乗った - ログインのちダウンロードしなければいけないバイナリツールをコンテナに入れたいとの話 - Dockerfileを配って、ユーザにツールを取ってきてもらったあとに、ユーザ自身にビルドしてもらうのがよいのではということに - ぼうのうさんに指摘されたCWLのtypoを[修正した](https://github.com/pitagora-network/pitagora-cwl/pull/19) - EBI インフラの話を来月半ばに聞きに行くので宿をとった # 新海 - 自分の仕事をしつつ皆様の話を聞いて情報収集 - (その後)相変わらず自分の仕事をしてました - cwlのコーディング練習興味あります - GATKのbestpracticeとかTCGAの変異解析ワークフローとかのcwl化を練習でやってみたい - ID変換の件勉強になります # 尾崎 - nextflowについて調査した - cwlをnextflowへ変換するツール `cwl2nxf` について、"This project is no longer under active development" と書いてあり、nextflowはCWLとは分離した方向に進むことが示唆された https://github.com/nextflow-io/cwl2nxf - パイプラインレポジトリ: nf-core https://nf-co.re/ # 坊農 - ワークフロー言語におけるCWLの立ち位置を知った - https://view.commonwl.org/ 落ちてる?→再起動してもらった https://twitter.com/soilandreyes/status/1120972109126221825 - 自動でsalmon! https://github.com/yyoshiaki/ikra/ - Pitagora-networkのworkflowを試し始めた https://github.com/pitagora-network/pitagora-cwl - 手始めにkallistoのindex作成を実行してみた→成功 https://github.com/pitagora-network/pitagora-cwl/tree/master/tools/kallisto/index # 山田 - CWLについて情報収集した - 公式githubの実行エンジン一覧表が役立ちそう https://github.com/common-workflow-language/cwl-website/ - EDAM Ontology http://edamontology.org/page を知った - バイオインフォで扱われるデータや用語の定義(オントロジーの)データベースらしい - Rabix Composerのチュートリアルを試してみる http://docs.rabix.io/tutorial-1-wrapping-samtools-sort - 今日持って来たnotepcにdockerを入れていなかった・・ Common Workflow Language User Guideを読みます http://www.commonwl.org/user_guide/01-introduction/index.html # 市川 - CWLをはじめとするワークフロー言語について情報収集した - Rabix Composerを試してみた # 芳村 - CWLについて復習した - Nextflowでwhenが動いていなかったのを動くようにした https://www.nextflow.io/docs/latest/process.html#when # くまがい - CWL、コンテナ周りの情報収集 - 良さそうなので luigi -> CWL に乗り換えようと思いました # 千葉 - 前回参加したMeetupから勉強のためヒトDNAのアライメントをおこなうCWLを作っている - human-reseqを拝見したあとだと、ソースコードに繊細さが足りないないことが良くわかった - edam:formatを追加した - dockerPullできるようにした - requirementsいれた # 八谷 - ヒトゲノム解析用ワークフローのデモを聞いてもらった - NIG個人ゲノム解析環境のセットアップ(Upload待ちが長い) - 藤野さんと今後の作業方針を相談。 - 解析サーバ間での結果の違いを把握したい - GATK3とGATK4の違いを把握したい - 参照配列の違い(GRCh37 / GRCh38 / JG1)を把握したい - etc. # 池田 - MacのJavaをUpdateするかどうか検討した - https://qiita.com/percipere/items/a4ca9f2954ff722dcc6c - AzulのOpenJDK 8なら OS X用のバイナリーが提供されている - https://www.azul.com/downloads/zulu/ - こちらに切り替えるのが現実的か? - nextflowはOpenJDKで動作するの? - 動作するようだ...ただし、Java 12を除く https://github.com/nextflow-io/nextflow/issues/1082 # 藤野 - CWL のツール群のインストールから初めて、サンプルの human-reseq を動かす - アウトプットが出てきていることを確認 - ただ、メモリの問題で手元の MBP では動かせないので途中から医科研スパコンで動かす - Grid Engine の上で動かすことになるので若干ややこしくてエラー対処に苦しむ # 末竹 - SAPPORO の v0.3.5 をリリースしました - https://github.com/suecharo/SAPPORO/releases/tag/v0.3.5 - 最近 CWL を完全に理解した # 角崎 - CWLを知った。 - CWLの文法を勉強した。 - プログラムを参考にしながら、bowtie, blastnのcwlを書いて、手元の環境で動かした。