- [講解 slide](https://docs.google.com/presentation/d/1KP6YqR_JbGLKTnr6sHulFbm_hQKTINPVuHGFmmqLvO4/edit?usp=sharing) - 跑程式 - [REAL](http://gitlab.centrilliontech.com.tw:10088/johnson/REAL) - [overlap_evaluation](http://gitlab.centrilliontech.com.tw:10088/johnson/overlap_evaluation) - [dot_plot_visualize](http://gitlab.centrilliontech.com.tw:10088/johnson/dot_plot_visualize) - 目前希望能解決速度過慢的問題 - 確認是否是因 cache miss 造成效能低落,並參考 minimap2 如何解決,(個人讀文獻時,印象中 DALIGNER 也有針對 cache miss 做效能改進) - [Minimap](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4937194/) - [Minimap2_1](https://academic.oup.com/bioinformatics/article/34/18/3094/4994778?login=false) - [Minimap2_2](https://academic.oup.com/bioinformatics/article/37/23/4572/6384570?login=false) - 如果想要針對現有 code 進行改進,可以改動 `SeedMap.hpp` - 很多結構沒有封裝好,目前整併在 `basic_structures.hpp` - Seed_map.hpp > `ReadOffset` - 建議使用的 IDE 可以全專案搜尋變數 - e.g. - `seed_map.hpp` > `get_offsets` - 重複複製可能導致效能低下? - 驗證: - 可能因為過濾因素而導致準確度些微差距,可以用 evaluation 裡面的 shell script 驗證 - ecoli baseline: ``` ovlen, #pos, true_pos, #false_pos 300, 177739,168673,7092 800, 168485,166411,6650 1300, 159131,158263,4303 1800, 149783,149084,3466 2300, 134227,133613,2544 2800, 117109,116552,1650 3300, 103576,103069,1112 3800, 91870,91400,670 4300, 81656,81224,179 4800, 72953,72570,74 5300, 65149,64813,1 5800, 58280,57980,0 ovlen, sens, prec, f1sc 300, 0.949, 0.9597, 0.9543 800, 0.9877, 0.9616, 0.9745 1300, 0.9945, 0.9735, 0.9839 1800, 0.9953, 0.9773, 0.9862 2300, 0.9954, 0.9813, 0.9883 2800, 0.9952, 0.986, 0.9906 3300, 0.9951, 0.9893, 0.9922 3800, 0.9949, 0.9927, 0.9938 4300, 0.9947, 0.9978, 0.9963 4800, 0.9948, 0.999, 0.9969 5300, 0.9948, 1, 0.9974 5800, 0.9949, 1, 0.9974 ```