HPL-AI - HackMD

# HPL-AI ## HPL-MxP, HPL-AI - 傳統的 HPC 以雙精度浮點數(FP64)運算為主 - 科學運算、物理模擬需要有較高的精確度 - 所以傳統的 benchmark (HPL、HPCG) 主要是測量雙精度浮點數運算的性能 - 但現在的 HPC 除了科學運算外，機器學習的需求不斷增加 - 機器學習是一種模糊運算，不需要極高的精確度 - 通常使用單精度(FP32)或半精度(FP16)浮點數，以降低運算所需的 GPU 記憶體和時間 - HPL-MxP 和 HPL-AI 測量低精度浮點數的運算性能 - 用來當作評估模型訓練或推理的運算能力 - [HPL-MxP](https://hpl-mxp.org/): Mixed-Precision Benchmark - 同樣使用 LU 分解來求解線性系統 - 但 LU 分解的過程會使用低精度浮點數 - 標準版本: [Reference implementation](https://bitbucket.org/icl/hpl-ai/src/main/) - [HPL-AI (Riken)](https://www.r-ccs.riken.jp/labs/lpnctrt/projects/hpl-ai/index.html): HPL for Accelerator Introspection - 日本理化學研究所在 Fugaku 上實作的版本 - Fugaku 使用 Arm 架構處理器 - 在 x86 的機器上好像要用 clang 編譯 (尚未成功) - [Nvidia HPC-Benchmarks - HPL-MxP](https://catalog.ngc.nvidia.com/orgs/nvidia/containers/hpc-benchmarks) - Nvidia 實作的版本，使用 CUDA 加速 - 包含在 NVIDIA HPC-Benchmark 裡面 - NVIDIA HPC-Benchmark 是一個 Nvidia 提供的 container image，其中包含他們實作的 HPL、HPCG 等 benchmark - 實測確定 RTX2080 無法執行 - [AMD Zen HPL-MxP](https://www.amd.com/en/developer/zen-software-studio/applications/pre-built-applications.html) - AMD 實作的版本 - 針對 Zen4 優化 - 實測確定 Intel CPU 無法執行 ## 編譯 Reference implementation ### 軟體要求需要安裝 - autoconf - GCC (gcc, g++, make) - git ### 下載原始碼使用 git 下載原始碼 ``` git clone https://bitbucket.org/icl/hpl-ai.git ``` ### Config 產生設定檔 ``` autoreconf -ivf ./configure ``` ### Build ``` make ``` ### Run ``` make ./hpl-ai <n> <max_iter> ``` - `<n>`: 問題規模 - `<max_iter>`: GMRES Solver 的最大執行次數