# RDMA, HW/SW オフロード, GPGPU 詰め合わせパック (from NSDI'23) ## RDMA NIC ### SRNIC: A Scalable Architecture for RDMA NICs - https://www.usenix.org/system/files/nsdi23-wang-zilong.pdf - lossy な環境向けにソフトウェアとハードウェアの合わせ技で、接続数についてもスケーラブルな RDMA NIC “SRNIC” を作ったよ ## RDMA Network ### Flattened Clos: Designing High-performance Deadlock-free Expander Data Center Networks Using Graph Contraction - https://www.usenix.org/system/files/nsdi23-zhao-shizhen.pdf - PFC RoCE ネットワークにおけるデッドロックが生じず、Closよりも性能が高くコストが安いネットワークの構成を考えたよ ## RDMA Application ### A High-Speed Stateful Packet Processing Approach for Tbps Programmable Switches - https://www.usenix.org/system/files/nsdi23-scazzariello.pdf - Programmable Switch でメモリが足りない?サーバーの余ってるメモリを使ってTbpsクラスのステートフルなパケット処理を実現しました。 ### Understanding RDMA Microarchitecture Resources for Performance Isolation - https://www.usenix.org/system/files/nsdi23-kong.pdf - 今の RDMA NIC を共有環境で使う場合の問題点を明らかにしてそれに対するテストツールを開発したよ ### Hostping: Diagnosing Intra-host Network Bottlenecks in RDMA Servers - https://www.usenix.org/system/files/nsdi23-liu-kefei.pdf - Intra-host な通信(PCI-E, UPI, Memory Channel etc.)がトラブることが多いから性能計測ツールを作ったよ。 ### Canvas: Isolated and Adaptive Swapping for Multi-Applications on Remote Memory - https://www.usenix.org/system/files/nsdi23-wang-chenxi.pdf - リモートホストのメモリを使うための高速なスワップシステムを開発したよ ### Hermit: Low-Latency, High-Throughput, and Transparent Remote Memory via Feedback-Directed Asynchrony - https://www.usenix.org/system/files/nsdi23-qiao.pdf - リモートスワップシステムのボトルネックとなっている点を洗い出して非同期実装で性能が大幅に改善したよ ### Empowering Azure Storage with RDMA - https://www.usenix.org/system/files/nsdi23-bai.pdf - Azure のストレージシステムで RDMA を導入した時の経験をまとめたよ ## HW オフロード系 ### ARK: GPU-driven Code Execution for Distributed Deep Learning - https://www.usenix.org/system/files/nsdi23-hwang.pdf - GPU 間のDMAを効率的に行うデバイスを開発したよ ### Rearchitecting the TCP Stack for I/O-Offloaded Content Delivery - https://www.usenix.org/system/files/nsdi23-kim-taehyun.pdf - ファイル転送向けに TCP/IP の処理をホスト側と smart NIC 側で分割して CPU の負担を軽減しつつ性能を改善したよ ### Waverunner: An Elegant Approach to Hardware Acceleration of State Machine Replication - https://www.usenix.org/system/files/nsdi23-alimadadi.pdf - HW/SW でいい感じに協調して実装が簡単で高速な State Machine Replication を実装したよ ### RingLeader: Efficiently Offloading Intra-Server Orchestration to NICs - https://www.usenix.org/system/files/nsdi23-lin.pdf - SmartNIC 上で高速かつ優先度を考慮したリクエストスケジューリングを行う仕組みを提案したよ ### Disaggregating Stateful Network Functions - https://www.usenix.org/system/files/nsdi23-bansal.pdf - ステートフルなNFのためのやわらかい処理装置を作ったよ ### Bolt: Sub-RTT Congestion Control for Ultra-Low Latency - https://www.usenix.org/system/files/nsdi23-arslan.pdf - 大容量なリンク(=BDPが大きいリンク)を使い切るための輻輳制御(CC)をスイッチとホストで行うシステムを作ったよ ### ExoPlane: An Operating System for On-Rack Switch Resource Augmentation - https://www.usenix.org/system/files/nsdi23-kim-daehyeok.pdf - In-network computation でスイッチや周辺のデバイスの資源配分を行って複数の処理を動作させる仕組みを作ったよ ## SW オフロード系 ### Electrode: Accelerating Distributed Protocols with eBPF - https://www.usenix.org/system/files/nsdi23-zhou.pdf - Paxos のパケット処理を eBPF でカーネルにオフロードして高速にしたよ ## GPGPU ### Transparent GPU Sharing in Container Clouds for Deep Learning Workloads - https://www.usenix.org/system/files/nsdi23-wu.pdf - GPU のリソースを使い切るために透過的かつリソース配分を調整できるソフトウェアを開発したよ ### BGL: GPU-Efficient GNN Training by Optimizing Graph Data I/O and Preprocessing - https://www.usenix.org/system/files/nsdi23-liu-tianfeng.pdf - 複数GPUを利用するGNN向けの高速な計算プラットフォームを開発したよ ### Zeus: Understanding and Optimizing GPU Energy Consumption of DNN Training - https://www.usenix.org/system/files/nsdi23-you.pdf - バッチサイズとGPUの電力制限をいい感じに調整して電力効率を改善したよ