職責
受任者將被要求為香港理工大学人工智能學院(PAAI)下的生成式人工智能研究機構(RIGAI)(待成立)工作。受任者將被要求:
(a) 負責設計和開發大型語言模型(LLM)訓練平台,開發GPU資源池統一能力、訓練工作排程、推論加速和機器學習運作(MLOps)平台,以支持高效模型訓練迭代;
(b)領導建設以Kubernetes + NVIDIA GPU Operator為中心的GPU計算集群,包括節點規劃、資源管理、调度策略和容器運行時環境設置(Docker/Containerd);
(c)為NVIDIA集群构建軟體堆疊,包括CUDA、NVIDIA驅動程序、織物管理器、PyTorch分散式和NCCL通訊,以確保分散式訓練的高性能和穩定性;
(d)設計和實現訓練平台的關鍵基礎設施組件和工具鏈,包括訓練任務編排和自動化管道、統一基圖系統(CUDA + PyTorch)、資料載入和資料分發組件,以及訓練artifact管理和模型版本管理;
(e)與LLM團隊合作,支持在平台上的框架層(PyTorch Distributed、Megatron、SGLang)的分佈式訓練的實施、優化和效率提高;
(f)參與建立監控和可見性系統,覆蓋GPU指標、NCCL通訊、IB網路、儲存I/O以及Pod運行狀態,並建立警報策略;
(g)撰寫平台構建文檔、開發規格和自動化腳本和工具(Python/Go/Bash/Terraform)以提高工程一致性並交付品質;
(h)執行PAAI總監或其代表指派的其他任何工作。
資格條件
申請人應:
(a) 持有計算機科學、通訊、電子或其他相關學科的碩士學位或上學歷;
(b) 至少五年在監督層面上的MLOps領域的堅實經驗;
(c)對LLM訓練過程、多模態模型和AI代理有基本的理解;
(d) 熟悉整個訓練、推測和評估管道;
(e)精通主流語言如Python或Go,具備良好的工程技能、編程標準和後端開發能力;
(f)熟悉與LLM相關的訓練框架,如PyTorch、PyTorch分散式、SGLang和Megatron;
(g)了解Kubernetes及其GPU调度生態系統,包括GPU操作員、容器運行時、映像构建和管道工程流程;
(h)熟悉NVIDIA Hopper GPU架構、NCCL通訊、InfiniBand網路、GPU/NVLink拓樸和性能瓶頸;
(i) 熟悉HDFS、JuiceFS、GPFS或其他類似的大規模數據訪問系統,並理解訓練數據讀取瓶頸;
(j)具有基礎設施技術如Ray、消息隊列、後端存儲和API服務的經驗將是一個優勢;
(k)具有平台工程、培訓平台開發、MLOps或分散系統開發的經驗將是一個優勢;
(l)能夠將模型團隊需求轉換為工程解決方案;
(m)具有良好的溝通技巧;
(n)流利使用英語和粵語(書面和口頭)
經驗較少的監督將考慮工程師的職位。