職責範圍:
負責以 GPU 叢集為核心的機器學習及人工智能平台之設計、建設與日常運維,支援大規模分散式模型訓練及推理工作負載。參與雲原生 AI 基礎設施架構設計,建設及優化 Kubernetes 平台,負責 GPU 算力之統一排程與管理。深入理解並優化 Kubernetes 排程機制,包括拓撲感知排程、Gang 排程、優先級與搶占策略,以及彈性伸縮能力。透過 CRD、Operator、Webhook 等雲原生擴展技術,實現 AI 工作負載的自動化部署、運行及生命週期管理。
負責 GPU 資源配額管理、使用率監控及效能分析,支援多租戶環境下的算力分配及平台穩定運作;參與分散式系統及高速網絡環境(如 RDMA、NCCL)下之效能瓶頸分析與優化;為研究人員及工程團隊提供穩定而高效的 AI 計算平台支援。
入職要求:
計算機科學、工程或相關學科本科或以上學歷;具備機器學習平台、GPU 叢集或 AI 基礎設施相關實務經驗;熟悉 Kubernetes 核心架構、容器化技術及雲原生生態;了解分散式儲存、分散式訓練與推理框架(如 PyTorch、TensorFlow 等);具備良好 Linux 系統基礎,熟練 Python、Shell,具備 Go 語言開發經驗者優先;具備良好問題分析能力及溝通能力,能於複雜技術環境中獨立工作。