職務職責
· 回應系統警報、監控事件和內部服務請求,確保快速恢復服務。
· 推測、排錯並解決複雜的分散系統,跨越現場、混合和雲環境。
· 與開發、QA和運作團隊合作,提供基礎設施和自動化解決方案。
· 根據定義的SLOs、SLAs和運作標準解決事件和問題,管理多個並行問題。
· 建立並維護運作手冊、架構圖、後審和知識庫文章。
· 對於複雜或關鍵問題,必要時向高階工程師和工程團隊報告。
· 參與事故審查、無責後續調查和持續改善計劃。
· 支援新的預覽發行、金絲雀部署和rollout策略,以驗證運作性和可靠性。
· 參與內部自動化項目、CI/CD管道的用戶接受測試以及基礎設施作為代碼的倡議。
· 导師系統架構、自動化實踐和排錯的初级工程師。
· 領導高影響力事故的根源分析,並與工程部門協調永久解決方案。
· 建立自助工具並提供技術培訓內容,以提高平台採用率和可靠性。
所需技能
· 操作系統:強大的Linux(Red Hat)管理;Windows伺服器是一大加分。
· 網路:TCP/IP、TLS、PKI、防火牆、路由、VLAN、連結聚合(802.3ad、平衡式ALB)、認證(LDAP、Active Directory)、DNS、NFS、CIFS/SMB。
· 存儲:LVM、RAID、DAS、SAN、NAS、軟體定義儲存、SAS、Fibre Channel、雲存儲服務。
· 推測與可見性:日誌分析、過程追蹤、排錯、核心恐慌分析、根本原因分析;熟悉APM、可靠性監控和可見性工具。
· 基础設施與雲:數據中心運作、雲平台、基礎設施作為代碼(Terraform、CloudFormation 等)。
· CI/CD & Automation: 配置管理(Ansible、Puppet、Chef)、CI/CD管道(Jenkins、GitLab CI、GitHub Actions)、腳本(Bash、Python或類似)
· 預防措施:熟悉企業備份、災難恢復和數據保護平台。
· 容器與編排:熟悉Docker和Kubernetes的經驗是強烈希望的。
認證
• CompTIA: Linux+、Network+、Server+。
• 红帽:RHCSA、RHCE。
• 西門子:CCNA、CCNP。
•雲認證:Amazon、Microsoft、Google。
經驗/教育/資格
• 必須精通國語
• 工程/科學領域的文憑獲得者/畢業生/研究生。
• 4年以上系統管理或相關企業技術支持認證在一個人的產品領域。
• 4年以上的企業級產品公司的2級/3級支援經驗,或
• 在異構IT基礎設施的現場生產環境或數據中心工作超過4年。
• 公有雲和/或私有雲平台的3年以上經驗為佳。
• 展現出利用AI工具提高生產力、簡化工作流程並支持決策的能力。
• 每周有3天在現場工作,2天遠程工作