工作責任:
- 熟練使用Python,具有網頁請求、資料安全、HTML和JavaScript的專業知識。
- 剪取大規模數據從互聯網,主要為訓練和優化基礎模型。
- 執行大規模的外部數據清理,確保其適合大模型訓練,為算法團隊提供高品質的清理數據。
- 建立並維護自動數據更新管道,確保持續數據更新和有效性。
- 密切與算法團隊合作,理解算法需求,確保有效傳輸和應用數據。
- 具備數據倉儲經驗,能夠處理內部生成的數據,同時靈活地從外部源頭抓取和處理數據。
工作要求:
- 計算機科學、電氣工程或其他相關領域的學士學位。
- 具有2至4年的大數據爬取和數據清理的廣泛經驗。
- 熱衷於問題解決,尤其是數據工程和統計學。
- 自我驅動,具備強大的溝通能力。