崗位職責
參與HKGAI大模型後訓練階段的強化學習、對齊學習及其應用落地,包括:
1、參與大模型後訓練階段的對齊算法研究,主要包括:RLHF、DPO、GRPO;
2、參與獎金和反思評價模型的相關研究,研究可泛化的細粒度過程監督和獎金建模;
3、參與後訓練和推理階段的規模化定律研究,包括:獎金和反思評價模型訓練、強化學習階段、推理階段的規模化定律研究;
4、將研究應用於具體算法業務,例如價值觀對齊、agent智能體、內容創作等。
崗位要求
1、碩士及以上學位,電腦或人工智慧相關專業優先,2年及以上工作經驗或具備優秀專案經驗者優先;
2、熟悉自然語言處理常見模型,有過相關大模型RLHF、DPO、RM、GRPO經驗者優先;
3、熟練掌握Python和PyTorch,具備強大的工程能力,熟悉Deepspeed、Colossalai或Megatron等大模型訓練框架優先;
4、有顶会论文、知名学术工作、开源项目经验、国际竞赛成果者优先。