大模型強化學習以及後訓練工程師

香港生成式人工智能研發中心有限公司
IT資訊科技/電子商務
發布於3個月前
碩士
1至3年

傳送投遞消息

工作內容翻譯為中文

崗位職責

參與HKGAI大模型後訓練階段的強化學習、對齊學習及其應用落地,包括:

1、參與大模型後訓練階段的對齊算法研究,主要包括:RLHF、DPO、GRPO;

2、參與獎金和反思評價模型的相關研究,研究可泛化的細粒度過程監督和獎金建模;

3、參與後訓練和推理階段的規模化定律研究,包括:獎金和反思評價模型訓練、強化學習階段、推理階段的規模化定律研究;

4、將研究應用於具體算法業務,例如價值觀對齊、agent智能體、內容創作等。

崗位要求

1、碩士及以上學位,電腦或人工智慧相關專業優先,2年及以上工作經驗或具備優秀專案經驗者優先;

2、熟悉自然語言處理常見模型,有過相關大模型RLHF、DPO、RM、GRPO經驗者優先;

3、熟練掌握Python和PyTorch,具備強大的工程能力,熟悉Deepspeed、Colossalai或Megatron等大模型訓練框架優先;

4、有顶会论文、知名学术工作、开源项目经验、国际竞赛成果者优先。


語言技能
英文
廣東話
普通話
技能
RLHF
GRPO
Python(編程語言)
Deepspeed

avatar
avatar
HR Michelle
香港生成式人工智能研發中心有限公司 · HR
近3日活躍

公司相片


請謹慎注意

申請工作時,請勿提供您的銀行或信用卡資料。

傳送投遞消息

類似工作
查看更多

不限經驗


不限學歷

$25K-40K/月

靈犀未來

  • 近3日活躍

回覆快

不限經驗


不限學歷

回覆快

不限經驗


學士

$25K-55K/月

Advance VLA/VLM/World Model capabilities for robotics & agentic AI

BS/MS in Computer Science, Software/Electrical Engineering, or equivalent

Expertise in AI frameworks (PyTorch, ONNX RT, TensorFlow)

最新

auth medal

活躍招聘者

不限經驗


學士

$45-80/小時

接触过专业竞赛或框架

嵌入式或单片机经验

深圳南山实地实习

成為最早的申請者

靈犀未來

  • 近3日活躍

1至3年


碩士

负责HKGAI大模型体系下Agent技术研发

设计易用高效的Agent开发套件

熟练掌握Python/Java/Go语言,有大规模项目经验优先

回覆快

10年以上


學士

$35K-70K/月

Lead End-to-End Development of Intelligent Document Processing platform

8+ years experience in AI/Machine Learning and Software Engineering required

Hands-on experience with OCR and Visual Language Models

職業指南

高薪職位

人才清單

入境計劃

求職渠道

移居香港

中年轉行

職場心態

職業發展