工種
香港
工作類型
HK$
發佈時間
經驗
教育程度
福利待遇
行業
工種
香港
工作類型
HK$
發佈時間
經驗
教育程度
福利待遇
行業

 約 596 職位空缺

為此搜索詞創建訂閱

不限經驗


學士

$4K-6K/月

Apply reinforcement learning in real industrial systems

Design agent-environment interaction systems

Background in reinforcement learning, agents, or decision systems

1-3年


高級文憑或副學士

$20K-25K/月

Responsible for technical setup in a Radio station

Diploma or higher in Radio, TV, Film, Digital Media, or Technical Art

At least 2 years of hands-on experience in audio production

5-10年


高級文憑或副學士

$25K-38K/月

管理團隊維護廣播或電視傳輸系統經驗要求

高級文憑或以上相關學歷要求

至少7年相關領域實務經驗

CYHR

  • 今日活躍

3-5年


學士

$35K-45K/月

Minimum 5 years of relevant experience

Hands-on experience with K8S solution on cloud platform

Experience in managing system infrastructure and DevOps automation tools

INFOSIGHT

  • 今日活躍

5-10年


高級文憑或副學士

負責廣播電台/電視傳輸系統運維

需有高級文憑或以上學歷

至少7年相關領域實務經驗

CYHR

  • 今日活躍

不限經驗


不限學歷

$8K-38K/月

3-5年


碩士

$45K-50K/月

全球前100大学STEM硕士或以上学位要求

Solidity编程与以太坊技术经验优先

具竞争力的薪酬与绩效奖金

环球数科集团

  • 近7日活躍

不限經驗


不限學歷

$20K-30K/月

具競爭力底薪加績效獎金

靈活工作時間,可遠端操作

專業培訓,提升個人品牌

mapaints

  • 今日活躍

不限經驗


學士

$5K-8K/月

參與真實交易場景的多智能體系統開發

無需經驗限制,歡迎實習生及應屆畢業生

酬金與年終花紅福利

最新

3-5年


學士

$25K-40K/月

具備移民、留學業界經驗優先

精通粵語,英語流利

須持有合法在港工作資格

成為最早的申請者

MAYA

  • 今日活躍

沒有搜索到感興趣的工作?

訂閱此搜索詞,有新職位上線時通知你

強化學習算法工程師(Agent Reinforcement Learning Engineer)

艾氪集團·IT資訊科技/電子商務
實習
HK $4K-6K/月, 薪資可議
學士
不限經驗
需有香港工作許可
9.0 小時/天, 5 天/週, 辦公室工作

傳送投遞消息

工作福利
酬金
年終花紅
婚假

工作內容翻譯為中文

關於這個角色

我們正在尋找代理強化學習工程師加入我們的代理核心團隊。

您將幫助建立學習能力強的AI代理,這些代理能夠:

•不斷與現實世界中的業務環境互動

•學習定价、庫存和運作的決策政策

•進行長期規劃和計劃

•通過反饋和偏好調整優化行為

•在生產過程中不斷提高自己

這個角色著重於在實際工業系統中應用強化學習,大型語言模型和代理架構——而不是模擬的玩具環境。

焦點

•設計代理-環境互動系統(觀察、行動、獎金)

•將強化學習應用於實際情境,如價格優化、庫存分配和履行規劃

•為代理建立長期規劃和多步推理管道

•實現偏好學習和反饋優化(RLHF/RLAIF/線上學習)

•從真實業務數據中構建模擬環境和離線評估管道

•建立閉合學習循環:感測→決定→行動→反饋→改善

•開發自動化訓練、評估和部署工作流程

•改善大型RL工作的可見性和穩定性

•重构代理、數據和訓練框架以實現生產就绪

理想的體驗

•強化學習、代理或決策系統的背景

•強大的Python + PyTorch

•將現實世界問題抽象為狀態、行動和獎金的能力

•系統思考的態度

有以下好處:

•多代理經驗

•運作研究/遊戲理論

•供應鏈、定價或資源優化暴露

•LLM代理框架(LangGraph、AutoGen、CrewAI)

您將會解決的典型問題

•一個定价策略在不同地區的行為方式不同——代理如何通過強化學習適應?

•庫存和履行目標相衝突——代理如何在利潤、成本和服務水平之間進行權衡?

•業務數據是嘈雜且延遲的——我們如何設計堅固的獎金功能?

•企業偏好轉移——如何快速重新調整代理行為?

技術堆疊

Python / PyTorch

分散式RL

代理框架

TypeScript / React(內部工具)


請謹慎注意

申請工作時,請勿提供您的銀行或信用卡資料。

傳送投遞消息

職業指南

查看更多
履歷表
求職信
學歷
工作經驗
香港低稅率
高可用收入
跨國企業福利
強積金退休保障
薪酬增長預測
搵工網
求職網
求職
Offertoday
Boss直聘