您當前的位置：首頁 > 職位列表 > 職位詳情

AI推理算法工程師

1-1.5萬元/月

投遞簡歷

江西-南昌-青山湖區

1-3年大模型算法 · PyTorch · Python · AGENT · SFT

2026-04-25 14:34:25 更新被瀏覽：327 次

唐人通信技術服務股份有限公司

最近在線時間：2026-04-25 14:34:25

電話：187********

地址：江西省南昌市南昌高新技術產業開發區創新三路1069號

職位描述

一．崗位職責
1. 參與智能家居場景下大模型Agent的架構設計與落地應用，打造涵蓋意圖理解、復雜任務分解、多步邏輯推理、工具調用（ReAct）、記憶機制及智能推薦能力的端到端系統。
2. 采用SFT、強化學習等后訓練技術優化垂直領域模型，增強其在多步推理、指令遵循、工具使用和專業問答方面的表現。
3. 基于實際數據反饋構建高質量訓練樣本，設計獎勵機制與迭代優化策略，結合PPO/GRPO等算法搭建強化學習驅動的模型演進路徑。
4. 關注大模型與智能體方向的國際最新進展（如多智能體協同、長上下文建模、思維鏈等），推進先進技術在業務中的實踐與轉化。
5. 深入洞察智能家居業務需求，沉淀可復用、模塊化的算法能力，協同產品與工程團隊，持續推動業務升級與技術落地。

二．任職資格
1. 計算機、人工智能等相關專業本科及以上學歷，具備扎實的數據結構與算法功底，3年以上相關領域工作經驗。
2. 精通Python編程，熟練運用PyTorch等主流深度學習框架，具有良好的編碼規范與工程實現能力。
3. 熟悉大語言模型完整訓練流程（Pre-train/CPT/SFT/RLHF），掌握常用訓練與推理框架（如Megatron-LM、DeepSpeed、vLLM、Sglang等）。
4. 掌握強化學習基本原理，熟悉PPO、DPO、GRPO等核心算法，有基于RLVR的強化學習訓練經驗者優先考慮。
5. 具備前沿技術敏感度，能將先進算法與實際業務深度融合，產生可衡量的技術價值。
6. 擁有良好的團隊協作意識，工作主動性強，學習速度快，能夠高效驗證新思路并推動技術迭代。

三．加分項
1. 主導過基于ReAct或FunctionCall機制的Agent類生產項目開發。
2. 在大規模模型訓練中具備數據合成或強化學習實戰經驗。
3. 在開源社區貢獻過具有廣泛影響力的技術項目。