您當前的位置：首頁 > 職位列表 > 職位詳情

AI推理算法工程師

1.5-3萬元/月

投遞簡歷

北京-豐臺區

3-5年

2026-05-11 15:02:24 更新被瀏覽：536 次

唐人通信技術服務股份有限公司

最近在線時間：2026-05-11 15:02:24

電話：153********

地址：江西省南昌市南昌高新技術產業開發區創新三路1069號

職位描述

一．崗位職責
1. 參與智能家居場景下的大模型Agent系統設計與落地，打造涵蓋意圖理解、任務分解、多步邏輯推理、工具調用（ReAct）、記憶機制及個性化推薦的完整技術鏈路。
2. 采用SFT、強化學習等后訓練策略優化垂直領域模型，增強其在多階段推理、指令遵循、工具使用和專業問答方面的表現。
3. 基于實際業務反饋構建高質訓練樣本，設計獎勵機制與迭代優化方案，結合PPO/GRPO等算法建立強化學習驅動的模型演進路徑。
4. 關注大模型與智能體方向的國際最新進展（如多智能體協同、長上下文處理、思維鏈技術），推進前沿成果在智能家居場景中的實踐應用。
5. 深入洞察智能家居業務需求，提煉可復用、模塊化的算法能力，與產品和工程團隊高效協作，支撐業務持續迭代升級。

二．任職資格
1. 計算機、人工智能等相關專業本科及以上學歷，具備良好的數據結構與算法功底，擁有3年以上相關領域工作經驗。
2. 精通Python編程，熟練運用PyTorch等主流深度學習框架，具備規范的編碼習慣和扎實的工程實現能力。
3. 熟悉大語言模型完整訓練流程（包括預訓練、CPT、SFT、RLHF），掌握常用訓練與推理框架（如Megatron-LM、DeepSpeed、vLLM、Sglang等）。
4. 掌握強化學習基本原理，了解PPO、DPO、GRPO等核心算法，有基于RLVR框架進行強化學習訓練者優先考慮。
5. 具備敏銳的技術洞察力，能將先進算法與復雜業務場景融合，輸出具有實際業務價值的技術解決方案。
6. 擁有良好的團隊協作意識，工作主動性強，學習能力強，能夠快速驗證新思路并推動技術落地。

三．加分項
1. 主導過基于ReAct或Function Calling的Agent類生產項目開發。
2. 在大規模模型訓練中具備數據合成或強化學習實戰經驗。
3. 在開源社區發布過具備一定影響力的技術項目。