高級(jí)GolangGPU調(diào)度開發(fā)工程師
1-1.8萬元/月【崗位職責(zé)】
1、參與GPU調(diào)度器/資源管理器的設(shè)計(jì)與開發(fā)。
2、實(shí)現(xiàn)GPU資源發(fā)現(xiàn)、健康檢查、隔離(MIG/ComputeModes)、配額與回收策略。
3、設(shè)計(jì)并優(yōu)化調(diào)度策略(優(yōu)先級(jí)、搶占、親和性、拓?fù)涓兄{(diào)度、NUMA/PCIe-aware)。
4、與容器編排(Kubernetes)集成:開發(fā)DevicePlugin、CSI、SchedulerExtender、AdmissionController等組件。
5、與底層驅(qū)動(dòng)/運(yùn)行時(shí)協(xié)同(nvidia-driver、nvidia-container-toolkit、ROCm、containerd/runc/crun)。
6、負(fù)責(zé)平臺(tái)后端服務(wù)的開發(fā)與維護(hù),使用Go語言構(gòu)建高性能、可擴(kuò)展的調(diào)度系統(tǒng)。
7、設(shè)計(jì)和實(shí)現(xiàn)RESTfulAPI、gRPC,與前端數(shù)據(jù)和中間件交互。
8、編寫高質(zhì)量單元/集成測(cè)試與自動(dòng)化部署。
9、與產(chǎn)品經(jīng)理、前端開發(fā)、設(shè)計(jì)師等團(tuán)隊(duì)緊密合作,確保項(xiàng)目按時(shí)交付。
10、編寫技術(shù)文檔,記錄系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)細(xì)節(jié),提供API文檔,方便其他開發(fā)者使用。
【任職要求】
1、精通Golang,熟悉常用并發(fā)模型(goroutine、channel、context)與性能優(yōu)化技巧。
2、有GPU相關(guān)開發(fā)經(jīng)驗(yàn),了解NVIDIA驅(qū)動(dòng)、CUDA、nvidia-smi、nvidia-container-toolkit;了解MIG/多租戶GPU隔離機(jī)制者優(yōu)先。
3、熟悉容器與容器運(yùn)行時(shí)(Docker、containerd、runc/crun)以及Kubernetes的工作原理(Controller、Scheduler、Admission)。
4、有分布式系統(tǒng)/調(diào)度算法的實(shí)踐經(jīng)驗(yàn)(調(diào)度公平性、優(yōu)先級(jí)、搶占、負(fù)載均衡等)。
5、良好的代碼能力、文檔撰寫能力、英文文檔閱讀能力與團(tuán)隊(duì)協(xié)作能力。
【加分項(xiàng)】
1、有實(shí)現(xiàn)KubernetesDevicePlugin、SchedulerExtender、CustomScheduler或自研調(diào)度器經(jīng)驗(yàn)。
2、有Slurm、Torque、LSF、Volcano等HPC作業(yè)調(diào)度器經(jīng)驗(yàn)。
3、熟悉ROCm/AMDGPU生態(tài)者優(yōu)先。
4、有性能分析(pprof)、追蹤(OpenTelemetry)、監(jiān)控(Prometheus)實(shí)戰(zhàn)經(jīng)驗(yàn)。
5、熟悉云廠商GPU產(chǎn)品(例如AWS/GCP/Azure的GPU實(shí)例)和混合云/多租戶策略。
6、有分布式對(duì)象存儲(chǔ)、高性能存儲(chǔ)的經(jīng)驗(yàn)。