工作职责
1)设计和构建高效的AI 基础设施平台,支持大语言模型的推理和承载,支持多模态模型的承载。2)深入优化平台的性能和硬件资源使用效率,优化AI 模型的存储和计算资源利用,包括GPU/TPU、内存、带宽、存储等,提升系统的可靠性、性能和扩展性
任职要求
1)计算机科学、软件工程或相关专业,本科及以上学历,硕士或以上学历优先。2)5 年以上基础设施架构设计或分布式系统开发经验,熟悉AI 和机器学习应用的基础设施需求。3)精通Kubernetes、Docker、Hadoop、Spark 等分布式系统技术,具备大规模计算集群的部署和运维经验。具备云计算平台(如AWS、Azure、GCP)上的资源管理和部署经验,熟悉Terraform、Ansible 等基础设施自动化工具。熟悉CI/CD 流程,具有MLOps 经验,掌握模型的持续集成与部署(如Kubeflow、MLflow)。4)有GPU/TPU 加速集群的构建和优化经验,了解NVIDIA CUDA、TensorRT 等深度学习推理优化工具。优秀的性能调优技能,能够分析并解决分布式环境中的性能瓶颈,熟悉GPTCache、KVCache 等。
岗位咨询:
+vx18510166823
夜雨聆风