2. 深入理解模型结构与算子特性,参与算子映射、算子融合、图优化、量化、内存规划、runtime开发等环节。
3. 分析并优化模型在 NPU 上的性能瓶颈(如算力利用率、带宽占用、内存管理等),持续提升推理性能与稳定性。
4. 跟踪前沿 AI 模型部署技术(如 speculative decoding、MoE 加速等),并将新技术应用于实际产品中。
工作要求
1. 教育背景:计算机、电子工程、人工智能或相关专业本科及以上学历;硕士优先。
2. 技术经验:
* 理解 Transformer 架构与 LLM 推理流程,对 KV Cache、Quantization、Graph Partition、Compiler IR 等概念有深入理解;
* 熟悉端侧大模型的推理,有常见推理框架的使用经验(如llama.cpp、MLC、vLLM等);
* 熟悉 C++/Python 开发,具备较强的工程实现与调试能力。
3. 加分项:
* 有自研 NPU / DSP / GPU / FPGA 平台上部署深度学习模型的经验者优先;
* 有大模型的端侧部署落地经验者优先。
上海/西安/无锡/杭州/深圳
纽易猎头成立于2015年,致力于为硬科技企业提供全方位的招聘解决方案。在苏州和上海设立办公,公司专注于为芯片半导体,AI大模型,智能硬件,自动驾驶等行业及领域的客户提供企业高管搜寻与评估、研发技术人才的甄选。
合作加V:Anson_hunter
更多行业信息,职位发布,可以扫描关注二维码
关注我们:纽易猎头
夜雨聆风