1.不仅是CPU的 harness task之间以及传统ux调度,
2.还需要考虑AI原生OS下交互体系以GPU/NPU为第一入口,深入到带宽的分配,kv cache分级存储,GPU、NPU的多任务以及分层
3.传统CPU调度体系的方法论可以继承,指导调度体系和工程优化的,是Input,推理、Output的整体流程和细化的针对GPU/NPU的profiling工具
1.不仅是CPU的 harness task之间以及传统ux调度,
2.还需要考虑AI原生OS下交互体系以GPU/NPU为第一入口,深入到带宽的分配,kv cache分级存储,GPU、NPU的多任务以及分层
3.传统CPU调度体系的方法论可以继承,指导调度体系和工程优化的,是Input,推理、Output的整体流程和细化的针对GPU/NPU的profiling工具