本工具是一款高效的 多芯粒大模型推理协同优化工具, 专注于 Chiplet架构设计 算力与通信协同 推理延迟优化。 通过智能算法分析芯粒互连瓶颈与算力分配策略,自动生成符合硬件特性的 推理加速方案, 显著提升您的 系统设计效率。
合理划分Transformer层至不同芯粒,平衡计算负载与跨芯粒通信开销。
利用高带宽互连技术(如UCIe, D2D)优化Activation与梯度的传输效率。
适用于主流Transformer架构的大语言模型,如LLaMA, GPT系列及PaLM等。
工具会分析流水线并行与张量并行的最佳结合点,减少通信等待时间。