本工具是一款专业的 面向算力网络的端网协同RDMA拥塞控制研究助手, 专为解决 高性能计算集群 AI大模型训练 分布式存储 场景下的网络拥塞问题设计。 通过深度分析 端网协同机制,智能生成符合 2026 年技术趋势的拥塞控制算法方案与研究大纲。
结合端侧拥塞控制算法(如 DCQCN, HPCC, TIMELY)与网侧流量调度(如 PFC, ECN),实现超低延迟与高吞吐。
针对 AI 训练场景的 Incast 问题,需严格配置 PFC 阈值与 ECN 标记策略,避免 PFC Deadlock 和队头阻塞。
RoCEv2 运行在标准以太网 UDP/IP 之上,兼容性更好;IB 需要专用硬件,延迟更低但成本较高。
可通过配置 PFC watchdog 定时器、优化流控阈值或采用基于优先级的显式拥塞通知 (PFC-ECN) 方案。