本工具是一款专业的 工业边缘异构集群大模型推理框架 设计助手, 支持 实时监控 预测性维护 质量检测 等多种工业场景。 通过智能算法分析异构硬件(GPU/NPU/CPU)算力与网络拓扑,自动生成 分布式弹性调度方案, 解决大模型在边缘侧的 资源受限与延迟敏感 问题。
需充分考虑CPU、GPU、NPU等不同算力单元的特性,实现任务与硬件的最佳匹配。
根据实时负载动态调整推理实例数量,在保证低延迟的同时最大化资源利用率。
支持主流Transformer架构大模型及CV模型,如Llama系列、Qwen、YOLO系列等。
框架设计包含边缘端本地推理机制,敏感数据无需上传云端,确保工业数据安全。