3.9 KiB
3.9 KiB
智能挂车AI-Box软件架构设计
1. 系统概述
基于深明奥思Fellow 1芯片(138 TOPS)的异构三核架构(MCU+SoC+F1),实现商用车AI-Box Demo。系统采用双核心管理架构:MCU负责电源管理和硬件监控,SoC负责系统调度和应用逻辑,F1负责大模型和CNN推理加速。
2. 系统分层架构
2.1 驱动层 (MCU + SoC)
- MCU子系统:
- 电源管理状态机(4种模式)
- SPI/UART/GPIO通信驱动(严格遵循IPCL协议)
- SoC健康状态监控(1秒周期,3秒超时复位)
- 硬件故障检测与处理
- SoC子系统:
- Linux内核驱动(GPIO/I2C/SPI/UART/PCIe/V4L2)
- Fellow 1 NPU驱动(PCIe 3.0接口)
- 摄像头V4L2框架驱动
- 温度监控与保护
2.2 框架层 (SoC + F1)
- 通信中间件:
- MCU-SoC: SPI(≥10Mbps) + UART(≥1Mbps) + GPIO(RESET_N)
- SoC-F1: PCIe 3.0 (8 GT/s)
- IPCL协议栈实现(含CRC校验、重传机制、大文件分片)
- 推理引擎:
- ONNX Runtime + Fellow 1专用NPU加速器
- INT4/INT8量化支持
- 模型分片加载与内存管理
- 系统服务:
- 电源模式管理(运行/休眠/低功耗/关机)
- 唤醒源管理(钥匙/远程/传感器/定时)
- 故障恢复机制(强制复位、安全模式)
2.3 应用层 (SoC)
- AI服务:
- 大模型推理API(Qwen-7B/LLaMA-7B)
- CNN物体识别服务
- 多模态交互接口
- 系统服务:
- 电源状态机协调
- 温度适应性控制
- 远程管理接口
- 多模态接口:
- OpenAI API兼容层
- WebSocket实时通信
- RESTful管理API
3. 大模型推理引擎集成方案
3.1 模型格式与优化
- 统一使用ONNX格式,支持Qwen-7B/LLaMA-7B转换
- INT4/INT8量化优化,适配F1芯片NPU特性
- 模型剪枝和蒸馏,满足50g重量限制下的内存约束
3.2 部署策略
- 模型分片加载,避免内存溢出(支持512字节SPI包长限制)
- 共享内存池管理,减少CPU-GPU数据拷贝
- 异步推理队列,支持多任务并发
- 温度自适应推理频率调整(-40℃~85℃环境适应)
4. 电源管理模块设计
4.1 四种工作模式(基于IPCL规范)
- 运行模式: 全功能开启,高性能推理 (~10W, 0ms唤醒)
- 休眠模式: SoC降频,必要传感器工作 (~2W, 100ms唤醒)
- 低功耗模式: SoC深度睡眠,仅关键唤醒源 (~0.5W, 500ms唤醒)
- 关机模式: SoC完全关闭,仅MCU超低功耗 (~0.1W, 2000ms唤醒)
4.2 状态机与协议实现
- MCU主导电源状态切换,SoC通过SPI发送POWER_MODE_REQ
- 严格遵循IPCL电源模式切换流程(6步握手协议)
- 唤醒源优先级管理:钥匙启动 > 远程唤醒 > 传感器触发 > 定时唤醒
- 故障处理:SoC异常时MCU通过GPIO RESET_N强制复位(≥100ms低电平)
5. 摄像头数据处理流水线
5.1 数据通路(零拷贝优化)
摄像头 → V4L2驱动 → 图像预处理 → DMA传输 → F1共享内存 → CNN推理 → 结果回调
5.2 性能与可靠性
- 零拷贝DMA传输,避免CPU内存瓶颈
- 多缓冲区流水线处理,支持实时视频流
- 端到端延迟 < 100ms(满足商用车实时性要求)
- 极端温度环境下的稳定性保障(-40℃~85℃)
6. 关键技术指标
- 硬件平台: Fellow 1芯片,138 TOPS算力
- 工作温度: -40℃ ~ 85℃
- 尺寸重量: 60mm × 60mm, 50g
- 推理性能: Qwen-7B @ 138 TOPS, LLaMA-7B @ 138 TOPS
- 通信性能: SPI ≥10Mbps, UART ≥1Mbps, PCIe 3.0 8GT/s
- 电源管理: 四级电源模式,智能功耗控制
- 可靠性: 3秒SoC健康监测,强制复位保护
7. 后续工作计划
- 详细IPCL协议栈实现(SPI/UART/GPIO驱动)
- 电源管理状态机开发与测试
- Fellow 1 NPU驱动集成与优化
- 大模型量化与部署验证
- 端到端系统集成与环境测试
- 故障恢复机制验证