2.2 KiB
2.2 KiB
智能挂车AI-Box软件架构设计
1. 系统概述
基于深明奥思Fellow 1芯片(138 TOPS)的异构多核架构(MCU+SoC+F1),实现商用车AI-Box Demo。
2. 系统分层架构
2.1 驱动层 (MCU + SoC)
- MCU子系统: 电源管理、硬件监控、低功耗控制
- SoC子系统: Linux内核驱动、V4L2摄像头框架、PCIe/SPI/UART通信驱动
2.2 框架层 (SoC + F1)
- 通信中间件: MCU-SoC(SPI/UART) + SoC-F1(PCIe 3.0)
- 推理引擎: ONNX Runtime + Fellow 1专用加速器
- 模型管理: 动态加载/卸载、内存优化、量化支持
2.3 应用层 (SoC)
- AI服务: 大模型推理API、CNN物体识别服务
- 系统服务: 电源状态机、温度监控、故障恢复
- 多模态接口: OpenAI API兼容层、WebSocket实时通信
3. 大模型推理引擎集成方案
3.1 模型格式
- 统一使用ONNX格式,支持Qwen-7B/LLaMA-7B转换
- INT4/INT8量化优化,适配F1芯片NPU特性
3.2 部署策略
- 模型分片加载,避免内存溢出
- 共享内存池管理,减少数据拷贝
- 异步推理队列,支持多任务并发
4. 电源管理模块设计
4.1 四种工作模式
- 运行模式: 全功能开启,高性能推理
- 待机模式: SoC休眠,MCU监听唤醒事件
- 低功耗模式: 仅MCU运行,维持基本监控
- 关机模式: 完全断电,支持远程唤醒
4.2 状态机设计
- MCU主导电源状态切换
- SoC通过SPI发送电源请求
- 温度异常自动降频保护
5. 摄像头数据处理流水线
5.1 数据通路
摄像头 → V4L2驱动 → 图像预处理 → DMA传输 → F1共享内存 → CNN推理 → 结果回调
5.2 性能优化
- 零拷贝DMA传输
- 多缓冲区流水线处理
- 实时性保障:端到端延迟 < 100ms
6. 关键技术指标
- 工作温度: -40℃ ~ 85℃
- 尺寸重量: 60mm × 60mm, 50g
- 推理性能: Qwen-7B @ 138 TOPS
- 功耗控制: 四级电源管理模式
- 通信带宽: PCIe 3.0 (8 GT/s)
7. 后续工作计划
- 详细接口规范定义
- 驱动开发和调试
- 推理引擎集成测试
- 电源管理状态机实现
- 端到端系统联调