its-gen1/ARCHITECTURE.md

2.2 KiB
Raw Blame History

智能挂车AI-Box软件架构设计

1. 系统概述

基于深明奥思Fellow 1芯片(138 TOPS)的异构多核架构(MCU+SoC+F1)实现商用车AI-Box Demo。

2. 系统分层架构

2.1 驱动层 (MCU + SoC)

  • MCU子系统: 电源管理、硬件监控、低功耗控制
  • SoC子系统: Linux内核驱动、V4L2摄像头框架、PCIe/SPI/UART通信驱动

2.2 框架层 (SoC + F1)

  • 通信中间件: MCU-SoC(SPI/UART) + SoC-F1(PCIe 3.0)
  • 推理引擎: ONNX Runtime + Fellow 1专用加速器
  • 模型管理: 动态加载/卸载、内存优化、量化支持

2.3 应用层 (SoC)

  • AI服务: 大模型推理API、CNN物体识别服务
  • 系统服务: 电源状态机、温度监控、故障恢复
  • 多模态接口: OpenAI API兼容层、WebSocket实时通信

3. 大模型推理引擎集成方案

3.1 模型格式

  • 统一使用ONNX格式支持Qwen-7B/LLaMA-7B转换
  • INT4/INT8量化优化适配F1芯片NPU特性

3.2 部署策略

  • 模型分片加载,避免内存溢出
  • 共享内存池管理,减少数据拷贝
  • 异步推理队列,支持多任务并发

4. 电源管理模块设计

4.1 四种工作模式

  • 运行模式: 全功能开启,高性能推理
  • 待机模式: SoC休眠MCU监听唤醒事件
  • 低功耗模式: 仅MCU运行维持基本监控
  • 关机模式: 完全断电,支持远程唤醒

4.2 状态机设计

  • MCU主导电源状态切换
  • SoC通过SPI发送电源请求
  • 温度异常自动降频保护

5. 摄像头数据处理流水线

5.1 数据通路

摄像头 → V4L2驱动 → 图像预处理 → DMA传输 → F1共享内存 → CNN推理 → 结果回调

5.2 性能优化

  • 零拷贝DMA传输
  • 多缓冲区流水线处理
  • 实时性保障:端到端延迟 < 100ms

6. 关键技术指标

  • 工作温度: -40℃ ~ 85℃
  • 尺寸重量: 60mm × 60mm, 50g
  • 推理性能: Qwen-7B @ 138 TOPS
  • 功耗控制: 四级电源管理模式
  • 通信带宽: PCIe 3.0 (8 GT/s)

7. 后续工作计划

  • 详细接口规范定义
  • 驱动开发和调试
  • 推理引擎集成测试
  • 电源管理状态机实现
  • 端到端系统联调