# LLM 性能测试工具 一个用于测试本地和云端大模型性能的网页应用,兼容 OpenAI API 格式。 ## 功能特性 - 🔧 **API 配置管理**:支持配置多个 LLM API 端点 - 🤖 **模型配置**:管理不同模型的参数设置 - 📝 **测试用例管理**:创建、编辑、导入/导出测试用例 - ⚙️ **测试配置**:自定义并发数、请求次数等参数 - 📊 **可视化图表**:实时显示 TTFT、TPS、延迟等指标 - 📈 **历史记录**:保存和对比多次测试结果 - 🌐 **OpenAI API 兼容**:支持任何兼容 OpenAI API 的模型服务 ## 性能指标 - **TTFT (Time To First Token)**:首 token 响应时间 - **TPS (Tokens Per Second)**:每秒生成 token 数 - **总延迟**:完整响应时间 - **吞吐量**:每分钟请求数 ## 快速开始 ### 1. 安装依赖 ```bash pip install -r requirements.txt ``` ### 2. 启动应用 ```bash python app.py ``` 或部署到生产环境: ```bash ./deploy.sh ``` ### 3. 访问应用 打开浏览器访问 http://localhost:8001 ## 使用说明 ### 配置 API 1. 点击"API 配置"标签 2. 添加新的 API 配置: - 名称:自定义标识 - Base URL:API 端点地址(如 http://localhost:11434/v1) - API Key:认证密钥 ### 配置模型 1. 点击"模型配置"标签 2. 添加模型配置: - 选择对应的 API 配置 - 输入模型名称 - 设置温度、最大 token 数等参数 ### 管理测试用例 1. 点击"测试用例"标签 2. 添加测试提示词 3. 支持批量导入/导出 JSON 格式 ### 运行测试 1. 点击"性能测试"标签 2. 选择要测试的模型 3. 选择测试用例 4. 设置并发数和请求次数 5. 点击"开始测试" ### 查看结果 - 实时查看 TTFT、TPS 等指标 - 查看详细的响应数据 - 导出结果为 JSON 格式 ## API 兼容性 本工具兼容任何实现 OpenAI API 格式的服务: - OpenAI GPT 系列 - Ollama (本地模型) - vLLM - text-generation-inference - 其他兼容服务 ## 项目结构 ``` llm_perf_test/ ├── app.py # Flask 主应用 ├── requirements.txt # Python 依赖 ├── deploy.sh # 部署脚本 ├── README.md # 使用说明 └── templates/ └── index.html # 前端页面 ``` ## 技术栈 - **后端**: Python + Flask - **前端**: HTML + JavaScript + Chart.js - **UI**: Tailwind CSS - **数据存储**: SQLite (JSON 文件) ## License MIT License