匡优数言 私有化部署:性能基准
本文档提供跨不同硬件配置和使用场景的匡优数言 私有化部署参考性能数据。使用它来设定预期、规划基础设施和验证您的部署。
摘要
| 指标 | 值 |
|---|---|
| 推理延迟(首个token) | < 100ms |
| 平均完整响应时间 | 3–8秒 |
| 正常运行时间SLA | 99.9% |
| 并发用户(标准配置) | 50+ |
| 数据泄露 | 0(通过架构) |
测试环境参考
除非另有说明,以下所有基准都在以下标准配置上运行。
| 组件 | 规格 |
|---|---|
| CPU | 16核Intel Xeon |
| RAM | 64 GB DDR4 |
| GPU | NVIDIA A10(24 GB VRAM) |
| 存储 | 1 TB NVMe SSD |
| 操作系统 | Ubuntu 22.04 LTS |
| 模型 | DeepSeek-V2(本地) |
| 网络 | 1 Gbps内部 |
按任务类型的响应时间
并发基准
显示匡优数言在并发用户增加时的表现。
按硬件配置的性能
| 配置 | 并发用户 | 平均响应 | P95响应 | 推荐用于 |
|---|---|---|---|---|
| 最小(8核、32GB、16GB VRAM) | 10–20 | 4.5s | 9s | 小型团队、试点 |
| 标准(16核、64GB、24GB VRAM) | 50 | 3.5s | 7s | 部门、50–100用户 |
| 企业(32核、128GB、80GB VRAM) | 100–200 | 2.8s | 6s | 大型组织、高并发 |
| 企业集群(多节点) | 500+ | 2.5s | 5s | 全企业范围推广 |
模型性能比较
不同模型有不同的速度/质量权衡。以下是它们在标准电子表格分析任务上的比较。
| 模型 | 类型 | 平均响应 | 质量 | 最适合 |
|---|---|---|---|---|
| DeepSeek-V2 | 开源 | 3.5s | 高 | 一般分析、中文 |
| Qwen2.5-72B | 开源 | 4.1s | 高 | 多语言、结构化数据 |
| GPT-4o | 闭源(API) | 2.8s | 非常高 | 复杂推理、英语 |
| Claude 3.5 Sonnet | 闭源(API) | 3.2s | 非常高 | 长文档、细致输出 |
| Gemini 1.5 Pro | 闭源(API) | 3.0s | 高 | 多媒体、大上下文 |
闭源模型响应时间取决于提供商的API延迟以及您到其端点的网络连接。
稳定性和正常运行时间
匡优数言 私有化部署专为持续运营而设计。
- 目标正常运行时间: 99.9%(每年少于9小时停机时间)
- 优雅降级: 如果模型层暂时不可用,应用程序层继续提供缓存结果
- 重启恢复: 计划重启后60秒内完全服务恢复
- 内存稳定性: 在30天连续运行测试中未观察到内存泄漏
文件处理性能
| 文件类型 | 文件大小 | 处理时间 |
|---|---|---|
| 单工作表CSV | < 1 MB | < 1s |
| 多工作表Excel | 5 MB | 2–4s |
| 大型Excel工作簿 | 50 MB | 8–15s |
| 带表格的PDF | 10 MB | 5–10s |
| 批处理(10个文件) | 50 MB总计 | 20–40s |
规划您的部署
使用上面的硬件sizing表作为起点。需要基于您的团队规模、文件类型和使用模式更精确的建议,请申请包含sizing工作表的部署包。
要使用您自己的文件类型进行现场性能演示,请预约演示。