匡优数言 私有化部署:性能基准

本文档提供跨不同硬件配置和使用场景的匡优数言 私有化部署参考性能数据。使用它来设定预期、规划基础设施和验证您的部署。


摘要

指标
推理延迟(首个token) < 100ms
平均完整响应时间 3–8秒
正常运行时间SLA 99.9%
并发用户(标准配置) 50+
数据泄露 0(通过架构)

测试环境参考

除非另有说明,以下所有基准都在以下标准配置上运行。

组件 规格
CPU 16核Intel Xeon
RAM 64 GB DDR4
GPU NVIDIA A10(24 GB VRAM)
存储 1 TB NVMe SSD
操作系统 Ubuntu 22.04 LTS
模型 DeepSeek-V2(本地)
网络 1 Gbps内部

按任务类型的响应时间

按任务类型的平均响应时间(秒) 0s 2s 4s 6s 8s 1.2s 简单 查询 3.5s 电子表格 分析 4.8s 图表 生成 6.2s 报告 摘要 7.8s 多工作表 工作簿 标准任务 输出生成 复杂工作簿

并发基准

显示匡优数言在并发用户增加时的表现。

P95响应时间 vs. 并发用户 0s 5s 10s 15s 20s 10 20 50 100 200 并发用户 3.2s 4.1s 6.8s 11.2s 18.5s 200+用户:推荐 企业集群配置

按硬件配置的性能

配置 并发用户 平均响应 P95响应 推荐用于
最小(8核、32GB、16GB VRAM) 10–20 4.5s 9s 小型团队、试点
标准(16核、64GB、24GB VRAM) 50 3.5s 7s 部门、50–100用户
企业(32核、128GB、80GB VRAM) 100–200 2.8s 6s 大型组织、高并发
企业集群(多节点) 500+ 2.5s 5s 全企业范围推广

模型性能比较

不同模型有不同的速度/质量权衡。以下是它们在标准电子表格分析任务上的比较。

模型 类型 平均响应 质量 最适合
DeepSeek-V2 开源 3.5s 一般分析、中文
Qwen2.5-72B 开源 4.1s 多语言、结构化数据
GPT-4o 闭源(API) 2.8s 非常高 复杂推理、英语
Claude 3.5 Sonnet 闭源(API) 3.2s 非常高 长文档、细致输出
Gemini 1.5 Pro 闭源(API) 3.0s 多媒体、大上下文

闭源模型响应时间取决于提供商的API延迟以及您到其端点的网络连接。


稳定性和正常运行时间

匡优数言 私有化部署专为持续运营而设计。

  • 目标正常运行时间: 99.9%(每年少于9小时停机时间)
  • 优雅降级: 如果模型层暂时不可用,应用程序层继续提供缓存结果
  • 重启恢复: 计划重启后60秒内完全服务恢复
  • 内存稳定性: 在30天连续运行测试中未观察到内存泄漏

文件处理性能

文件类型 文件大小 处理时间
单工作表CSV < 1 MB < 1s
多工作表Excel 5 MB 2–4s
大型Excel工作簿 50 MB 8–15s
带表格的PDF 10 MB 5–10s
批处理(10个文件) 50 MB总计 20–40s

规划您的部署

使用上面的硬件sizing表作为起点。需要基于您的团队规模、文件类型和使用模式更精确的建议,请申请包含sizing工作表的部署包

要使用您自己的文件类型进行现场性能演示,请预约演示