Help us learn about your current experience with the documentation. Take the survey.

支持的 GitLab Duo 自托管模型和硬件要求

  • 版本:Premium, Ultimate
  • 附加组件:GitLab Duo Enterprise
  • 产品:GitLab Self-Managed

GitLab Duo Self-Hosted 支持通过您首选的推理平台与来自 Mistral、Claude 和 GPT 的行业领先模型进行集成。您可以从这些模型中进行选择,以满足您的特定性能需求和使用场景。

支持的模型

对以下 GitLab 支持的大型语言模型 (LLM) 的支持已正式发布。如果您想使用的模型未在此文档中,请在模型请求议题 (issue 526751)中提供反馈。

  • 完全兼容:该模型很可能能够处理该功能,且不会降低任何质量。
  • 基本兼容:该模型支持该功能,但可能存在一些妥协或限制。
  • 不兼容:该模型不适合该功能,很可能会导致严重的质量损失或性能问题。被标记为不兼容某项功能的模型将不会获得 GitLab 对该特定功能的支持。
模型系列 模型 支持的平台 代码补全 代码生成 GitLab Duo Chat
Mistral Codestral Codestral 22B v0.1 vLLM check-circle-filled 完全兼容 check-circle-filled 完全兼容 不适用
Mistral Mistral 7B-it v0.3 vLLM check-circle-dashed 基本兼容 check-circle-filled 完全兼容 dash-circle 不兼容
Mistral Mixtral 8x7B-it v0.1 vLLM, AWS Bedrock check-circle-dashed 基本兼容 check-circle-filled 完全兼容 check-circle-dashed 基本兼容
Mistral Mixtral 8x22B-it v0.1 vLLM check-circle-filled 完全兼容 check-circle-filled 完全兼容 check-circle-dashed 基本兼容
Mistral Mistral Small 24B Instruct 2506 vLLM check-circle-filled 完全兼容 check-circle-filled 完全兼容 check-circle-filled 完全兼容
Claude 3 Claude 3.5 Sonnet AWS Bedrock check-circle-filled 完全兼容 check-circle-filled 完全兼容 check-circle-filled 完全兼容
Claude 3 Claude 3.7 Sonnet AWS Bedrock check-circle-filled 完全兼容 check-circle-filled 完全兼容 check-circle-filled 完全兼容
Claude 4 Claude 4 Sonnet AWS Bedrock check-circle-filled 完全兼容 check-circle-filled 完全兼容 check-circle-filled 完全兼容
GPT GPT-4 Turbo Azure OpenAI check-circle-filled 完全兼容 check-circle-filled 完全兼容 check-circle-dashed 基本兼容
GPT GPT-4o Azure OpenAI check-circle-filled 完全兼容 check-circle-filled 完全兼容 check-circle-filled 完全兼容
GPT GPT-4o-mini Azure OpenAI check-circle-filled 完全兼容 check-circle-filled 完全兼容 check-circle-dashed 基本兼容
Llama Llama 3 8B vLLM check-circle-dashed 基本兼容 check-circle-filled 完全兼容 dash-circle 不兼容
Llama Llama 3.1 8B vLLM check-circle-dashed 基本兼容 check-circle-filled 完全兼容 check-circle-dashed 基本兼容
Llama Llama 3 70B vLLM check-circle-dashed 基本兼容 check-circle-filled 完全兼容 dash-circle 不兼容
Llama Llama 3.1 70B vLLM check-circle-filled 完全兼容 check-circle-filled 完全兼容 check-circle-filled 完全兼容
Llama Llama 3.3 70B vLLM check-circle-filled 完全兼容 check-circle-filled 完全兼容 check-circle-filled 完全兼容

实验性和测试版模型

以下模型可以为下方标记的功能进行配置,但目前处于测试版或实验性状态,正在评估中,并且被排除在AI 功能条款中“客户集成模型”的定义之外:

模型系列 模型 支持的平台 状态 代码补全 代码生成 GitLab Duo Chat
CodeGemma CodeGemma 2b vLLM 实验性 check-circle dotted-circle dotted-circle
CodeGemma CodeGemma 7b-it vLLM 实验性 dotted-circle check-circle dotted-circle
CodeGemma CodeGemma 7b-code vLLM 实验性 check-circle dotted-circle dotted-circle
Code Llama Code-Llama 13b vLLM 实验性 dotted-circle check-circle dotted-circle
DeepSeek Coder DeepSeek Coder 33b Instruct vLLM 实验性 check-circle check-circle dotted-circle
DeepSeek Coder DeepSeek Coder 33b Base vLLM 实验性 check-circle dotted-circle dotted-circle
Mistral Mistral 7B-it v0.2 vLLM
AWS Bedrock
实验性 check-circle check-circle check-circle

硬件要求

以下硬件规格是在本地运行 GitLab Duo Self-Hosted 的最低要求。具体要求会根据模型大小和预期用途而有很大差异:

基础系统要求

  • CPU
    • 最低:8 核 (16 线程)
    • 推荐:生产环境使用 16+ 核
  • RAM
    • 最低:32 GB
    • 推荐:大多数模型使用 64 GB
  • 存储
    • 具有足够空间存放模型权重和数据的 SSD。

按模型大小划分的 GPU 要求

模型大小 最低 GPU 配置 所需最低显存
7B 模型
(例如,Mistral 7B)
1x NVIDIA A100 (40 GB) 35 GB
22B 模型
(例如,Codestral 22B)
2x NVIDIA A100 (80 GB) 110 GB
Mixtral 8x7B 2x NVIDIA A100 (80 GB) 220 GB
Mixtral 8x22B 8x NVIDIA A100 (80 GB) 526 GB

使用 Hugging Face 的内存工具 来验证内存要求。

按模型大小和 GPU 划分的响应时间

小型机器

使用 a2-highgpu-2g (2x Nvidia A100 40 GB - 150 GB vRAM) 或同等配置的机器:

模型名称 请求数量 每个请求的平均时间 (秒) 响应中的平均 token 数 每个请求每秒的平均 token 数 请求总时间 总 TPS
Mistral-7B-Instruct-v0.3 1 7.09 717.0 101.19 7.09 101.17
Mistral-7B-Instruct-v0.3 10 8.41 764.2 90.35 13.70 557.80
Mistral-7B-Instruct-v0.3 100 13.97 693.23 49.17 20.81 3331.59

中型机器

在 GCP 上使用 a2-ultragpu-4g (4x Nvidia A100 40 GB - 340 GB vRAM) 机器或同等配置:

模型名称 请求数量 每个请求的平均时间 (秒) 响应中的平均 token 数 每个请求每秒的平均 token 数 请求总时间 总 TPS
Mistral-7B-Instruct-v0.3 1 3.80 499.0 131.25 3.80 131.23
Mistral-7B-Instruct-v0.3 10 6.00 740.6 122.85 8.19 904.22
Mistral-7B-Instruct-v0.3 100 11.71 695.71 59.06 15.54 4477.34
Mixtral-8x7B-Instruct-v0.1 1 6.50 400.0 61.55 6.50 61.53
Mixtral-8x7B-Instruct-v0.1 10 16.58 768.9 40.33 32.56 236.13
Mixtral-8x7B-Instruct-v0.1 100 25.90 767.38 26.87 55.57 1380.68

大型机器

在 GCP 上使用 a2-ultragpu-8g (8 x NVIDIA A100 80 GB - 1360 GB vRAM) 机器或同等配置:

模型名称 请求数量 每个请求的平均时间 (秒) 响应中的平均 token 数 每个请求每秒的平均 token 数 请求总时间 (秒) 总 TPS
Mistral-7B-Instruct-v0.3 1 3.23 479.0 148.41 3.22 148.36
Mistral-7B-Instruct-v0.3 10 4.95 678.3 135.98 6.85 989.11
Mistral-7B-Instruct-v0.3 100 10.14 713.27 69.63 13.96 5108.75
Mixtral-8x7B-Instruct-v0.1 1 6.08 709.0 116.69 6.07 116.64
Mixtral-8x7B-Instruct-v0.1 10 9.95 645.0 63.68 13.40 481.06
Mixtral-8x7B-Instruct-v0.1 100 13.83 585.01 41.80 20.38 2869.12
Mixtral-8x22B-Instruct-v0.1 1 14.39 828.0 57.56 14.38 57.55
Mixtral-8x22B-Instruct-v0.1 10 20.57 629.7 30.24 28.02 224.71
Mixtral-8x22B-Instruct-v0.1 100 27.58 592.49 21.34 36.80 1609.85

AI 网关硬件要求

有关 AI 网关硬件的建议,请参阅 AI 网关扩展建议