跳到主要内容

Gemini 429 限流与预配吞吐量

为什么会遇到 429?

图灵平台上的 Gemini 系列模型基于 Google Cloud Vertex AI 运行,采用共享配额机制——所有用户共享同一 GCP 项目/区域的吞吐容量。当整体请求量超过 Google 分配的配额上限(QPM / TPM)时,Vertex AI 会返回 HTTP 429 Too Many Requests 错误。

这意味着即使单个用户的请求频率不高,也可能因为整体配额被占满而遭遇 429。

生产环境警告

由于共享配额的不可控性,Gemini 系列模型的吞吐量无法保证不推荐在对稳定性有严格要求的生产环境中直接使用。


解决方案:购买预配吞吐量 (Provisioned Throughput)

如需在生产环境稳定使用 Gemini 模型,需要向 Google Cloud 购买 Provisioned Throughput(预配吞吐量)

预配吞吐量是一项固定费用、固定期限的订阅服务,用于为 Vertex AI 上的生成式 AI 模型预留专属吞吐量。购买后,你将获得独立于共享配额的专用容量,不再受其他用户请求的影响。

计费方式

预配吞吐量按 GSU(Generative AI Scale Unit,生成式 AI 扩缩单元) 计量,所需 GSU 数量取决于模型类型、保证 QPS、Token 规模等因素。

提供多种承诺期限,期限越长单价越低:

承诺期限说明
1 周最灵活,单价最高
1 个月适合短期项目
3 个月平衡灵活性与成本
12 个月单价最低,适合长期稳定业务

如何购买

请通过 获取帮助 联系平台运维团队。


软性策略:Retry 与 Fallback

如果无法购买预配吞吐量,图灵平台提供 max_retriesfallbacks 作为工程化缓解手段。这是一种有取舍的策略——可以提升请求成功率,但需要牺牲模型输出的一致性:

from openai import OpenAI

client = OpenAI()

completion = client.chat.completions.create(
model="turing/gemini-3.1-pro-latest",
messages=[{"role": "user", "content": "你好"}],
turing_options={
"max_retries": 2,
"fallbacks": "turing/gpt-4.1"
}
)

更多配置详情参考:超时与模型不稳定

注意

Retry 和 Fallback 仅是工程化手段,无法从根本上解决共享配额不足的问题。Fallback 会切换到不同模型,输出结果可能与原模型不一致,请根据业务场景评估是否可接受。