以下模型厂商均支持通过 OpenAI 兼容格式 进行调用,请求格式与 OpenAI chat/completions 接口完全一致。只需替换请求体中的 model 参数为对应的模型名称,即可调用不同厂商的模型,无需修改其他代码。
接口地址#
https://api.tokenhot.cn/v1/chat/completions
使用方法#
只需替换 model 参数为您需要的模型名称即可。
基础信息#
| 项目 | 说明 |
|---|
| Base URL | https://api.tokenhot.cn |
| 请求方式 | POST |
| 请求路径 | /v1/chat/completions |
| 认证方式 | Bearer Token(在请求头中添加 Authorization: Bearer YOUR_API_KEY) |
| Content-Type | application/json |
支持的模型列表#
1. GPT(OpenAI)#
OpenAI 的 GPT 系列模型,全球领先的大语言模型家族。最新 GPT-5.x 系列在推理、代码生成和多模态方面持续突破,全面支持 Function Calling 和流式输出。
| 模型名称(model 值) | 说明 | 上下文窗口 |
|---|
gpt-5.5 | 最新旗舰,GPT 系列最强模型,顶尖推理与创作能力 | 1M |
gpt-5.4 | 上一代旗舰,强大的通用推理和多模态理解能力 | 1M |
gpt-5.4-mini | 轻量高速 版本,兼顾性能与成本,适合高吞吐量场景 | 400K |
gpt-5.3-codex | 代码专精模型,针对代码生成、调试和重构深度优化 | 1M |
2. Claude(Anthropic)#
Anthropic 的 Claude 系列模型,以安全性、长上下文理解和精确指令遵循著称。最新 Claude 4.x 系列在复杂推理、代码生成和多语言任务方面表现卓越。
| 模型名称(model 值) | 说明 | 上下文窗口 |
|---|
claude-opus-4.7 | 最新旗舰,Claude 系列最强模型,顶尖推理与深度分析能力 | 1M |
claude-opus-4.6 | 上一代旗舰,卓越的复杂任务处理和长文本理解能力 | 1M |
claude-sonnet-4.6 | 均衡模型,性能与速度的最佳平衡,适合大多数场景 | 1M |
claude-haiku-4.5 | 轻量高速模型,极致响应速度与高性价比 | 200K |
3. Gemini(Google)#
Google 的 Gemini 系列模型,原生多模态架构,支持文本、图像、音频、视频等多种输入。最新 Gemini 3.x 系列进一步增强推理和工具使用能力。
| 模型名称(model 值) | 说明 | 上下文窗口 |
|---|
gemini-3.1-pro-preview | 最新旗舰预览,Gemini 3.1 专业版,顶尖推理与多模态能力 | 1M |
gemini-2.5-pro | 上一代专业版,强大的推理、代码和多模态理解能力 | 1M |
gemini-3.1-flash-lite-preview | 最新轻量预览版,超高速响应,适合低延迟和高吞吐量场景 | 1M |
4. 千问(Qwen)— 阿里云#
阿里云千问系列,覆盖旗舰、均衡、高速等多层次模型,全面支持 Function Calling 和流式输出。最新 Qwen3.6 系列进一步提升推理与多模态能力,支持百万级上下文。
| 模型名称(model 值) | 说明 | 上下文窗口 |
|---|
qwen3.6-plus | 最新旗舰,Qwen3.6 系列顶级模型,全面升级推理、代码与多模态能力 | 1M |
qwen3.6-flash | 最新高速,Qwen3.6 系列轻量高速模型,极致性价比与快速响应 | 1M |
qwen3.5-plus | 上一代旗舰,基于 MoE 混合专家架构,具备卓越的逻辑推理、代码编写和多模态能力 | 1M |
qwen3.5-flash | 上一代高速,基于 Qwen3.5-35B-A3B 架构,高性价比和快速响应 | 1M |
qwen3.5-397b-a17b | 新一代原生多模态大模型(MoE),在推理、代码、视觉理解等方面表现突出 | 1M |
qwen-max | 经典旗舰模型,适合复杂推理、代码生成、多语言任务 | 32K |
qwen-plus | 均衡模型,性能/速度/成本最佳平衡 | 128K |
qwen-turbo | 高速模型,适合高吞吐量通用场景 | 128K |
5. DeepSeek#
DeepSeek 系列模型,最新的 V4 系列在推理效率和生成质量上实现重大突破,V3.2 引入了稀疏注意力机制(DSA),大幅降低推理成本并提升长上下文处理能力。
| 模型名称(model 值) | 说明 | 上下文窗口 |
|---|
deepseek-v4-pro | 最新旗舰,V4 系列顶级模型,全方位提升推理、代码与对话能力 | 1M |
deepseek-v4-flash | 最新高速,V4 系列轻量高速模型,极致响应速度与性价比 | 1M |
DeepSeek-V3.2 | 上一代旗舰,具备顶尖推理能力的 MoE 模型,通过 DSA 优化长上下文处理 | 128K |
DeepSeek-V3.2-Thinking | V3.2 思维链版本,前沿思维链与稀疏注意力机制融合,适合深度推理 | 128K |
DeepSeek-V3.2-Fast | V3.2 高速版本,适合高吞吐量场景 | 128K |
deepseek-v3.1 | 上一代统一架构模型,融合对话、推理和编码能力 | 128K |
deepseek-reasoner | 经典推理模型,通过思维链技术实现深度逻辑推理 | 128K |
⚠️ deepseek-reasoner 注意事项:不支持 temperature、top_p、presence_penalty、frequency_penalty 参数
响应中会包含额外的 reasoning_content 字段
多轮对话时需从历史消息中移除 reasoning_content
6. xAI(Grok)#
xAI 公司的 Grok 系列模型,最新 Grok 4.x 系列采用多智能体协作架构,支持超长上下文和深度推理。
| 模型名称(model 值) | 说明 | 上下文窗口 |
|---|
grok-4.2-thinking | 最新旗舰,思维链推理模型,深度逻辑分析与复杂问题求解 | 2M |
grok-4.2 | 新一代旗舰,多智能体协作推理架构,适合复杂分析和深度推理 | 2M |
grok-4.1 | 上一代旗舰,在保持深层推理能力的同时大幅增强对话连贯性 | 2M |
grok-4.1-fast | 4.1 高速版本,通用任务首选,低成本高效率 | 2M |
grok-4-fast-reasoning | 高性能推理模型,优化了推理速度与效率 | 2M |
grok-3-mini | 轻量级推理模型,高效率与高性价比 | 128K |
7. 智谱 AI(GLM)#
智谱 AI 的 GLM 系列模型,最新 GLM-5.1 在推理深度与指令遵循方面进一步升级,GLM-5 采用动态稀疏注意力(DSA)机制,在对话、代码、Agent 任务等方面表现出色。
| 模型名称(model 值) | 说明 | 上下文窗口 |
|---|
glm-5.1 | 最新旗舰,GLM 系列最新模型,全面升级推理深度与指令遵循能力 | 200K |
glm-5 | 上一代旗舰,在逻辑推理与复杂指令遵循方面表现卓越 | 200K |
glm-4.7 | 上一代经典,在代码生成和 Agent 任务中表现出色 | 200K |
glm-4.7-cc | 4.7 旗舰级智能体编程模型,专注复杂任务规划与全栈编码 | 200K |
glm-4.6 | 新一代旗舰模型,针对复杂智能体与工程化场景深度优化 | 200K |
glm-4.5-air | 轻量高速模型,低成本快速响应 | 128K |
8. MiniMax#
MiniMax 系列模型,最新 M2.7 系列专注 Agent 工作流和高级推理,支持 OpenAI 和 Anthropic 双协议。
| 模型名称(model 值) | 说明 | 上下文窗口 |
|---|
MiniMax-M2.7 | 最新旗舰,具备强大的自主进化与复杂工程任务处理能力 | 204K |
MiniMax-M2.7-highspeed | M2.7 极速版本,专为低延迟高吞吐场景优化 | 204K |
MiniMax-M2.7-cc | M2.7 高性价比版本,适合高吞吐量的编程与 Agent 工具使用 | 204K |
MiniMax-M2.5 | 上一代旗舰,主打代码生成和重构 | 204K |
MiniMax-M2.5-cc | M2.5 高性价比版本,低延迟生产环境设计 | 204K |
9. 月之暗面(Moonshot / Kimi)#
月之暗面的 Moonshot 和 Kimi 系列,以超长上下文处理和 Agent 能力著称。最新 Kimi K2.6 进一步提升推理与多模态能力,K2.5 支持原生多模态和思维链推理。
| 模型名称(model 值) | 说明 | 上下文窗口 |
|---|
kimi-k2.6 | 最新旗舰,全面升级推理与多模态能力,支持更复杂的 Agent 任务 | 256K |
kimi-k2.5 | 上一代旗舰,原生多模态 MoE 模型(1T 参数),支持 Agent Swarm 协作 | 256K |
kimi-k2.5-thinking | K2.5 思维链版本,深度推理与逐步分析能力增强 | 256K |
kimi-k2 | 经典版本,强大的编码和 Agent 能力 | 256K |
moonshot-v1-128k | 经典超长上下文模型,适合大规模文档分析 | 128K |
moonshot-v1-32k | 中等上下文,适合文档分析和长对话 | 32K |
moonshot-v1-8k | 基础模型,适合短对话和日常任务 | 8K |
请求示例#
Python 示例代码#
cURL 示例#
OpenAI SDK 示例(Python)#
Node.js 示例#
返回示例#
成功响应结构#
{
"id": "chatcmpl-abc123def456",
"object": "chat.completion",
"created": 1711712000,
"model": "gpt-5.5",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "量子计算是一种基于量子力学原理的新型计算模式。与传统计算机使用比特(0或1)不同,量子计算机使用量子比特(qubit),它可以同时处于0和1的叠加态..."
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 28,
"completion_tokens": 156,
"total_tokens": 184
}
}
响应字段说明#
| 字段 | 类型 | 说明 |
|---|
id | string | 本次请求的唯一标识 |
object | string | 固定为 chat.completion |
created | integer | 响应创建的 Unix 时间戳 |
model | string | 实际使用的模型名称 |
choices[].message.role | string | 固定为 assistant |
choices[].message.content | string | 模型生成的回复内容 |
choices[].finish_reason | string | stop=正常结束,length=达到最大 token |
usage.prompt_tokens | integer | 输入消耗的 token 数 |
usage.completion_tokens | integer | 输出消耗的 token 数 |
usage.total_tokens | integer | 总消耗 token 数 |
请求参数说明#
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|
model | string | ✅ | — | 模型名称,参见上方支持的模型列表 |
messages | array | ✅ | — | 对话消息列表,包含 role 和 content |
temperature | number | ❌ | 1.0 | 采样温度 (0-2),值越高输出越随机 |
top_p | number | ❌ | 1.0 | 核采样概率 (0-1),与 temperature 二选一 |
max_tokens | integer | ❌ | — | 生成的最大 token 数 |
stream | boolean | ❌ | false | 是否启用 SSE 流式输出 |
stop | string/array | ❌ | — | 停止词,遇到时停止生成 |
presence_penalty | number | ❌ | 0 | 存在惩罚 (-2.0 ~ 2.0) |
frequency_penalty | number | ❌ | 0 | 频率惩罚 (-2.0 ~ 2.0) |
tools | array | ❌ | — | 工具/函数调用定义(部分模型支持) |
response_format | object | ❌ | — | 响应格式,如 {"type": "json_object"}(部分模型支持) |
messages 数组中的消息角色#
| role | 说明 |
|---|
system | 系统指令,定义 AI 的行为和角色 |
user | 用户输入的消息 |
assistant | AI 之前的回复(用于多轮对话) |
错误码与错误响应说明#
错误码概览#
| 状态码 | 类型 | 说明 |
|---|
400 | BusinessError | 业务校验失败 — 如缺少必填参数、模型不支持当前请求格式等 |
401 | GatewayError | 认证失败 — API Key 无效、过期或缺失 |
503 | GatewayError | 服务不可用 — 上游渠道异常或服务暂时不可用 |
400 — 业务错误(BusinessError)#
当请求参数校验失败(如缺少必填字段、模型不支持某种输入格式等)时返回此结构:{
"code": "video_url_required",
"message": "model doubao-seedance-2.0-V2V requires video_url content",
"data": null
}
| 字段 | 类型 | 必返 | 说明 |
|---|
code | string | ✅ | 业务错误代码,标识具体的错误类型 |
message | string | ✅ | 错误的详细描述 信息,说明出错的原因 |
data | null | ❌ | 业务负载,错误时固定为 null |
401 / 503 — 网关错误(GatewayError)#
当鉴权失败(401)或上游渠道异常(503)时返回此结构:{
"error": {
"code": "",
"message": "无效的令牌 (request id: 20260327...)",
"type": "new_api_error"
}
}
{
"error": {
"code": "model_not_found",
"message": "当前分组没有可用的渠道 (request id: 20260330...)",
"type": "new_api_error"
}
}
| 字段 | 类型 | 必返 | 说明 |
|---|
error | object | ✅ | 错误对象详情 |
error.code | string | ❌ | 系统错误代码,有时可能为空字符串 |
error.message | string | ✅ | 系统错误描述,通常包含 request id 便于排查 |
error.type | string | ✅ | 错误类型分类,如 new_api_error |
📌 温馨提示: 不同模型在部分参数支持上可能略有差异(例如 deepseek-reasoner 不支持 temperature),具体请参考各模型的详细说明。如有疑问,请联系 TokenHot 客服。
Modified at 2026-05-06 03:23:53