创建消息请求(Claude)
文本系列
创建消息请求(Claude)
POST
创建消息请求(Claude)
简介
Claude 原生的消息接口,适用于 Claude Code 等原生 Anthropic 客户端。该接口遵循 Anthropic 的 API 规范,提供完整的 Claude 模型功能支持,包括扩展思考(Extended Thinking)、工具调用等高级特性。如果您使用 OpenAI 兼容的客户端(如 OpenAI SDK),建议使用
/v1/chat/completions 接口。认证
Bearer Token,如
Bearer sk-xxxxxxxxxx请求参数
Claude 模型标识,支持的模型包括:
claude-opus-4-5-20251101- Claude Opus 4.5(最新,最强推理能力)claude-haiku-4-5-20251001- Claude Haiku 4.5(最新,速度最快)claude-sonnet-4-5-20250929- Claude Sonnet 4.5(最新,平衡性能)claude-opus-4-1-20250805- Claude Opus 4.1claude-sonnet-4-20250514- Claude Sonnet 4- 其他 Claude 系列模型
对话消息列表,每个元素包含
role(user/assistant)和 content。content 可以是字符串或媒体内容数组。最大生成 token 数,控制回复长度。必须大于 0。
系统提示词,可以是字符串或媒体内容数组。用于设定模型的行为和角色。
随机性控制,0-1,值越高回复越随机。使用扩展思考时建议设置为 1.0。
核采样参数,0-1,控制生成的多样性。使用扩展思考时建议设置为 0。
Top-K 采样参数,仅部分模型支持。
是否启用流式输出,返回 SSE 格式的分片数据。使用扩展思考时建议启用。
停止序列列表,当模型生成这些序列时停止生成。
工具定义列表,支持函数工具和网页搜索工具。
工具选择策略,控制模型如何使用工具。
扩展思考配置,启用 Claude 的深度推理能力。
请求元数据,用于追踪和调试。
MCP(Model Context Protocol)服务器配置。
上下文管理配置,控制对话上下文的处理方式。
Prompt Caching(提示词缓存)
Prompt Caching 允许缓存经常使用的上下文内容,显著降低成本并提升响应速度。支持在system 和 messages 中使用 cache_control 参数。
缓存控制参数
缓存控制配置,可用于
system 数组元素和 messages 的 content 数组元素。type: 缓存类型"ephemeral": 5分钟缓存(默认,成本最优)"persistent": 1小时缓存(适用于长期稳定的上下文)
缓存机制
- 缓存位置:最后一个带
cache_control标记的内容块会被缓存 - 缓存阈值:内容至少需要 1024 tokens(Claude Sonnet 4.5)或 2048 tokens(Claude 3 Haiku)
- 缓存时效:
ephemeral: 5分钟内有效persistent: 1小时内有效
- 成本节省:缓存读取比普通输入便宜 90%
使用场景
- 长文档分析:将大型文档缓存在
system中,多次提问 - 代码库理解:缓存代码上下文,进行多轮代码分析
- 知识库问答:缓存知识库内容,提供快速查询
- 多轮对话:缓存历史对话,保持上下文连贯性
基础示例
- 非流式请求
- 流式请求(SSE)
- Python 示例(Anthropic SDK)
高级功能
系统提示词
系统提示词可以设置为字符串或媒体内容数组:- 字符串格式
- 数组格式
扩展思考(Extended Thinking)
Claude 支持扩展思考功能,允许模型进行深度推理。启用后,模型会在生成最终答案前进行内部思考。- 基础用法
- Python 示例
budget_tokens必须大于 1024- 使用扩展思考时,建议设置
temperature: 1.0和top_p: 0 - 必须启用流式输出(
stream: true)才能看到思考过程
工具调用(Tools)
支持函数工具和网页搜索工具:- 函数工具
- Claude 官方网页搜索工具
- 工具调用完整流程
tool_choice 参数详解
tool_choice 控制模型如何使用工具:
| 值 | 说明 |
|---|---|
{"type": "auto"} | 自动决定是否使用工具(默认) |
{"type": "any"} | 必须使用至少一个工具 |
{"type": "none"} | 不使用任何工具 |
{"type": "tool", "name": "tool_name"} | 必须使用指定的工具 |
多模态输入(图像)
支持在消息中包含图像:Prompt Caching(提示词缓存)
通过缓存常用的上下文内容,可以显著降低成本和提升响应速度。- System 缓存(5分钟)
- Messages 缓存(1小时)
- Python SDK 示例
缓存要点:
- 内容必须 ≥ 1024 tokens(Claude Sonnet 4.5)才会触发缓存
ephemeral缓存在 5分钟内有效persistent缓存在 1小时内有效- 缓存读取成本比正常输入便宜 90%
- 最后一个带
cache_control的块会被缓存 - 缓存基于内容完全匹配,任何改动都会导致缓存失效
响应格式
- 非流式响应
- 流式响应
input_tokens: 当前请求的非缓存输入 tokenscache_creation_input_tokens: 首次缓存创建的 tokens(仅首次请求时有值)cache_read_input_tokens: 从缓存读取的 tokens(缓存命中时有值)output_tokens: 生成的输出 tokens
错误处理
系统会对上游 Claude API 的错误进行统一处理,返回标准化的错误响应格式。| 错误类型 | HTTP 状态码 | 说明 |
|---|---|---|
invalid_request | 400 | 请求参数错误(如缺少必填字段) |
authentication_error | 401 | API 密钥无效或未授权 |
rate_limit_error | 429 | 请求频率超限 |
upstream_error | 500 | 上游服务错误 |
nebula_api_error | 500 | 系统内部错误 |
与 /v1/chat/completions 的对比
| 特性 | /v1/messages | /v1/chat/completions |
|---|---|---|
| 认证方式 | Authorization: Bearer | Authorization: Bearer |
| 响应格式 | Anthropic 原生格式 | OpenAI 兼容格式 |
| 扩展思考 | 原生支持 thinking 参数 | 通过 reasoning_effort 或 reasoning 参数 |
| 工具调用 | 原生 tools 和 tool_choice | OpenAI 兼容格式 |
| 适用客户端 | Anthropic SDK、Claude Code | OpenAI SDK、兼容客户端 |
注意事项
max_tokens是必填参数,必须大于 0messages数组不能为空- 使用扩展思考时,
budget_tokens必须大于 1024 - 扩展思考需要启用流式输出才能看到思考过程
- 工具调用需要多轮交互,第一轮返回工具调用请求,第二轮返回工具执行结果
- 图像输入需要使用 base64 编码
相关资源
对话接口(OpenAI 兼容)
查看 OpenAI 兼容的对话接口文档
模型列表
查看所有支持的模型信息
