環宇互聯 API 文档
OpenAI 兼容 · 多模态模型接口 · 香港节点
API Base URL

環宇互聯 API 文档中心

统一接口地址:https://hk.hyucloud.com/。本文档可直接上传到服务器文档目录作为静态网站使用。

環宇互聯 API 文档#

本文档基于“快速开始”至“常见问题答疑”的 API 调用文档整理,已统一替换为環宇互聯品牌与接口配置。

  • API 基础地址:https://hk.hyucloud.com/
  • 接口路径保持 OpenAI 兼容规范,例如:https://hk.hyucloud.com/v1/chat/completionshttps://hk.hyucloud.com/v1/models

目录#


快速开始#

本指南旨在帮助您快速熟悉并调用環宇互聯的API。跟随以下步骤,您将在几分钟内完成第一次API调用。

我们强烈推荐你使用OpenAI API的调用方式。因为OpenAI的API已经成为大模型行业的事实标准,这意味着有海量的教程、工具和代码库都可以直接复用。我们的服务完全兼容这套标准,让你能无缝衔接主流生态,节约大量学习成本。

OpenAI 兼容接口当前支持:

  • /v1/chat/completions 核心接口,用于与模型进行对话。
  • /v1/response OpenAI 最先进的模型响应生成接口。支持文本和图像输入,以及文本输出。
  • /v1/models 用于获取模型列表。

第一步:获取API密钥#

在调用任何API之前,您需要一个有效的API密钥。请前往【认证鉴权】文档,查看如何获取和管理您的密钥。

第二步:选择API节点#

根据您的地理位置和访问需求,选择合适的API节点:

节点域名地区说明
hk.hyucloud.com中国大陆国内用户推荐,访问延迟低
hk.hyucloud.com新加坡东南亚用户推荐,访问更快
hk.hyucloud.com美国洛杉矶海外用户推荐,数据不回国
hk.hyucloud.com法兰克福欧洲用户推荐,访问更快

第三步:选择模型#

你可以通过下方API获取模型列表,选择你需要的模型。

code
GET https://hk.hyucloud.com/v1/models

# 新加坡节点
GET https://hk.hyucloud.com/v1/models

# 美国洛杉矶节点
GET https://hk.hyucloud.com/v1/models

# 法兰克福节点
GET https://hk.hyucloud.com/v1/models

请求示例:

code
# 默认使用中国大陆节点
export ENDPOINT="https://hk.hyucloud.com"
# 或者使用新加坡节点
export ENDPOINT="https://hk.hyucloud.com"
# 或者使用美国洛杉矶节点
export ENDPOINT="https://hk.hyucloud.com"
# 或者使用法兰克福节点
export ENDPOINT="https://hk.hyucloud.com"

curl $ENDPOINT/v1/models \
  -H "Content-Type: application/json" | jq .

预期返回:

json
{
  "data": [
    {
      "created": 1762741377,
      "id": "deepseek-ai/DeepSeek-R1",
      "object": "model",
      "owned_by": "環宇互聯"
    },
    {
      "created": 1762741326,
      "id": "gpt-5",
      "object": "model",
      "owned_by": "環宇互聯"
    },
    ......
  ],
  "object": "list"
}

其中id字段即为模型名称,以实际返回为准。

第四步:调用API#

典型方式1 - 任何语言通过http调用#

这是最基础、最通用的调用方式。无论你使用什么编程语言,只要能发送网络请求(HTTP请求),就可以通过这种方式调用API。你需要知道三个核心信息:模型名称、你的API密钥和我们的API地址。

我们完全支持OpenAI API请求规范,因为OpenAI API接口标准也经常更新,所以建议直接以OpenAI API官网文档为准。

请将{api_key}替换为您的API密钥,将{model_name}替换为您上一步获取到列表中的模型名称(选择一个即可)。

bash
# or
# export ENDPOINT="https://hk.hyucloud.com"
# export ENDPOINT="https://hk.hyucloud.com"
# export ENDPOINT="https://hk.hyucloud.com"
# export ENDPOINT="https://hk.hyucloud.com"

curl $ENDPOINT/v1/chat/completions \
 -H "Content-Type: application/json" \
 -H "Authorization: Bearer {api_key}" \
 -d '{
   "model": "{model_name}",
   "messages": [
     {
       "role": "system",
       "content": "You are a helpful assistant."
     },
     {
       "role": "user",
       "content": "一句话描述環宇互聯这家公司。"
     }
   ],
   "stream": true
 }' 

参数说明:

  • model:模型名称,填入上一步获取的 id,例如 "deepseek-ai/DeepSeek-R1"。
  • messages:你要发送给模型的内容。
  • stream:是否“流式”返回。

- true:模型会像打字一样,逐字或逐词地返回结果,适合用于实时聊天界面。(任然是json格式数据) - false:模型会一次性生成全部答案后,再完整地返回给你。

预期返回如下,其中主要关注choices字段,它包含模型的回复,usage字段包含模型的使用情况(内容可能不相同,仅供参考):

json
{
  "id": "52ba2d24-f745-42b3-82c3-610a7b2658b0",
  "object": "chat.completion",
  "created": 1763020876,
  "model": "gemini-2.5-pro",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "環宇互聯 是一家中立、安全、可靠的云计算服务平台,致力于为全球企业级客户提供全面的云服务解决方案。"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 9,
    "completion_tokens": 1505,
    "total_tokens": 1514,
    "prompt_tokens_details": {
      "audio_tokens": 0,
      "cached_tokens": 0
    },
    "completion_tokens_details": {
      "audio_tokens": 0,
      "reasoning_tokens": 1357,
      "accepted_prediction_tokens": 0,
      "rejected_prediction_tokens": 0
    }
  },
  "system_fingerprint": "",
  "search_result": null
}

典型方式2 - OpenAI SDK#

OpenAI官方为开发者提供了非常便捷的SDK(软件开发工具包),它把复杂的HTTP请求封装成了简单的函数调用,代码更易读、更易维护。这是我们最推荐开发者使用的方式。

可以参考OpenAI SDK文档。也可在OpenAI GitHub中寻找需要的语言SDK。

python
pip install -U openai
python
from openai import OpenAI
import os

# or
# export ENDPOINT="https://hk.hyucloud.com"
# export ENDPOINT="https://hk.hyucloud.com"
# export ENDPOINT="https://hk.hyucloud.com"
# export ENDPOINT="https://hk.hyucloud.com"

ENDPOINT = os.getenv("ENDPOINT", "https://hk.hyucloud.com")

client = OpenAI(
   api_key="{api_key}",
   base_url=ENDPOINT + "/v1/",
)

chat_completion = client.chat.completions.create(
   messages=[
       {
           "role": "user",
           "content": "一句话描述環宇互聯这家公司。",
       }
   ],
   model="{model_name}",
)

print(chat_completion.choices[0].message.content)

典型方式3 - LangChain#

当你不再满足于简单的“一问一答”,想要构建更复杂的AI应用(比如能调用工具的AI助理、能分析文档的机器人等)时,LangChain就是一个强大的开发框架。它能很好地与我们的API兼容。

可以参考LangChain Python SDK文档LangChain JavaScript SDK文档

python
from langchain_openai import ChatOpenAI
from langchain import LLMChain
from langchain.prompts import ChatPromptTemplate

# or
# export ENDPOINT="https://hk.hyucloud.com"
# export ENDPOINT="https://hk.hyucloud.com"
# export ENDPOINT="https://hk.hyucloud.com"
# export ENDPOINT="https://hk.hyucloud.com"

ENDPOINT = os.getenv("ENDPOINT", "https://hk.hyucloud.com")

llm = ChatOpenAI(
    model_name="{model_name}",
    openai_api_key="{api_key}",
    openai_api_base=ENDPOINT + "/v1/",
)

prompt = ChatPromptTemplate.from_template(
    """
    {input}
    """
)

chain = LLMChain(llm=llm, prompt=prompt)

print(chain.run("一句话描述環宇互聯这家公司。"))

认证鉴权#

简介#

hyucloud API 使用 API Key 进行认证。所有 API 请求都必须在 HTTP 请求头中包含有效的 API Key。

获取API Key#

请访问 控制台 来创建和管理您的 API Key。

注意:请妥善保管您的 API Key,不要泄露给他人。

API Key 页面

调用地址#

環宇互聯 API地址提供两种方式,两个地址调用内容一样。

调用地址1:

code
GET https://hk.hyucloud.com/v1/models

调用地址2:

主要用于海外无法使用.cn域名场景

code
GET https://hk.hyucloud.com/v1/models

最简调用#

请将 {api_key} 替换为您的 API Key。

bash
curl --location 'https://hk.hyucloud.com/v1/chat/completions' \
--header "Authorization: Bearer {api_key}" \
--header 'Content-Type: application/json' \
--data '{
    "model": "deepseek-ai/DeepSeek-R1",
    "messages": [
        {
            "role": "user",
            "content": "一句话描述環宇互聯这家公司。"
        }
    ]
}' | jq .

你可能看到的返回结果。

code
{
  "id": "0a7919c4-981e-438b-ad30-e943b96882b6",
  "object": "chat.completion",
  "created": 1763015400,
  "model": "deepseek-r1-250528",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "用中立、安全、本土化的云计算服务,专注服务中国企业数字化转型的科创板上市云服务商。"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 10,
    "completion_tokens": 348,
    "total_tokens": 358,
    "prompt_tokens_details": null,
    "completion_tokens_details": {
      "audio_tokens": 0,
      "reasoning_tokens": 185,
      "accepted_prediction_tokens": 0,
      "rejected_prediction_tokens": 0
    }
  },
  "system_fingerprint": "",
  "search_result": null
}

错误码#

如果请求错误,服务器返回的 JSON 文本包含以下参数。

HTTP 状态码类型错误码错误信息描述
400invalid_request_errorparam_errorInvalid param参数不合法,调用我们未支持的接口时会触发
400invalid_request_errorinvalid_messagesSensitive chat messages对话内容触发敏感词/合规校验
400invalid_request_errorsensitive_check_errorSensitive check error合规/敏感内容检测失败
400invalid_request_errorwebsearch_errorWeb search error联网搜索失败或不可用
400invalid_request_errormodel_errorNo permission to use the model没有模型权限
400invalid_request_errortokens_too_longPrompt tokens too long提示词过长
401invalid_request_errorauth_errorValidate Certification failedtoken 无效,用户可以参考鉴权说明获取最新密钥
408timeouttimeoutRequest timeout, please try again later请求超时,请稍后重试
429rate_limit_errorrate_limitRate limit exceeded, please try again later触发限流,请稍后重试
500internal_errorinternal_errorInternal Server Error服务器内部错误
500internal_errormodel_server_errorRequest llm server ErrorLLM 服务异常
504timeoutgateway_timeout_errorGateway timeout, please try again later or use stream api网关超时,请稍后重试或使用流式接口

API Key 精细化权限控制#

简介#

2026-03-20 新增 API Key 精细化权限控制功能,支持按额度、按模型、按IP白名单维度进行权限控制。

注意:此功能为实验性功能,如需使用,请联系产品开通新平台权限。

功能说明#

额度控制#

API Key 支持设置 每日每月 费用额度上限,超过上限后将无法继续调用API。额度可以在创建/更新 API Key时设置。

注意:额度为可选配置,不配置时默认不限制费用额度。

额度限制以该key真实消费的费用为准,而非预估费用。(费用订单为后付费,每小时结算一次,因此额度限制可能存在一定的延迟,建议设置时预留一定的余量)

额度在费用结算后可能因扣费流程存在短暂的延迟。

操作步骤如下#

1. 登录控制台,进入API Key管理页面 2. 点击"创建API Key"或"编辑API Key" 3. 在"额度控制"区域,填写"每日"或"每月"额度上限 4. 点击"创建"按钮或"保存"按钮

额度控制 额度控制

调用示例#

bash
curl https://hk.hyucloud.com/v1/responses\
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "gpt-5.4",
    "input": "Hello! Who are you?"
  }'

{"error":{"message":"Access forbidden: api key quota exceeded, key_id=uminferapikey-1j3gwjgyhkwc, daily_limit_amount=100 , monthly_limit_amount=1000","type":"permission_error","param":"c2ad1049-66a6-4640-b2b5-1711dc401092","code":"forbidden"}}

模型控制#

API Key 支持设置可调用的模型列表,仅可调用列表中的模型。模型可以在创建/更新 API Key时设置。

注意:模型控制为可选配置,不配置时默认可调用所有模型。

页面选择支持按照供应商等选择模型,但是不支持新增模型自动添加到列表中。如需添加新模型,需要手动添加。

例:创建 API Key 时,勾选全部OpenAI模型为可调用模型,在此时间点后推出新模型,该API Key仍无法调用新模型。如需调用新模型,需要更新API Key的可调用模型列表。

模型控制

调用示例#

bash
 curl https://hk.hyucloud.com/v1/responses\
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "gpt-5.4",
    "input": "Hello! Who are you?"
  }'

{"error":{"message":"No permission to use the model: apikey [uminferapikey-1j3gwjgyhkwc] not support model [gpt-5.4]","type":"invalid_request_error","param":"6d7248f8-ebaa-437e-bfc2-d79e7c54004c","code":"model_error"}}

IP白名单控制#

API Key 支持设置可调用的IP白名单,未设置时可从任意IP使用该API Key调用API,设置后仅可从IP白名单中的IP调用API。IP白名单可以在创建/更新 API Key时设置。

注意:IP白名单为可选配置,不配置时默认可从任意IP使用该API Key调用API。当前仅支持IPv4地址。

支持IP和网段格式,如 192.168.1.1192.168.1.0/24192.168.1.10-192.168.1.20

IP白名单控制

调用示例#

bash
 curl https://hk.hyucloud.com/v1/responses\
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "gpt-5.4",
    "input": "Hello! Who are you?"
  }'

{"error":{"message":"Access forbidden: api key ip not in whitelist, key_id=uminferapikey-1j3gwjgyhkwc, ip=127.0.0.1","type":"permission_error","param":"c2ad1049-66a6-4640-b2b5-1711dc401092","code":"forbidden"}}

获取模型列表#

您可以通过 API 端点获取当前所有可用模型的列表。我们同时支持 OpenAI 和 Gemini 两种格式的 API(并非所有模型都支持 Gemini)。

OpenAI 兼容模型列表#

请求#

请求地址#

code
GET https://hk.hyucloud.com/v1/models

请求示例#

您可以直接使用 curl 命令来调用此接口

⚠️注意此接口只会返回文本生成的模型,若需要使用生图模型,请见【图片生成】

bash
curl https://hk.hyucloud.com/v1/models \
  -H "Content-Type: application/json" | jq .

响应#

响应示例#

调用成功后,会返回一个 JSON 对象,其中包含一个模型对象列表。

json
{
  "data": [
    {
      "created": 1762741377,
      "id": "deepseek-ai/DeepSeek-R1",
      "object": "model",
      "owned_by": "環宇互聯"
    },
    {
      "created": 1762741326,
      "id": "gpt-5",
      "object": "model",
      "owned_by": "環宇互聯"
    },
    ......
  ],
  "object": "list"
}

响应体参数说明#

参数类型描述
idstring模型的唯一标识符。
objectstring对象类型,此处恒为 model
createdinteger模型创建时间的 Unix 时间戳。
owned_bystring模型所有者。

Gemini 兼容模型列表#

请求#

请求地址#

code
GET https://hk.hyucloud.com/v1beta/models

请求示例#

您可以使用 curl 命令来调用此接口。

⚠️注意此接口只会返回支持gemini协议的模型

bash
curl --location 'https://hk.hyucloud.com/v1beta/models' \
  -H "Content-Type: application/json" 

响应#

响应示例#

调用成功后,会返回一个 JSON 对象,其中包含一个模型对象列表。

json
{
    "models": [
        {
            "name": "models/gemini-2.5-flash-image",
            "baseModelId": "gemini-2.5-flash-image",
            "version": "",
            "displayName": "gemini-2.5-flash-image",
            "description": "gemini-2.5-flash-image",
            "inputTokenLimit": 0,
            "outputTokenLimit": 0,
            "supportedActions": [
                "generateContent"
            ]
        },
        {
            "name": "models/gemini-2.5-pro",
            "baseModelId": "gemini-2.5-pro",
            "version": "",
            "displayName": "gemini-2.5-pro",
            "description": "gemini-2.5-pro",
            "inputTokenLimit": 0,
            "outputTokenLimit": 0,
            "supportedActions": [
                "generateContent"
            ]
        },
        {
            "name": "models/gemini-2.5-flash",
            "baseModelId": "gemini-2.5-flash",
            "version": "",
            "displayName": "gemini-2.5-flash",
            "description": "gemini-2.5-flash",
            "inputTokenLimit": 0,
            "outputTokenLimit": 0,
            "supportedActions": [
                "generateContent"
            ]
        }
    ]
}

响应体参数说明#

参数类型描述
namestring模型的完整资源名称。
baseModelIdstring基础模型的 ID。
versionstring模型版本号。
displayNamestring模型的显示名称。
descriptionstring模型的描述信息。
inputTokenLimitinteger输入 Token 的最大限制。
outputTokenLimitinteger输出 Token 的最大限制。
supportedActionsarray模型支持的操作列表。

各模型支持的协议#

本页用于说明不同模型在各协议下的兼容情况。 约定:

  • ✅:当前推荐、经过验证的主要调用方式。
  • 空白:可以尝试,但未充分验证或可能不稳定或完全无法使用,使用前建议在测试环境验证,不保证其兼容性。

说明:实际兼容性可能会随官方协议演进而调整,请以官方最新文档和测试结果为准。

如何查看支持的模型列表#

您可以通过 /v1/models 接口获取所有支持的模型:

shell
curl https://hk.hyucloud.com/v1/models \
  -H "Content-Type: application/json"

推荐使用 Cherry Studio 客户端,配置 API 地址后点击管理按钮即可直观查看所有支持的模型。详细配置教程请参考:Cherry Studio 配置教程。

OpenAI / GPT 系列#

模型 IDOpenAI Chat 协议 /v1/chat/completionsOpenAI Response 协议/v1/responsesGemini协议 /v1beta/modelsAnthropic协议 /v1/messages备注
gpt-5.1-chat不支持 max_tokens 参数,请使用max_completion_tokens,图像需用 base64
gpt-5.1不支持 max_tokens 参数,请使用max_completion_tokens,图像需用 base64
gpt-5.1-codex-mini仅支持 /v1/responses 接口
gpt-5.1-codex仅支持 /v1/responses 接口
gpt-5不支持 max_tokens 参数,请使用max_completion_tokens,图像需用 base64
gpt-5-chat不支持 max_tokens 参数,请使用max_completion_tokens,图像需用 base64
gpt-5-codex仅支持 /v1/responses 接口
gpt-4o-mini
gpt-4.1-nano
gpt-4.1-mini
o1不支持 max_tokens 参数,请使用max_completion_tokens,图像需用 base64
openai/gpt-5.1-chat不支持 max_tokens 参数,请使用max_completion_tokens,图像需用 base64
openai/gpt-5.1-codex仅支持 /v1/responses 接口
openai/gpt-5.1-codex-mini仅支持 /v1/responses 接口
openai/gpt-5.1不支持 max_tokens 参数,请使用max_completion_tokens,图像需用 base64
openai/gpt-4o
openai/gpt-5-nano不支持 max_tokens 参数,请使用max_completion_tokens,图像需用 base64
openai/gpt-4.1
openai/gpt-5不支持 max_tokens 参数,请使用max_completion_tokens,图像需用 base64
openai/gpt-5-mini不支持 max_tokens 参数,请使用max_completion_tokens,图像需用 base64
openai/gpt-oss-20b
openai/gpt-oss-120b
o4-mini-deep-research仅支持 /v1/responses 接口
o4-mini不支持 max_tokens 参数,请使用max_completion_tokens,图像需用 base64

Claude 系列#

模型 IDOpenAI Chat 协议 /v1/chat/completionsOpenAI Response 协议/v1/responsesGemini协议 /v1beta/modelsAnthropic协议 /v1/messages备注
claude-opus-4-1-20250805
claude-sonnet-4-5-20250929-thinkingtemperature 和 top_p 只能指定一个,temperature 取值范围为[0,1)
claude-sonnet-4-5-20250929
claude-sonnet-3.7
claude-opus-4.1-thinking
claude-opus-4.0-thinking
claude-sonnet-4.0-thinking
claude-sonnet-3.5
claude-4-opus
claude-4-sonnet
claude-sonnet-4.5-thinkingtemperature 和 top_p 只能指定一个,temperature 取值范围为[0,1)
claude-sonnet-4.5temperature 和 top_p 只能指定一个,temperature 取值范围为[0,1)

参数限制说明:Claude Sonnet 4.5 仅支持指定 temperaturetop_p 参数中的一个,不能同时使用这两个参数。详见 官方文档说明

Grok 系列#

模型 IDOpenAI Chat 协议 /v1/chat/completionsOpenAI Response 协议/v1/responsesGemini协议 /v1beta/modelsAnthropic协议 /v1/messages备注
grok-4-1-fast-reasoning
grok-4-1-fast-non-reasoning
grok-4-fast-reasoning
grok-4-fast
grok-4

Qwen 系列#

模型 IDOpenAI Chat 协议 /v1/chat/completionsOpenAI Response 协议/v1/responsesGemini协议 /v1beta/modelsAnthropic协议 /v1/messages备注
Qwen/Qwen3-vl-Plus
Qwen/Qwen3-235B-A22B-Thinking-2507
Qwen/Qwen-Plus-Thinking
Qwen/Qwen-Plus
Qwen/Qwen3-Max
Qwen/Qwen3-VL-235B-A22B-Instruct
Qwen/Qwen3-VL-235B-A22B-Thinking
Qwen/Qwen3-32B
Qwen/Qwen3-30B-A3B
Qwen/Qwen3-Coder
Qwen/Qwen3-235B-A22B
Qwen/QwQ-32B
qwen/qwen2.5-vl-72b-instruct

Gemini 系列(支持 /v1beta/models#

模型 IDOpenAI Chat 协议 /v1/chat/completionsOpenAI Response 协议/v1/responsesGemini协议 /v1beta/modelsAnthropic协议 /v1/messages备注
gemini-3-pro-preview推荐使用 /v1beta/models 接口
gemini-2.5-pro推荐使用 /v1beta/models 接口
gemini-2.5-flash推荐使用 /v1beta/models 接口

思考过程配置:使用 Gemini 协议的 v1beta/models 接口,可通过 thinkingConfig 参数开启/关闭思考过程。详见 Gemini 协议兼容

安全等级配置:Gemini 支持通过 safetySettings 配置内容过滤策略,包括仇恨言论、色情内容、危险内容、骚扰内容和公民诚信五个类别。详见 Google 官方安全设置文档

DeepSeek 系列#

模型 IDOpenAI Chat 协议 /v1/chat/completionsOpenAI Response 协议/v1/responsesGemini协议 /v1beta/modelsAnthropic协议 /v1/messages备注
deepseek-ai/DeepSeek-OCR
deepseek-ai/DeepSeek-V3.1-Think
deepseek-ai/DeepSeek-V3.2-Exp-Think
deepseek-ai/DeepSeek-V3.2-Exp
deepseek-ai/DeepSeek-V3.1-Terminus
deepseek-ai/DeepSeek-V3.1
deepseek-ai/DeepSeek-R1-Distill-Llama-70B
deepseek-ai/DeepSeek-R1-0528
deepseek-ai/DeepSeek-V3-0324
deepseek-ai/DeepSeek-R1

Doubao(豆包)系列#

模型 IDOpenAI Chat 协议 /v1/chat/completionsOpenAI Response 协议/v1/responsesGemini协议 /v1beta/modelsAnthropic协议 /v1/messages备注
ByteDance/doubao-1-5-pro-32k-250115
ByteDance/doubao-1-5-pro-256k-250115
ByteDance/doubao-seed-1.6
ByteDance/doubao-seed-1.6-thinking
ByteDance/doubao-1.5-thinking-vision-pro

Baidu 系列#

模型 IDOpenAI Chat 协议 /v1/chat/completionsOpenAI Response 协议/v1/responsesGemini协议 /v1beta/modelsAnthropic协议 /v1/messages备注
baidu/ernie-x1-turbo-32k
baidu/ernie-4.5-turbo-128k
baidu/ernie-4.5-turbo-vl-32k

其他模型#

模型 IDOpenAI Chat 协议 /v1/chat/completionsOpenAI Response 协议/v1/responsesGemini协议 /v1beta/modelsAnthropic协议 /v1/messages备注
moonshotai/Kimi-K2-Thinking
moonshotai/Kimi-K2-Instruct-0905
moonshotai/Kimi-K2-Instruct
zai-org/glm-4.6
zai-org/glm-4.5v
zai-org/glm-4.5
kat-coder-256k

OpenAI Chat Completions 说明#

重要提示:我们的服务完全兼容OpenAI API标准,因此我们强烈推荐直接参考OpenAI官方API文档获取最全面、最新的参数细节和示例。这能让你利用OpenAI的丰富资源(如教程、SDK)。以下是简化的接口概述,聚焦核心字段和使用说明。如果需要高级功能或更新,请优先查阅官方文档。我们已补充字段的具体含义,以补足快速开始文档的简单实用性。

概述#

/v1/chat/completions 接口用于基于对话消息生成模型响应,支持文本、图像和音频输入。适用于聊天、内容生成等场景。支持流式响应(streaming)。请求方法:POST。端点:https://hk.hyucloud.com/v1/chat/completions(兼容OpenAI格式)。

认证:使用API密钥,通过Authorization: Bearer {api_key}传递。 注意:某些参数仅适用于特定模型(如推理模型的reasoning_effort)。弃用参数(如functions)请避免使用,改用tools

主要核心字段#

请求字段(Request Parameters)#

字段类型是否必需默认值含义与说明
messagesarray对话消息列表。每个消息包含role(system/user/assistant)和content(文本/图像/音频)。含义:定义对话上下文,模型据此生成响应。示例:[{"role": "user", "content": "Hello!"}]。支持多模态输入。
modelstring模型ID,如gpt-4o。含义:指定生成响应的模型。参考/v1/models获取可用模型列表。
frequency_penaltynumber0频率惩罚(-2.0到2.0)。含义:减少重复token生成,提高输出多样性。
logit_biasmaptoken偏置映射。含义:调整特定token的生成概率(如禁止某些词)。
logprobsbooleanfalse是否返回token对数概率。含义:用于分析模型置信度。
max_completion_tokensinteger最大完成token数(包括推理token)。含义:控制响应长度,防止过长输出。
max_tokensinteger最大token数(已弃用)。含义:类似max_completion_tokens,用于旧模型。
ninteger1生成选项数量。含义:返回多个备选响应,注意会增加token消耗。
presence_penaltynumber0存在惩罚(-2.0到2.0)。含义:鼓励新主题,避免重复。
response_formatobject输出格式。含义:如{"type": "json_schema"}确保结构化JSON输出。
seedinteger随机种子。含义:确保响应确定性(重复请求返回相同结果)。
stopstring/array停止序列。含义:生成到此停止(如"END")。
streambooleanfalse是否流式响应。含义:实时返回chunk,便于交互式应用。
temperaturenumber1采样温度(0到2)。含义:控制随机性,高值更创意,低值更确定。
tool_choicestring/objectauto(若有工具)工具选择策略。含义:如auto让模型决定调用工具。
toolsarray可用工具列表。含义:启用函数调用或内置工具(如web search)。
top_pnumber1核采样(0到1)。含义:控制多样性,与temperature互斥。
userstring用户标识。含义:用于监控和滥用检测。
  • 其他字段:如metadata(存储额外信息)、modalities(输出类型,如["text", "audio"])等。参考官方文档获取完整列表。

响应字段(Response)#

字段类型含义与说明
choicesarray完成选项列表。含义:每个选项包含index、message(响应内容)和finish_reason(停止原因)。
createdinteger创建时间戳。含义:Unix秒,表示响应生成时间。
idstring响应ID。含义:唯一标识此次完成。
modelstring使用模型。含义:确认实际模型。
objectstring对象类型:chat.completion。含义:响应类型标识。
service_tierstring服务层级。含义:如果指定,返回实际使用层级。
system_fingerprintstring系统指纹。含义:监控后端变化影响确定性。
usageobject使用统计。含义:包含prompt_tokens、completion_tokens、total_tokens,用于计费。
  • 流式响应:返回chunk序列,每个chunk的object为chat.completion.chunk,包含delta(增量内容)。以[DONE]结束。

使用文档#

基本流程#

1. 构建请求:准备messages数组,确保角色正确。 2. 发送请求:使用HTTP POST,携带密钥。 3. 解析响应:从choices中提取message.content。 4. 流式处理:若stream=true,逐chunk读取delta.content。

示例(Curl,非流式)#

code
curl https://hk.hyucloud.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer {api_key}" \
  -d '{
    "model": "{model_name}",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

示例(Python,流式)#

python
import openai

client = openai.OpenAI(api_key="{api_key}", base_url="https://hk.hyucloud.com/v1/")
stream = client.chat.completions.create(
    model="{model_name}",
    messages=[{"role": "user", "content": "Hello!"}],
    stream=True
)
for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

更多示例和高级用法,请直接参考OpenAI官方文档


/v1/responses 接口文档#

重要提示:我们的服务完全兼容OpenAI Responses API标准,因此我们强烈推荐直接参考OpenAI官方API文档获取最全面、最新的参数细节和示例。这能让你利用OpenAI的丰富资源(如教程、SDK)。以下是精简版接口概述,聚焦核心字段和使用说明,以减少参数过多带来的复杂性(完整参数约30个,仅列出必需/常用)。如果需要高级功能或完整列表,请优先查阅官方文档。

概述#

/v1/responses 是OpenAI最先进的响应生成接口,支持文本/图像输入、文本/JSON输出、多轮对话、工具调用(如web search、file search)和背景处理。适用于状态化交互和外部数据集成。请求方法:POST。端点:https://hk.hyucloud.com/v1/responses(兼容OpenAI格式)。

认证:使用API密钥,通过Authorization: Bearer {api_key}传递。 注意:参数过多(约30个),建议从核心开始使用。支持流式响应和工具扩展。某些参数(如reasoning)仅适用于o-series模型。

主要核心字段#

请求字段(Request Parameters)#

精选必需和常用字段(约10个),完整列表请查官方文档。

字段类型是否必需默认值含义与说明
inputstring输入内容(文本/图像/文件)。
modelstring模型ID,如gpt-4oo3。含义:指定响应生成模型。
instructionsstring系统消息。含义:指导模型行为,可覆盖先前指令。
max_tokensinteger最大输出token数(包括推理)。含义:控制响应长度。
toolsarray工具列表(如函数/web search)。含义:扩展模型能力。
tool_choicestring/objectauto工具选择(如auto)。含义:决定是否调用工具。
streambooleanfalse是否流式。含义:实时返回事件流。
temperaturenumber1采样温度(0-2)。含义:控制随机性。
top_pnumber1核采样(0-1)。含义:控制多样性,与temperature互斥。
backgroundbooleanfalse是否后台运行。含义:异步处理,长任务适用。
  • 精简提示:其他常用如previous_response_id(多轮对话)、reasoning(推理配置)。避免非必需参数以简化调用。

响应字段(Response)#

核心响应对象,流式时返回事件序列。

字段类型含义与说明
outputarray生成内容(如文本/工具调用)。含义:模型输出结果。
statusstring状态(如completedfailed)。含义:响应处理结果。
creatednumber创建时间戳。含义:Unix秒。
idstring响应ID。含义:唯一标识。
modelstring使用模型。含义:确认模型。
usageobjecttoken使用统计。含义:计费依据。
  • 流式事件:如response.createdresponse.output_item.added等。以response.done结束。完整事件列表见官方文档。

使用文档#

基本流程#

1. 构建请求:指定model和input_items。 2. 发送请求:POST携带密钥。 3. 解析响应:提取output内容。 4. 流式:处理事件流。

示例(Curl,非流式)#

code
curl https://hk.hyucloud.com/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer {api_key}" \
  -d '{
    "model": "{model_name}",
    "input": "Hello! Who are you?"
  }'

预期响应(简化):

json
{
  "id": "resp-123",
  "object": "response",
  "created": 1677652288,
  "model": "gpt-4o",
  "output": [{"type": "text", "text": "Hi!"}],
  "status": "completed",
  "usage": {"total_tokens": 20}
}

示例(Python,流式)#

python
import openai

client = openai.OpenAI(api_key="{api_key}", base_url="https://hk.hyucloud.com/v1/")
stream = client.responses.create(
    model="{model_name}",
    input_items=[{"type": "text", "text": "Hello!"}],
    stream=True
)
for event in stream:
    print(event)  # 如 response.delta

更多细节,请直接参考OpenAI官方文档


Claude (Anthropic) 兼容说明#

重要提示:我们提供兼容 Anthropic 标准的API服务,因此我们强烈推荐直接参考 Anthropic 官方 API 文档 获取最全面、最新的参数细节和示例。以下是简化的接口概述,聚焦核心字段和使用说明。

概述#

環宇互聯 平台提供了与 Anthropic Claude API 兼容的 Messages 接口,开发者可以使用 Anthropic SDK 或其他支持的工具直接调用 環宇互聯 上的模型。

  • 请求方法:POST
  • 端点https://hk.hyucloud.com/v1/messages
  • 认证:使用 API 密钥,通过 x-api-key: {api_key}Authorization: Bearer {api_key} 传递

注意/v1/messages 端点仅支持 Claude 系列模型。其他模型(如 GPT、Gemini、DeepSeek 等)请使用 OpenAI 兼容的 /v1/chat/completions 端点。虽然 Claude 和 OpenAI 都使用 /v1/models 来获取模型列表,但调用接口不同。

主要核心字段#

请求字段(Request Parameters)#

字段类型是否必需默认值含义与说明
modelstring模型 ID,如 claude-sonnet-4-5-20250929。指定生成响应的模型。
messagesarray对话消息列表。每个消息包含 role(user/assistant)和 content(文本/图像)。
max_tokensinteger最大生成 token 数。控制响应长度,防止过长输出。
systemstring/array系统提示词。定义模型的行为和角色。
temperaturenumber1.0采样温度(0 到 1)。控制随机性,高值更创意,低值更确定。
top_pnumber核采样(0 到 1)。控制多样性。
top_kintegerTop-K 采样。仅从概率最高的 K 个 token 中采样。
stop_sequencesarray停止序列列表。生成到此停止。
streambooleanfalse是否流式响应。实时返回增量内容。
metadataobject元数据对象,可包含 user_id 用于追踪。
toolsarray可用工具列表。启用函数调用功能。
tool_choiceobjectauto工具选择策略。如 {"type": "auto"} 让模型决定调用工具。

响应字段(Response)#

字段类型含义与说明
idstring响应 ID。唯一标识此次完成。
typestring对象类型:message
rolestring角色:assistant
contentarray内容块列表。每个块包含 type 和对应内容(如 text)。
modelstring使用的模型 ID。
stop_reasonstring停止原因:end_turnmax_tokensstop_sequencetool_use
stop_sequencestring触发停止的序列(如适用)。
usageobject使用统计。包含 input_tokensoutput_tokens

快速开始#

安装 Anthropic SDK#

bash
pip install anthropic

示例代码#

Python#

python
import anthropic

client = anthropic.Anthropic(
    api_key="<hyucloud_API_KEY>",
    base_url="https://hk.hyucloud.com"
)

message = client.messages.create(
    model="claude-sonnet-4-5-20250929",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Hello, how are you?"}
    ]
)

print(message.content[0].text)

Python 流式#

python
import anthropic

client = anthropic.Anthropic(
    api_key="<hyucloud_API_KEY>",
    base_url="https://hk.hyucloud.com"
)

with client.messages.stream(
    model="claude-sonnet-4-5-20250929",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Write a short story about AI."}
    ]
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)

curl#

bash
curl https://hk.hyucloud.com/v1/messages \
  -H "Content-Type: application/json" \
  -H "x-api-key: $hyucloud_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-sonnet-4-5-20250929",
    "max_tokens": 1024,
    "messages": [
      {"role": "user", "content": "Hello, how are you?"}
    ]
  }'

curl 流式#

bash
curl https://hk.hyucloud.com/v1/messages \
  -H "Content-Type: application/json" \
  -H "x-api-key: $hyucloud_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-sonnet-4-5-20250929",
    "max_tokens": 1024,
    "stream": true,
    "messages": [
      {"role": "user", "content": "Hello, how are you?"}
    ]
  }'

多模态支持#

Claude 兼容接口支持图像输入,可以通过 base64 编码或 URL 方式传递图像:

使用 URL 方式#

python
import anthropic

client = anthropic.Anthropic(
    api_key="<hyucloud_API_KEY>",
    base_url="https://hk.hyucloud.com"
)

# 使用 URL 传递图像
message = client.messages.create(
    model="claude-sonnet-4-5-20250929",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg"
                    }
                },
                {
                    "type": "text",
                    "text": "What's in this image?"
                }
            ]
        }
    ]
)

print(message.content[0].text)

使用 base64 编码#

python
import anthropic
import base64

client = anthropic.Anthropic(
    api_key="<hyucloud_API_KEY>",
    base_url="https://hk.hyucloud.com"
)

# 使用 base64 编码图像
with open("image.png", "rb") as f:
    image_data = base64.standard_b64encode(f.read()).decode("utf-8")

message = client.messages.create(
    model="claude-sonnet-4-5-20250929",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": image_data
                    }
                },
                {
                    "type": "text",
                    "text": "What's in this image?"
                }
            ]
        }
    ]
)

print(message.content[0].text)

工具调用(Function Calling)#

python
import anthropic

client = anthropic.Anthropic(
    api_key="<hyucloud_API_KEY>",
    base_url="https://hk.hyucloud.com"
)

tools = [
    {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
            "type": "object",
            "properties": {
                "location": {
                    "type": "string",
                    "description": "The city and state, e.g. San Francisco, CA"
                }
            },
            "required": ["location"]
        }
    }
]

message = client.messages.create(
    model="claude-sonnet-4-5-20250929",
    max_tokens=1024,
    tools=tools,
    messages=[
        {"role": "user", "content": "What's the weather like in Beijing?"}
    ]
)

print(message.content)

模型列表#

更多受支持的 Claude 兼容模型,请参考【获取模型列表】或访问 環宇互聯 模型中心

更多字段详情,见 Anthropic 官方文档


Gemini 快速开始#

環宇互聯 平台提供了与 Google Gemini API 兼容的 Models 接口,开发者可以使用 Gemini SDK 或其他支持的工具直接调用 環宇互聯 上的 Gemini 模型

本文将向您介绍如何快速在 環宇互聯 平台发出您的第一个 Gemini API 请求。

快速开始#

安装 Google GenAI SDK#

安装 python 语言的 sdk

使用 Python 3.9 及更高版本,通过以下 pip 命令安装 google-genai 软件包:

python
pip install google-genai

示例#

以下示例使用 generateContent 方法,通过gemini-3-flash-preview模型向 環宇互聯 API 发送请求。

请确保将 $hyucloud_API_KEY 替换为您自己的 API Key,获取 API Key

非流式调用#

您可以使用以下代码进行调用。请注意,我们需要通过 http_options 来指定 環宇互聯 的 API 地址。

python#

python
from google import genai
from google.genai import types

client = genai.Client(
   api_key="<hyucloud_API_KEY>",
   http_options=types.HttpOptions(
       base_url="https://hk.hyucloud.com"
   ),
)

response = client.models.generate_content(
   model="gemini-3-flash-preview",
   contents=[
       {"text": "How does AI work?"},
   ],
   config=types.GenerateContentConfig(
       thinking_config=types.ThinkingConfig(thinking_budget=0),
   ),
)
print(response.text)

参数说明:开启思考总结#

详细内容可参考官方文档

如需开启思考总结,可在 thinking_config 中添加:

python
config=types.GenerateContentConfig(
    thinking_config=types.ThinkingConfig(
        include_thoughts=True
    )
)

curl#

bash
curl "https://hk.hyucloud.com/v1beta/models/gemini-3-flash-preview:generateContent" \
    -H "x-goog-api-key: $hyucloud_API_KEY" \
    -H "Content-Type: application/json" \
    -X POST \
    -d '{
          "contents": [
            {
              "parts": [
                {
                  "text": "How does AI work?"
                }
              ]
            }
          ],
          "generationConfig": {
            "thinkingConfig": {
              "thinkingBudget": 0
            }
          }
        }'

流式调用#

python#

python
from google import genai
from google.genai import types

client = genai.Client(
    api_key="<hyucloud_API_KEY>",
    http_options=types.HttpOptions(
        base_url="https://hk.hyucloud.com"
    ),
)

response = client.models.generate_content_stream(
    model="gemini-3-flash-preview", contents=["Explain how AI works"]
)
for chunk in response:
    print(chunk.text, end="")

curl#

bash
curl "https://hk.hyucloud.com/v1beta/models/gemini-3-flash-preview:GenerateContent?alt=sse" \
    -H "Authorization: Bearer $hyucloud_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
      "contents": [
        {
          "role": "user",
          "parts": [
            {
              "text": "Explain how AI works"
            }
          ]
        }
      ]
    }'

Google Search(联网检索)使用说明#

Gemini 支持通过 tools.google_search 调用实时网络检索能力。启用后,模型会在需要时自动发起搜索,并在响应中返回可追溯的来源信息(groundingMetadata)。

详细字段定义与能力说明可参考 Google Gemini 官方文档:https://ai.google.dev/gemini-api/docs/google-search?hl=zh-cn

适用场景:

  • 需要最新信息(如近期事件、价格、公告)。
  • 需要可验证来源与引用链路。
  • 需要降低纯参数知识带来的幻觉风险。

请求要点#

  • 请求体中增加 tools,并传入 {"google_search": {}}
  • 建议使用支持 Google Search 工具的 Gemini 模型(如 gemini-3-flash-preview)。
  • 使用 環宇互聯 兼容地址与鉴权:

* Base URL: https://hk.hyucloud.com * API Key Header: x-goog-api-key: $hyucloud_API_KEY

示例:Python SDK(環宇互聯)#

python
from google import genai
from google.genai import types

client = genai.Client(
    api_key="<hyucloud_API_KEY>",
    http_options=types.HttpOptions(base_url="https://hk.hyucloud.com"),
)

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="请告诉我今天 AI 领域最重要的三条新闻,并给出来源。",
    config=types.GenerateContentConfig(
        tools=[types.Tool(google_search=types.GoogleSearch())]
    ),
)

print(response.text)

# 可选:读取 grounding 元数据(若模型触发了搜索)
if response.candidates and response.candidates[0].grounding_metadata:
    gm = response.candidates[0].grounding_metadata
    if gm.grounding_chunks:
        for idx, chunk in enumerate(gm.grounding_chunks, 1):
            if chunk.web:
                print(f"[{idx}] {chunk.web.title}: {chunk.web.uri}")

示例:curl(環宇互聯)#

bash
curl "https://hk.hyucloud.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "请基于网络信息,概括一下今天全球 AI 相关新闻,并附带来源。"
          }
        ]
      }
    ],
    "tools": [
      {
        "google_search": {}
      }
    ]
  }'

响应字段说明(重点)#

当请求触发联网检索时,candidates[*].groundingMetadata 常见字段包括:

  • webSearchQueries:模型实际发起的搜索词。
  • groundingChunks:候选来源列表(含 urititle)。
  • groundingSupports:回答片段与来源索引的映射,可用于做内联引用。

建议在前端展示来源链接,提升回答可解释性与用户信任。

文档理解#

Gemini 模型可以处理 PDF 格式的文档,并使用原生视觉功能来理解整个文档的上下文。这不仅仅是提取文本,还让 Gemini 能够:

  • 分析和解读内容,包括文本、图片、图表、图表和表格,即使是长达 1,000 页的文档也能轻松应对。
  • 以结构化输出格式提取信息。
  • 根据文档中的视觉和文本元素总结内容并回答问题。
  • 转写文档内容(例如转写为 HTML),同时保留布局和格式,以便在下游应用中使用。

您也可以通过相同的方式传递非 PDF 文档,但 Gemini 会将这些文档视为普通文本,从而消除图表或格式等上下文。

以内嵌方式传递 PDF 数据#

您可以在向 generateContent 发出的请求中内嵌传递 PDF 数据。此方法最适合处理较小的文档或临时处理,因为您无需在后续请求中引用该文件。

以下示例展示了如何从网址提取 PDF 并将其转换为字节以进行处理:

python#

python
from google import genai
from google.genai import types
import httpx

client = genai.Client(
    api_key="<hyucloud_API_KEY>",
    http_options=types.HttpOptions(
        base_url="https://hk.hyucloud.com"
    ),
)

doc_url = "https://hk.hyucloud.com/gemini-pdf.pdf"

# Retrieve and encode the PDF byte
doc_data = httpx.get(doc_url).content

prompt = "Summarize this document"
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[
        types.Part.from_bytes(
            data=doc_data,
            mime_type='application/pdf',
        ),
        prompt
    ]
)

print(response.text)

curl#

bash
DOC_URL="https://hk.hyucloud.com/gemini-pdf.pdf"
PROMPT="Summarize this document"
DISPLAY_NAME="base64_pdf"

# Download the PDF
wget -O "${DISPLAY_NAME}.pdf" "${DOC_URL}"

# Check for FreeBSD base64 and set flags accordingly
if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi

# Base64 encode the PDF
ENCODED_PDF=$(base64 $B64FLAGS "${DISPLAY_NAME}.pdf")

# Generate content using the base64 encoded PDF
curl "https://hk.hyucloud.com/v1beta/models/gemini-3-flash-preview:generateContent" \
    -H "x-goog-api-key: $hyucloud_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
          {"inline_data": {"mime_type": "application/pdf", "data": "'"$ENCODED_PDF"'"}},
          {"text": "'$PROMPT'"}
        ]
      }]
    }' 2> /dev/null > response.json

cat response.json
echo

jq ".candidates[].content.parts[].text" response.json

# Clean up the downloaded PDF
rm "${DISPLAY_NAME}.pdf"

您还可以从本地文件读取 PDF 以进行处理:

python
from google import genai
from google.genai import types
import pathlib

client = genai.Client(
    api_key="<hyucloud_API_KEY>",
    http_options=types.HttpOptions(
        base_url="https://hk.hyucloud.com"
    ),
)

# Retrieve and encode the PDF byte
filepath = pathlib.Path('file.pdf')

prompt = "Summarize this document"
response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents=[
      types.Part.from_bytes(
        data=filepath.read_bytes(),
        mime_type='application/pdf',
      ),
      prompt])
print(response.text)

模型ID说明#

更多受支持的gemini模型,请参考【获取模型列表】

更多字段详情,见Gemini官方文档


Gemini 批量任务 API#

本文档描述通过 hyucloud 创建、查询与下载 Gemini(Vertex 风格)批量预测任务的接口,适用于大批量异步文本生成场景。


当前支持的模型 ID(创建任务时 model 字段仅支持以下三种):

模型 ID
publishers/google/models/gemini-3.1-pro-preview
publishers/google/models/gemini-3-flash-preview
publishers/google/models/gemini-3-pro-image-preview

认证说明#

所有接口支持以下任一方式携带 API Key(请勿在文档或代码中写真实 Key,使用环境变量或配置占位符):

  • Authorization: Bearer <your_api_key>
  • x-goog-api-key: <your_api_key>

Base URL 示例:https://hk.hyucloud.com(海外可用 https://hk.hyucloud.com)。


流程概览#

1. 上传输入文件:将 JSONL 输入文件上传到平台存储(GCS),获得文件标识。 2. 创建批量任务:提交批量任务,指定模型、输入文件 URI、输出目录前缀。 3. 查询任务状态:轮询任务状态,直至完成或失败。 4. 下载结果文件:任务完成后,根据输出目录下载 predictions.jsonl


1. 上传批量任务输入文件#

将批量任务的输入文件(JSONL)上传到平台,用于后续创建任务时作为输入源。

请求

  • 方法 / 路径POST /v1/files
  • Content-Typemultipart/form-data
  • 必填字段

- purpose:固定为 batch:gcs(用于 Gemini 批量任务时必须填写)。 - file:输入文件(JSONL)。

响应

返回 OpenAI 风格文件对象,主要字段:

字段类型说明
idstring文件在存储中的对象名
objectstring固定为 "file"
bytesint64文件大小(字节)
created_atint64创建时间戳
purposestring即请求中的 batch:gcs

与创建任务的约定:上传接口返回的 id 为文件在 GCS 中的对象名。创建批量任务时,inputConfig.gcsSource.uris 需填写完整 GCS URI,格式为:gs://<bucket>/<id>,其中 <bucket> 由平台为批量任务分配,以控制台或当前环境说明为准(例如 gs://gemini-batch-001/<id>)。不可使用数组,仅支持字符串形式的单个 URI。

示例

bash
curl -X POST "https://hk.hyucloud.com/v1/files" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -F "purpose=batch:gcs" \
  -F "file=@your-input.jsonl"

返回

shell
{
  "id": "1773236148797418904_gemini-3.1-pro-preview.jsonl",
  "object": "file",
  "bytes": 224,
  "created_at": 1773236150,
  "expires_at": 0,
  "filename": "1773236148797418904_gemini-3.1-pro-preview.jsonl",
  "purpose": "batch:gcs"
}

2. 创建批量任务#

请求

  • 方法 / 路径POST /v1beta/batchPredictionJobs
  • Content-Typeapplication/json

请求体(仅列与 Gemini 批量任务相关字段)

字段类型必填说明
displayNamestring任务展示名称
modelstring模型资源名,如 publishers/google/models/gemini-3.1-pro-preview
inputConfig.instancesFormatstring输入格式,如 jsonl
inputConfig.gcsSource.urisstring输入文件 GCS URI(字符串),bucket 必须为gemini-batch-001,即 gs://gemini-batch-001/<上传返回的id>
outputConfig.predictionsFormatstring输出格式,如 jsonl
outputConfig.gcsDestination.outputUriPrefixstring输出目录前缀,必须指定 gs://gemini-batch-001/output

响应

返回 Vertex 风格任务对象。成功创建时,响应中会包含 name 字段(可能为长资源名)。服务会将其中最后一段作为 batch_id / job_id 供后续查询与下载使用;客户端可按 name 或服务返回的简短 id 作为任务唯一标识。

示例

bash
curl -X POST "https://hk.hyucloud.com/v1beta/batchPredictionJobs" \
  -H "X-Goog-Api-Key: $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "displayName": "my-cloud-storage-batch-inference-job",
    "model": "publishers/google/models/gemini-3-flash-preview",
    "inputConfig": {
      "instancesFormat": "jsonl",
      "gcsSource": {
        "uris": "gs://gemini-batch-001/<上传返回的id>"
      }
    },
    "outputConfig": {
      "predictionsFormat": "jsonl",
      "gcsDestination": {
        "outputUriPrefix": "gs://gemini-batch-001/output"
      }
    }
  }'

返回

json
{
  "name": "projects/279887244472/locations/global/batchPredictionJobs/7737084104264384512",
  "displayName": "my-cloud-storage-batch-inference-job",
  "model": "publishers/google/models/gemini-3-flash-preview",
  "inputConfig": {
    "instancesFormat": "jsonl",
    "gcsSource": {
      "uris": [
        "gs://gvideo.hyucloud.cn/batch_prompt_for_batch_gemini_predict.jsonl"
      ]
    }
  },
  "outputConfig": {
    "predictionsFormat": "jsonl",
    "gcsDestination": {
      "outputUriPrefix": "gs://gvideo.hyucloud.cn/test"
    }
  },
  "outputInfo": {
    "gcsOutputDirectory": "gs://gvideo.hyucloud.cn/test/prediction-model-2026-02-28T08:22:20.427871Z"
  },
  "state": "JOB_STATE_SUCCEEDED",
  "completionStats": {
    "successfulCount": "2"
  },
  "createTime": "2026-02-28T08:22:22.313780Z",
  "startTime": "2026-02-28T08:23:12.172401Z",
  "endTime": "2026-02-28T08:27:35.914509Z",
  "updateTime": "2026-02-28T08:27:35.914509Z",
  "encryptionSpec": {},
  "hyucloudionId": "1"
}

3. 查询批量任务状态#

请求

  • 方法 / 路径GET /v1beta/batchPredictionJobs/:job_id
  • 路径参数job_id 为创建任务后得到的任务 ID(即 name 中最后一段或接口返回的 id)。

响应

返回 Vertex 风格任务详情,主要字段包括:

json
{
  "name": "projects/279887244472/locations/global/batchPredictionJobs/7737084104264384512",
  "displayName": "my-cloud-storage-batch-inference-job",
  "model": "publishers/google/models/gemini-3-flash-preview",
  "inputConfig": {
    "instancesFormat": "jsonl",
    "gcsSource": {
      "uris": [
        "gs://gvideo.hyucloud.cn/batch_prompt_for_batch_gemini_predict.jsonl"
      ]
    }
  },
  "outputConfig": {
    "predictionsFormat": "jsonl",
    "gcsDestination": {
      "outputUriPrefix": "gs://gvideo.hyucloud.cn/test"
    }
  },
  "outputInfo": {
    "gcsOutputDirectory": "gs://gvideo.hyucloud.cn/test/prediction-model-2026-02-28T08:22:20.4172871Z"
  },
  "state": "JOB_STATE_SUCCEEDED",
  "completionStats": {
    "successfulCount": "2"
  },
  "createTime": "2026-02-28T08:22:22.313780Z",
  "startTime": "2026-02-28T08:23:12.172401Z",
  "endTime": "2026-02-28T08:27:35.914509Z",
  "updateTime": "2026-02-28T08:27:35.914509Z",
  "encryptionSpec": {},
  "hyucloudionId": "1"
}
字段类型说明
namestring任务资源名或短 id
statestring任务状态,见下方状态码说明
outputInfo.gcsOutputDirectorystring输出目录(用于下载时作为 file_id)
completionStatsobject完成统计(如 successfulCount)

任务状态码(state)

state 取值含义
JOB_STATE_PENDING已创建,等待调度
JOB_STATE_RUNNING执行中
JOB_STATE_SUCCEEDED成功完成
JOB_STATE_FAILED失败
JOB_STATE_CANCELLED已取消
JOB_STATE_PAUSED已暂停

任务完成后,使用 outputInfo.gcsOutputDirectory 作为下一步下载接口的 file_id(传入的是目录,不是单文件路径)。

示例(Gemini 格式认证)

bash
curl -X GET "https://hk.hyucloud.com/v1beta/batchPredictionJobs/<job_id>" \
  -H "x-goog-api-key: $hyucloud_API_KEY"

4. 下载批量任务结果文件#

任务状态为完成后,可通过本接口下载该任务的结果文件(固定为 predictions.jsonl)。

请求

  • 方法 / 路径GET /v1/batchPredictionJobs/content?file_id=<gcsOutputDirectory>
  • 查询参数

- file_id(必填):任务输出目录的 GCS URI(即查询任务接口返回的 outputInfo.gcsOutputDirectory),例如 gs://gemini-batch-001/output/prediction-model-2026-03-11T06:15:44.636340Z。服务会在该目录下定位并返回 predictions.jsonl,因此传入的是目录,不要传单文件名。

响应

  • 成功:返回 predictions.jsonl 文件流(如 Content-Type: application/octet-streamapplication/jsonl)。
  • 失败:返回相应 HTTP 状态码与错误信息。

示例

bash
# 将 <output_directory> 替换为查询任务接口返回的 outputInfo.gcsOutputDirectory
curl -X GET "https://hk.hyucloud.com/v1/batchPredictionJobs/content?file_id=<output_directory>" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -o predictions.jsonl

小结#

步骤接口说明
1POST /v1/files上传输入文件,purpose 固定为 batch:gcs;返回的 id 用于拼成 gs:///
2POST /v1beta/batchPredictionJobs创建任务,uris 为字符串,填完整 GCS URI
3GET /v1beta/batchPredictionJobs/:job_id查询状态,从响应中取 outputInfo.gcsOutputDirectory
4GET /v1/batchPredictionJobs/content?file_id=<目录>下载结果,file_id 填输出目录,服务返回该目录下 predictions.jsonl

Gemini 媒体分析功能和上传文件到GCS API#

本文档描述通过 hyucloud 网关调用 Gemini 的媒体分析功能和上传文件到GCS,输入可为图片、视频、音频。 Gemini官方文档


认证说明#

所有接口支持以下任一方式携带 API Key(示例中仅使用脱敏占位符):

  • Authorization: Bearer <your_api_key>
  • x-goog-api-key: <your_api_key>

Base URL 示例:https://hk.hyucloud.com(海外可用 https://hk.hyucloud.com)。


流程概览#

1. 上传媒体文件到GCS平台:POST /v1/files 2. 从上传响应中获取文件地址(s3_url) 3. 调用 Gemini 媒体分析接口:POST /v1beta/models/{model}:generateContent 4. 从响应中提取文本分析结果


1. 上传媒体文件#

将图片、视频或音频文件上传到平台,获取可在后续请求中引用的 s3_url

请求

  • 方法 / 路径POST /v1/files
  • Content-Typemultipart/form-data
  • 表单字段

- file:媒体文件(二进制) - purpose:必选;(batch:gcs

示例

bash
curl https://hk.hyucloud.com/v1/files \
  -H "Authorization: Bearer <$hyucloud_API_KEY>" \
  -F purpose="batch:gcs" \
  -F "file=@gemini-3.1-pro-preview.jpg" 

成功返回示例

json
{
  "id": "1773236148797418904_demo-image.jpg",
  "object": "file",
  "bytes": 224123,
  "created_at": 1773236150,
  "expires_at": 0,
  "filename": "1773236148797418904_demo-image.jpg",
  "purpose": "",
  "s3_url": "https://example-file-host/hyucloud/1773236148797418904_demo-image.jpg"
}

后续媒体分析请求可使用 s3_url 作为 file_data.file_uri

异常返回示例

json
{
  "error": {
    "message": "this is error meesage",
    "type": "internal_error",
    "param": "e4b4cf3f-24a0-4620-b53e-fee919c9d914",
    "code": "model_server_error"
  }
} 

2. 调用 Gemini 媒体分析接口#

请求

  • 方法 / 路径POST /v1beta/models/{model}:generateContent
  • Content-Typeapplication/json

contents[].parts[] 常见字段:

字段类型说明
textstring问题或指令文本
file_data.mime_typestring媒体 MIME,例如 image/jpegvideo/mp4audio/mpeg
file_data.file_uristring媒体地址,建议使用上传接口返回的 s3_url

3. 示例:文本分析#

bash
IMAGE_URL="https://example-file-host/hyucloud/1773236148797418904_demo-image.jpg"

curl -X POST "https://hk.hyucloud.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
  "contents": [
    {
      "parts": [
        {
          "fileData": {
            "fileUri": "https://storage.googleapis.com/gemini-batch-001/1774000031757082682_gemini-3-flash-preview.jsonl?Expires=1774604833&GoogleAccessId=bucket%40stacyzhang0708-1218-01.iam.gserviceaccount.com&Signature=c4QsHdf89aWeTNX0JzVqT%2BL4VtM2%2Bx7PEpjjNSVU%2FBNjrvJB2kKbpbIWmKvexQvOA4BO9no0KbZxazCvAQbNttK4Ecng7Za4K4FslNLBJ7fucapF7xdE0b%2BSO690ph%2BXWX5erZJixmzV%2BhiGZay0mBdYAxOfVwZb%2Bc5RA%2FQzPqBsdbdKb1%2FzzD4AcwCHu0w0So54JMQt3qcDQVi56NZaOZA4aC9SLZGcVdYakMF75XKn9Z99e2rXgFtEo2P7%2BuRBY8hD%2Bv%2B6dHC9k6fa9nABZEw38wi3Ozfsf7eQ0PmTmrQ2ue6n97zMjbg6rSn2RmKFWc4iWBl48ikkyFmA1GhKsA%3D%3D",
            "mimeType": "text/plain"
          }
        },
        {
          "text": "What is in the text?"
        }
      ],
      "role": "user"
    }
  ]
}
'

4. 示例:视频分析#

bash
VIDEO_URL="https://example-file-host/hyucloud/1773236148797418904_demo-video.mp4"

curl -X POST "https://hk.hyucloud.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {
            "file_data": {
              "mime_type": "video/mp4",
              "file_uri": "'"$VIDEO_URL"'"
            }
          },
          {
            "text": "请总结这个视频的主要事件,并按时间顺序列出关键片段。"
          }
        ]
      }
    ]
  }'

5. 示例:音频分析#

bash
AUDIO_URL="https://example-file-host/hyucloud/1773236148797418904_demo-audio.mp3"

curl -X POST "https://hk.hyucloud.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {
            "file_data": {
              "mime_type": "audio/mpeg",
              "file_uri": "'"$AUDIO_URL"'"
            }
          },
          {
            "text": "请转写这段音频,并总结其核心观点。"
          }
        ]
      }
    ]
  }'

6. SDK Python#

以下示例使用 Python 完成:

1. 上传媒体文件到 /v1/files 2. 使用返回的 s3_url 调用 /v1beta/models/{model}:generateContent

python
from google import genai
from google.genai.types import   HttpOptions,Part

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1beta",
        base_url="https://hk.hyucloud.com",
    ),
    api_key='<$hyucloud_API_KEY>', 
)

prompt = "Describe the key events in this video, providing both audio and visual details. Include timestamps for salient moments."
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[
        Part.from_uri(
            file_uri="https://storage.googleapis.com/gemini-batch-001/1774000031757082682_gemini-3-flash-preview.jsonl?Expires=1774604833&GoogleAccessId=bucket%40stacyzhang0708-1218-01.iam.gserviceaccount.com&Signature=c4QsHdf89aWeTNX0JzVqT%2BL4VtM2%2Bx7PEpjjNSVU%2FBNjrvJB2kKbpbIWmKvexQvOA4BO9no0KbZxazCvAQbNttK4Ecng7Za4K4FslNLBJ7fucapF7xdE0b%2BSO690ph%2BXWX5erZJixmzV%2BhiGZay0mBdYAxOfVwZb%2Bc5RA%2FQzPqBsdbdKb1%2FzzD4AcwCHu0w0So54JMQt3qcDQVi56NZaOZA4aC9SLZGcVdYakMF75XKn9Z99e2rXgFtEo2P7%2BuRBY8hD%2Bv%2B6dHC9k6fa9nABZEw38wi3Ozfsf7eQ0PmTmrQ2ue6n97zMjbg6rSn2RmKFWc4iWBl48ikkyFmA1GhKsA%3D%3D",
            mime_type="text/plain",
        ),
        "What is in the text?",
    ],
)

print(response.text)


7. 常见错误与排查#

  • 400 INVALID_ARGUMENTmime_type 与实际文件不匹配,或请求体字段拼写错误
  • 400 FAILED_PRECONDITION:媒体地址不可访问,或文件尚未可读
  • 401 UNAUTHENTICATED:API Key 无效、缺失或格式错误
  • 403 PERMISSION_DENIED:当前 Key 无权限调用对应模型
  • 429 RESOURCE_EXHAUSTED:请求过快触发限流,请重试并加退避

建议优先检查:

1. 是否使用了脱敏 Key 占位符并在运行时注入真实环境变量 2. file_data.file_uri 是否可被服务端访问 3. mime_type 是否与媒体格式一致 4. model 是否为可用的 Gemini 模型 ID


Embedding 向量嵌入#

获取给定输入的向量表示,可以轻松被机器学习模型和算法使用。

什么是嵌入向量?#

嵌入向量是浮点数的向量(列表),用于衡量文本字符串的相关性。两个向量之间的距离衡量它们的相关性:小距离表示高相关性,大距离表示低相关性。

嵌入通常用于:

  • 搜索 - 结果按与查询字符串的相关性排序
  • 聚类 - 文本字符串按相似性分组
  • 推荐 - 推荐具有相关文本字符串的项目
  • 异常检测 - 识别相关性较低的异常值
  • 分类 - 文本字符串按其最相似的标签分类

快速开始#

安装 SDK#

bash
pip install openai

基础示例#

请确保将 $hyucloud_API_KEY 替换为您自己的 API Key,获取 API Key

Python#

python
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_hyucloud_API_KEY",
    base_url="https://hk.hyucloud.com/v1"
)

response = client.embeddings.create(
    input="Your text string goes here",
    model="text-embedding-3-large"
)

print(response.data[0].embedding)

curl#

bash
curl https://hk.hyucloud.com/v1/embeddings \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "input": "Your text string goes here",
    "model": "text-embedding-3-large"
  }'

响应包含嵌入向量(浮点数列表)以及一些附加元数据。您可以提取嵌入向量,将其保存在向量数据库中,并用于许多不同的用例。

API 参考#

POST https://hk.hyucloud.com/v1/embeddings

请求参数#

参数类型必填说明
inputstring 或 array要嵌入的输入文本,编码为字符串或 token 数组。要在单个请求中嵌入多个输入,请传递字符串数组。输入不得超过 8192 个 token,不能为空字符串。单个请求中所有输入的 token 总和最多为 300,000 个。
modelstring要使用的模型 ID,如 text-embedding-3-large
dimensionsinteger生成的输出嵌入向量应具有的维度数。仅在 text-embedding-3 及更高版本的模型中支持。
encoding_formatstring返回嵌入向量的格式。可以是 floatbase64。默认值:float

响应示例#

json
{
  "object": "list",
  "data": [
    {
      "object": "embedding",
      "embedding": [0.0023064255, -0.009327292, ..., -0.0028842222],
      "index": 0
    }
  ],
  "model": "text-embedding-3-large",
  "usage": {
    "prompt_tokens": 8,
    "total_tokens": 8
  }
}

响应字段说明#

字段类型说明
embeddingarray嵌入向量,是一个浮点数列表。向量的长度取决于模型。
indexinteger嵌入在嵌入列表中的索引。
objectstring对象类型,始终为 "embedding"。

嵌入模型#

模型默认维度最大输入MTEB 评估性能
text-embedding-3-large3072819264.6%
text-embedding-ada-0021536819261.0%

降低嵌入维度#

使用较大的嵌入向量通常成本更高,消耗更多的计算、内存和存储。您可以通过传入 dimensions 参数来缩短嵌入维度,而不会丢失嵌入的概念表示属性。

例如,text-embedding-3-large 嵌入可以缩短到 256 维,同时仍然优于 1536 维的 text-embedding-ada-002

Python#

python
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_hyucloud_API_KEY",
    base_url="https://hk.hyucloud.com/v1"
)

response = client.embeddings.create(
    model="text-embedding-3-large",
    input="Testing 123",
    dimensions=256  # 指定输出维度
)

print(response.data[0].embedding)

curl#

bash
curl https://hk.hyucloud.com/v1/embeddings \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "input": "Testing 123",
    "model": "text-embedding-3-large",
    "dimensions": 256
  }'

手动归一化维度#

如果需要手动截断并归一化嵌入向量:

python
from openai import OpenAI
import numpy as np

client = OpenAI(
    api_key="YOUR_hyucloud_API_KEY",
    base_url="https://hk.hyucloud.com/v1"
)

def normalize_l2(x):
    x = np.array(x)
    if x.ndim == 1:
        norm = np.linalg.norm(x)
        if norm == 0:
            return x
        return x / norm
    else:
        norm = np.linalg.norm(x, 2, axis=1, keepdims=True)
        return np.where(norm == 0, x, x / norm)

response = client.embeddings.create(
    model="text-embedding-3-large",
    input="Testing 123",
    encoding_format="float"
)

cut_dim = response.data[0].embedding[:256]
norm_dim = normalize_l2(cut_dim)
print(norm_dim)

使用场景#

1. 文本搜索#

使用查询的嵌入向量和每个文档之间的余弦相似度,返回得分最高的文档。

python
from openai import OpenAI
import numpy as np

client = OpenAI(
    api_key="YOUR_hyucloud_API_KEY",
    base_url="https://hk.hyucloud.com/v1"
)

def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

def get_embedding(text, model="text-embedding-3-large"):
    response = client.embeddings.create(input=text, model=model)
    return response.data[0].embedding

def search_documents(documents, query, n=3):
    query_embedding = get_embedding(query)
    
    results = []
    for doc in documents:
        doc_embedding = get_embedding(doc)
        similarity = cosine_similarity(query_embedding, doc_embedding)
        results.append((doc, similarity))
    
    results.sort(key=lambda x: x[1], reverse=True)
    return results[:n]

# 示例
documents = ["Python 是一种编程语言", "机器学习很有趣", "今天天气很好"]
results = search_documents(documents, "编程")
print(results)

2. 基于嵌入的问答#

将相关文档放入模型的上下文窗口中进行问答。

python
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_hyucloud_API_KEY",
    base_url="https://hk.hyucloud.com/v1"
)

# 假设已通过嵌入搜索找到相关文章
relevant_article = "2022年冬季奥运会冰壶金牌由..."

query = f"""使用以下文章回答问题。如果找不到答案,请写"我不知道。"

文章:
\"\"\"
{relevant_article}
\"\"\"

问题:哪些运动员在 2022 年冬季奥运会上获得了冰壶金牌?
"""

response = client.chat.completions.create(
    messages=[
        {'role': 'system', 'content': '你回答有关 2022 年冬季奥运会的问题。'},
        {'role': 'user', 'content': query},
    ],
    model="gpt-4o",
    temperature=0,
)

print(response.choices[0].message.content)

3. 聚类分析#

使用嵌入向量对文本进行聚类分组。

python
import numpy as np
from sklearn.cluster import KMeans

# 假设 embeddings 是已获取的嵌入向量列表
embeddings = [...]  # 从 API 获取的嵌入向量

matrix = np.vstack(embeddings)
n_clusters = 4

kmeans = KMeans(
    n_clusters=n_clusters,
    init='k-means++',
    random_state=42
)
kmeans.fit(matrix)

# 每个文本的聚类标签
labels = kmeans.labels_

4. 推荐系统#

基于嵌入向量的相似度进行推荐。

python
from openai import OpenAI
import numpy as np

client = OpenAI(
    api_key="YOUR_hyucloud_API_KEY",
    base_url="https://hk.hyucloud.com/v1"
)

def get_embedding(text, model="text-embedding-3-large"):
    response = client.embeddings.create(input=text, model=model)
    return response.data[0].embedding

def recommend_similar(items, source_index, n=3):
    """返回与源项目最相似的 n 个项目"""
    embeddings = [get_embedding(item) for item in items]
    source_embedding = embeddings[source_index]
    
    similarities = []
    for i, emb in enumerate(embeddings):
        if i != source_index:
            sim = np.dot(source_embedding, emb)
            similarities.append((i, items[i], sim))
    
    similarities.sort(key=lambda x: x[2], reverse=True)
    return similarities[:n]

5. 零样本分类#

无需训练数据,使用嵌入进行分类。

python
from openai import OpenAI
import numpy as np

client = OpenAI(
    api_key="YOUR_hyucloud_API_KEY",
    base_url="https://hk.hyucloud.com/v1"
)

def get_embedding(text, model="text-embedding-3-large"):
    response = client.embeddings.create(input=text, model=model)
    return response.data[0].embedding

def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

def classify_text(text, labels):
    text_embedding = get_embedding(text)
    label_embeddings = [get_embedding(label) for label in labels]
    
    similarities = [cosine_similarity(text_embedding, le) for le in label_embeddings]
    best_index = np.argmax(similarities)
    return labels[best_index]

# 示例
labels = ["positive", "negative", "neutral"]
result = classify_text("这个产品太棒了!", labels)
print(result)  # 输出: positive

常见问题#

如何计算字符串的 token 数量?#

使用 OpenAI 的分词器 tiktoken

python
import tiktoken

def num_tokens_from_string(string: str, encoding_name: str = "cl100k_base") -> int:
    """返回文本字符串中的 token 数量。"""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

print(num_tokens_from_string("tiktoken is great!"))  # 输出: 4

对于第三代嵌入模型(如 text-embedding-3-large),使用 cl100k_base 编码。

如何快速检索 K 个最近的嵌入向量?#

为了快速搜索大量向量,建议您使用向量数据库,如:

  • AI 数据库(参考文档:AI数据库)
  • pgvector (参考文档:PostgreSQL)

应该使用哪个距离函数?#

推荐使用余弦相似度。OpenAI 嵌入已归一化为长度 1,这意味着:

  • 余弦相似度可以仅使用点积计算,速度更快
  • 余弦相似度和欧几里得距离将产生相同的排名

Gemini-Embedding-2 向量嵌入#

Gemini-Embedding-2 是 Google 推出的多模态嵌入模型,支持文本、图片、视频、音频和文档等多种内容类型的向量嵌入。

什么是 Gemini-Embedding-2#

Gemini-Embedding-2 是一个多模态嵌入模型,可以将文本、图片、视频、音频和 PDF 文档转换为高维向量表示。这些嵌入向量可用于:

  • 多模态搜索 - 支持跨文本、图片、视频、音频的语义搜索
  • 内容推荐 - 基于多模态内容的相似度推荐
  • 聚类分析 - 对混合类型的内容进行分组
  • 异常检测 - 识别不相关或异常的内容

快速开始#

请求示例#

bash
curl --location --globoff 'https://hk.hyucloud.com/v1beta/models/gemini-embedding-2:embedContent' \
--header 'Authorization: Bearer YOUR_hyucloud_API_KEY' \
--header 'Content-Type: application/json' \
-d '{
  "content": {
    "parts": [
      {
        "text": "Whats this"
      },
      {
        "text": "Whats this like"
      },
      {
        "file_data": {
          "mime_type": "video/mp4",
          "file_uri": "https://example.com/video.mp4"
        }
      },
      {
        "file_data": {
          "mime_type": "image/png",
          "file_uri": "https://example.com/image.png"
        }
      },
      {
        "file_data": {
          "mime_type": "audio/wav",
          "file_uri": "https://example.com/audio.wav"
        }
      },
      {
        "file_data": {
          "mime_type": "application/pdf",
          "file_uri": "https://example.com/document.pdf"
        }
      }
    ]
  }
}'

响应示例#

json
{
  "embedding": {
    "values": [
      0.0015015427,
      0.014678672,
      -0.018105509,
      -0.013457718,
      0.015227248,
      0.003112343
    ]
  },
  "usageMetadata": {
    "promptTokenCount": 2517,
    "totalTokenCount": 2517,
    "promptTokensDetails": [
      {
        "modality": "VIDEO",
        "tokenCount": 330
      },
      {
        "modality": "TEXT",
        "tokenCount": 5
      },
      {
        "modality": "DOCUMENT",
        "tokenCount": 1548
      },
      {
        "modality": "IMAGE",
        "tokenCount": 258
      },
      {
        "modality": "AUDIO",
        "tokenCount": 376
      }
    ]
  }
}

API 参考#

POST https://hk.hyucloud.com/v1beta/models/gemini-embedding-2:embedContent

请求头#

参数说明
AuthorizationBearer YOUR_hyucloud_API_KEY
Content-Typeapplication/json

请求体参数#

参数类型必填说明
contentobject包含要嵌入的内容
content.partsarray内容部件数组,支持多种模态
outputDimensionalityinteger输出嵌入向量的维度,可选值范围 128 至 3072,默认为 3072

输出维度配置#

Gemini-Embedding-2 支持自定义输出维度,可根据场景需求调整:

模型默认维度(最高)支持的维度(范围)建议的较低维度
gemini-embedding-23072128 至 3072128、768 或 1536

使用建议

  • 使用较低维度(如 768 或 1536)可减少存储空间和计算成本
  • 较低维度可能会略微降低语义搜索的精度,但在大多数场景下差异不明显
  • 如需最高精度,请使用默认的 3072 维度

content.parts 部件类型#

文本部件#

json
{
  "text": "要嵌入的文本内容"
}

文件部件#

json
{
  "file_data": {
    "mime_type": "video/mp4",
    "file_uri": "https://example.com/video.mp4"
  }
}

支持的 MIME 类型:

类型MIME Type
视频video/mp4, video/mpeg, video/mov, video/avi 等
图片image/png, image/jpeg, image/webp, image/gif 等
音频audio/wav, audio/mp3, audio/mpeg, audio/ogg 等
文档application/pdf

响应字段说明#

字段类型说明
embedding.valuesarray嵌入向量,浮点数列表
usageMetadata.promptTokenCountinteger输入内容的总 token 数
usageMetadata.totalTokenCountinteger总 token 数
usageMetadata.promptTokensDetailsarray各模态的 token 使用详情
promptTokensDetails.modalitystring模态类型:TEXT、IMAGE、VIDEO、AUDIO、DOCUMENT
promptTokensDetails.tokenCountinteger该模态的 token 数量

使用场景#

1. 多模态语义搜索#

结合文本、图片、视频等多种内容进行语义搜索:

bash
curl --location --globoff 'https://hk.hyucloud.com/v1beta/models/gemini-embedding-2:embedContent' \
--header 'Authorization: Bearer YOUR_hyucloud_API_KEY' \
--header 'Content-Type: application/json' \
-d '{
  "content": {
    "parts": [
      {
        "text": "查找关于机器学习的视频教程"
      },
      {
        "file_data": {
          "mime_type": "image/png",
          "file_uri": "https://example.com/ml-diagram.png"
        }
      }
    ]
  }
}'

2. 视频内容分析#

提取视频内容的嵌入向量用于分类或推荐:

bash
curl --location --globoff 'https://hk.hyucloud.com/v1beta/models/gemini-embedding-2:embedContent' \
--header 'Authorization: Bearer YOUR_hyucloud_API_KEY' \
--header 'Content-Type: application/json' \
-d '{
  "content": {
    "parts": [
      {
        "file_data": {
          "mime_type": "video/mp4",
          "file_uri": "https://example.com/tutorial.mp4"
        }
      }
    ]
  }
}'

3. 文档理解#

将 PDF 文档转换为嵌入向量:

bash
curl --location --globoff 'https://hk.hyucloud.com/v1beta/models/gemini-embedding-2:embedContent' \
--header 'Authorization: Bearer YOUR_hyucloud_API_KEY' \
--header 'Content-Type: application/json' \
-d '{
  "content": {
    "parts": [
      {
        "text": "总结这份报告的关键点"
      },
      {
        "file_data": {
          "mime_type": "application/pdf",
          "file_uri": "https://example.com/report.pdf"
        }
      }
    ]
  }
}'

4. 音频内容嵌入#

处理音频文件获取其语义表示:

bash
curl --location --globoff 'https://hk.hyucloud.com/v1beta/models/gemini-embedding-2:embedContent' \
--header 'Authorization: Bearer YOUR_hyucloud_API_KEY' \
--header 'Content-Type: application/json' \
-d '{
  "content": {
    "parts": [
      {
        "file_data": {
          "mime_type": "audio/wav",
          "file_uri": "https://example.com/speech.wav"
        }
      }
    ]
  }
}'

5. 指定输出维度#

使用 outputDimensionality 参数指定输出向量的维度(如 768):

bash
curl --location --globoff 'https://hk.hyucloud.com/v1beta/models/gemini-embedding-2:embedContent' \
--header 'Authorization: Bearer YOUR_hyucloud_API_KEY' \
--header 'Content-Type: application/json' \
-d '{
  "outputDimensionality": 768,
  "content": {
    "parts": [
      {
        "text": "Whats this"
      },
      {
        "file_data": {
          "mime_type": "video/mp4",
          "file_uri": "gs://cloud-samples-data/generative-ai/video/pixel8.mp4"
        }
      }
    ]
  }
}'

技术规范#

图片#

限制项规格
每个提示的图片数量上限6
内嵌数据或通过控制台直接上传的每个文件的文件大小上限无限制
Google Cloud Storage 中每个文件的文件大小上限无限制
每个提示的输出图片数量上限不适用
支持的 MIME 类型image/pngimage/jpegimage/webpimage/bmpimage/heicimage/heifimage/avif

文档#

限制项规格
每个提示的文件数量上限1
每个文件的页数上限6
每个文件的文件大小上限不适用
支持的 MIME 类型application/pdf

视频#

限制项规格
视频时长上限(包含音频)80 秒
视频时长上限(不含音频)120 秒
每个提示的视频数量上限1
支持的 MIME 类型video/mpegvideo/mp4

音频#

限制项规格
每个提示的音频长度上限180 秒
每个提示的音频文件数量上限1
支持的 MIME 类型audio/mp3audio/wav

注意事项#

1. 文件 URI:文件需要通过可公开访问的 URL 提供,或者使用 Gemini 的文件上传 API 获取 URI 2. 文件大小限制:不同模态的文件有不同的大小限制,请参考上方技术规范 3. Token 计算:多模态内容的 token 计算方式不同,具体使用量请参考响应中的 usageMetadata 4. 嵌入维度:Gemini-Embedding-2 支持通过 outputDimensionality 参数自定义输出维度(128 至 3072),默认为 3072。使用较低维度可减少存储成本,具体请参考上方"输出维度配置"章节

与标准 Embeddings API 的区别#

特性Gemini-Embedding-2标准 Embeddings API
支持的模态文本、图片、视频、音频、PDF仅文本
API 端点/v1beta/models/gemini-embedding-2:embedContent/v1/embeddings
请求格式Gemini 原生格式OpenAI 兼容格式
多模态混合支持单请求多模态不支持

相关文档#


Rerank 文本排序#

Rerank(重排序)能提高检索的准确性和相关性,本文介绍Rerank接口的使用。

接口地址#

https://hk.hyucloud.com/v1/rerank

请求参数#

参数类型必填说明
modelstring模型名称。此处为:bge-reranker-v2-m3
querystring查询的内容。
documentsarray[string]待排序的候选文档列表。每个元素是一个字符串。
top_nint返回排序后的top_n个文档。默认返回全部文档。如果top_n值大于文档总数,将返回全部文档。

注意事项#

1. 文本长度限制:一个 {query+ document} 的最大长度限制为 8192

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

bash
  curl -X POST https://hk.hyucloud.com/v1/rerank \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "bge-reranker-v2-m3",
    "query": "what is panda?",
    "documents": [
      "hi",
      "The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China."
    ],
    "top_n": 2
  }'

响应参数#

参数类型说明
resultsarray排序结果,按 relevance_score 从高到低排列。
documentobject文档原文对象。
document.textstring文档原文
indexint表示对应于输入 documents 列表中的原始索引位置。
relevance_scoredouble文档与查询的语义相关性得分,取值范围为 0.0 到 1.0。分数越高,相关性越强。

响应示例#

json
{
	"model": "BAAI/bge-reranker-v2-m3",
	"usage": {
		"total_tokens": 53
	},
	"results": [{
		"index": 1,
		"document": {
			"text": "The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.",
			"multi_modal": null
		},
		"relevance_score": 0.9948425889015198
	}, {
		"index": 0,
		"document": {
			"text": "hi",
			"multi_modal": null
		},
		"relevance_score": 0.0002801174996420741
	}]
}

DeepSeek-OCR 模型#

DeepSeek-OCR 是一款先进的 OCR 模型,能够识别图片中的文字并将其转换为指定的文本格式。

请求示例#

您可以通过向 https://hk.hyucloud.com/v1/chat/completions 端点发送请求来使用 DeepSeek-OCR 模型。

说明:

DeepSeek-OCR 支持 max_tokens 参数最大设置为 8192。当前该模型免费开放使用,无需付费。

注意: 该模型输入仅支持 base64 编码的图片(即 "data:image/..." 格式),不支持直接通过 image_url 远程图片地址。如果你的图片在远程地址,可以通过如下命令一键获取 base64 字符串:

```bash

curl -s https://hk.hyucloud.com/hyucloud-maxcot.jpg | base64 | tr -d '\n'

```

非流式请求#

cURL#

bash
curl https://hk.hyucloud.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $YOUR_API_KEY" \
  -d '{
    "model": "deepseek-ai/DeepSeek-OCR",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "convert to markdown"
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "data:image/jpeg;base64,'$(curl -s https://hk.hyucloud.com/hyucloud-maxcot.jpg | base64 | tr -d '\n')'"
            }
          }
        ]
      }
    ]
  }'

Python#

python
import base64
import os
from openai import OpenAI

# Function to encode the image
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

# Path to your image
image_path = os.path.expanduser("hyucloud.png")

# Getting the base64 string
base64_image = encode_image(image_path)

client = OpenAI(
    api_key=os.getenv("hyucloud_API_KEY", "<YOUR_hyucloud_API_KEY>"),
    base_url="https://hk.hyucloud.com/v1/",
)

response = client.chat.completions.create(
  model="deepseek-ai/DeepSeek-OCR",
  messages=[
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "convert to markdown"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}"
          }
        }
      ]
    }
  ]
)

print(response.choices[0].message.content)

流式请求#

通过将 stream 参数设置为 true,您可以实现流式响应。

cURL#

bash
curl https://hk.hyucloud.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $YOUR_API_KEY" \
  -d '{
    "model": "deepseek-ai/DeepSeek-OCR",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "convert to markdown"
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "data:image/jpeg;base64,'$(curl -s https://hk.hyucloud.com/hyucloud-maxcot.jpg | base64 | tr -d '\n')'"
            }
          }
        ]
      }
    ],
    "stream": true
  }'

Python#

python
import base64
import os
from openai import OpenAI

# Function to encode the image
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

# Path to your image
image_path = os.path.expanduser("hyucloud.png")

# Getting the base64 string
base64_image = encode_image(image_path)

client = OpenAI(
    api_key=os.getenv("hyucloud_API_KEY", "<YOUR_hyucloud_API_KEY>"),
    base_url="https://hk.hyucloud.com/v1/",
)

stream = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-OCR",
    messages=[
        {
          "role": "user",
          "content": [
            {
              "type": "text",
              "text": "convert to markdown"
            },
            {
              "type": "image_url",
              "image_url": {
                "url": f"data:image/jpeg;base64,{base64_image}"
              }
            }
          ]
        }
    ],
    stream=True,
)

for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="")

DeepSeek 模型开启关闭思考说明#

概念介绍#

思考参数(thinking)用于控制模型在响应前是否显示思考过程。该功能适用于需要观察模型推理过程的场景。

DeepSeek V3.1 模型开启思考说明#

参数说明#

thinking 参数是一个结构,用于配置模型的思考过程。

对象结构:

字段类型必填描述
thinking.typeString用于控制是否显示思考过程。

type 字段可选值:

  • enabled: 强制开启思考过程。
  • disabled: 强制关闭思考过程。

json示例

json
{
    "model": "deepseek-ai/DeepSeek-V3.1-Terminus",
    ...
    "thinking": {
        "type": "enabled"
    }
}

模型支持情况见下表

  • deepseek-ai/DeepSeek-V3.1
  • deepseek-ai/DeepSeek-V3.1-Terminus

API 接口示例#

python
import json
import requests

# 配置API密钥
api_key = "******"  # 替换为你的 APIKEY
url = "https://hk.hyucloud.com/v1/chat/completions"

headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
data = {
    "model": "deepseek-ai/DeepSeek-V3.1-Terminus",  # 指定模型
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "9.9和9.11哪个大",  # 用户提问
                }
            ],
        }
    ],
    "thinking": {"type": "enabled"},  # 开启思考功能,可选 enabled  disabled  auto
}

try:
    response = requests.post(url, headers=headers, json=data)
    response.raise_for_status() 

    print("请求成功!")
    print(json.dumps(response.json(), indent=2, ensure_ascii=False))

except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

DeepSeek V3.2 模型开启思考说明#

参数说明#

chat_template_kwargs 参数是一个结构,用于配置模型的思考过程。

对象结构:

字段类型必填描述
chat_template_kwargs.thinkingBoolean用于控制是否显示思考过程。

chat_template_kwargs 字段可选值:

  • true: 强制开启思考过程。
  • false: 强制关闭思考过程。

json示例

json
{
    "model": "deepseek-ai/DeepSeek-V3.2",
    ...
    "chat_template_kwargs": {
        "thinking": true
    }
}

模型支持情况见下表

  • deepseek-ai/DeepSeek-V3.2

API 接口示例#

python
import json
import requests

# 配置API密钥
api_key = "******"  # 替换为你的 APIKEY
url = "https://hk.hyucloud.com/v1/chat/completions"

headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
data = {
    "model": "deepseek-ai/DeepSeek-V3.2",  # 指定模型
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "9.9和9.11哪个大",  # 用户提问
                }
            ],
        }
    ],
    "chat_template_kwargs": {
        "thinking": true
    }
}

try:
    response = requests.post(url, headers=headers, json=data)
    response.raise_for_status()

    print("请求成功!")
    print(json.dumps(response.json(), indent=2, ensure_ascii=False))

except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

Doubao豆包模型思考功能参数说明#

概念介绍#

思考功能(thinking)是豆包模型的一个特性参数,用于控制模型在响应前是否显示思考过程。该功能适用于需要观察模型推理过程的场景。

参数说明#

thinking 参数是一个结构,用于配置模型的思考过程。

对象结构:

字段类型必填描述
thinking.typeString用于控制是否显示思考过程。

type 字段可选值:

  • enabled: 强制开启思考过程。
  • disabled: 强制关闭思考过程。
  • auto: 由模型自动决定是否显示思考过程。

json示例

json
{
    "model": "ByteDance/doubao-seed-1.6",
    ...
    "thinking": {
        "type": "enabled"
    }
}

模型支持情况见下表

  • ByteDance/doubao-seed-1.6
  • ByteDance/doubao-1.5-thinking-vision-pro

API 接口示例#

python
import json
import requests

# 配置API密钥
api_key = "******"  # 替换为你的 APIKEY
url = "https://hk.hyucloud.com/v1/chat/completions"

headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
data = {
    "model": "ByteDance/doubao-seed-1.6",  # 指定模型
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "9.9和9.11哪个大",  # 用户提问
                }
            ],
        }
    ],
    "thinking": {"type": "enabled"},  # 开启思考功能,可选 enabled  disabled  auto
}

try:
    response = requests.post(url, headers=headers, json=data)
    response.raise_for_status() 

    print("请求成功!")
    print(json.dumps(response.json(), indent=2, ensure_ascii=False))

except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

注意事项#

1. 思考功能会增加少量响应时间 2. 对于简单问题建议使用disabled或auto模式 3. 复杂推理问题使用enabled模式可获得更好的可解释性


Qwen-MT翻译模型参数说明#

概念介绍#

Qwen-MT 是通义千问系列的翻译专用模型,针对多语言翻译场景进行了优化。该模型支持多种语言之间的双向翻译,在保持翻译质量的同时提供高效的推理性能。

参数说明#

基础参数#

字段类型必填描述
modelString模型名称,如 qwen-mt-flash
messagesArray对话消息列表
translation_optionsObject翻译配置选项

translation_options 参数#

字段类型必填描述
source_langString源语言,如 "Chinese""auto"
target_langString目标语言,如 "English""Japanese"

支持的语言#

语言英文名代码
自动检测Autoauto
英语Englishen
简体中文Chinesezh
繁体中文Traditional Chinesezh_tw
俄语Russianru
日语Japaneseja
韩语Koreanko
西班牙语Spanishes
法语Frenchfr
葡萄牙语Portuguesept
德语Germande
意大利语Italianit
泰语Thaith
越南语Vietnamesevi
印度尼西亚语Indonesianid
马来语Malayms
阿拉伯语Arabicar
印地语Hindihi
希伯来语Hebrewhe
缅甸语Burmesemy
泰米尔语Tamilta
乌尔都语Urduur
孟加拉语Bengalibn
波兰语Polishpl
荷兰语Dutchnl
罗马尼亚语Romanianro
土耳其语Turkishtr
高棉语Khmerkm
老挝语Laolo
粤语Cantoneseyue
捷克语Czechcs
希腊语Greekel
瑞典语Swedishsv
匈牙利语Hungarianhu
丹麦语Danishda
芬兰语Finnishfi
乌克兰语Ukrainianuk
保加利亚语Bulgarianbg
塞尔维亚语Serbiansr
泰卢固语Telugute
南非荷兰语Afrikaansaf
亚美尼亚语Armenianhy
阿萨姆语Assameseas
阿斯图里亚斯语Asturianast
巴斯克语Basqueeu
白俄罗斯语Belarusianbe
波斯尼亚语Bosnianbs
加泰罗尼亚语Catalanca
宿务语Cebuanoceb
克罗地亚语Croatianhr
埃及阿拉伯语Egyptian Arabicarz
爱沙尼亚语Estonianet
加利西亚语Galiciangl
格鲁吉亚语Georgianka
古吉拉特语Gujaratigu
冰岛语Icelandicis
爪哇语Javanesejv
卡纳达语Kannadakn
哈萨克语Kazakhkk
拉脱维亚语Latvianlv
立陶宛语Lithuanianlt
卢森堡语Luxembourgishlb
马其顿语Macedonianmk
马加希语Maithilimai
马耳他语Maltesemt
马拉地语Marathimr
美索不达米亚阿拉伯语Mesopotamian Arabicacm
摩洛哥阿拉伯语Moroccan Arabicary
内志阿拉伯语Najdi Arabicars
尼泊尔语Nepaline
北阿塞拜疆语North Azerbaijaniaz
北黎凡特阿拉伯语North Levantine Arabicapc
北乌兹别克语Northern Uzbekuz
书面语挪威语Norwegian Bokmålnb
新挪威语Norwegian Nynorsknn
奥克语Occitanoc
奥里亚语Odiaor
邦阿西楠语Pangasinanpag
西西里语Sicilianscn
信德语Sindhisd
僧伽罗语Sinhalasi
斯洛伐克语Slovaksk
斯洛文尼亚语Sloveniansl
南黎凡特阿拉伯语South Levantine Arabicajp
斯瓦希里语Swahilisw
他加禄语Tagalogtl
塔伊兹-亚丁阿拉伯语Ta'izzi-Adeni Arabicacq
托斯克阿尔巴尼亚语Tosk Albaniansq
突尼斯阿拉伯语Tunisian Arabicaeb
威尼斯语Venetianvec
瓦莱语Waraywar
威尔士语Welshcy
西波斯语Western Persianfa

注意source_langtarget_lang 可以使用语言代码(如 enzh)或语言英文名(如 EnglishChinese)。

API 接口示例#

cURL 示例#

bash
curl -s -X POST https://hk.hyucloud.com/v1/chat/completions \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "model": "qwen-mt-flash",
  "messages": [
    {
      "role": "user",
      "content": "看完这个视频我没有笑"
    }
  ],
  "translation_options": {
    "source_lang": "auto",
    "target_lang": "English"
  }
}'

响应示例#

json
{
  "choices": [
    {
      "message": {
        "content": "I didn't laugh after watching this video.",
        "role": "assistant"
      },
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null
    }
  ],
  "object": "chat.completion",
  "usage": {
    "prompt_tokens": 32,
    "completion_tokens": 9,
    "total_tokens": 41
  },
  "created": 1782376798,
  "system_fingerprint": null,
  "model": "qwen-mt-flash",
  "id": "chatcmpl-1f33275d-d0bf-999d-bfa8-0f6029ff5ae4"
}

注意事项#

1. 语言自动检测source_lang 设置为 "auto" 时,模型会自动检测源语言 2. 语言名称格式source_langtarget_lang 可以使用语言代码(如 "en""zh")或语言英文名(如 "English""Chinese") 3. translation_options:翻译参数需要放在 translation_options 对象中 4. 长文本处理:建议将长文本分段翻译,以获得更好的翻译质量 5. 专业术语:对于特定领域的专业术语,建议在提示中提供上下文说明

模型支持情况#

  • qwen-mt-flash

EasyLink Fin-Chat 金融投研知识问答#

概述#

Fin-Chat 是一个专注于金融投研领域的知识问答模型,基于海量金融文档构建。支持公司财报分析、行业研究、股价趋势等专业问题,响应内容附带原始文档引用(文件名、页码、访问链接),方便溯源核查。

接口采用 OpenAI Chat Completions 兼容格式,支持流式和非流式两种响应方式,可直接使用 OpenAI SDK 接入。

更多细节请参考 EasyLink 官方文档

请求地址https://hk.hyucloud.com/v1/chat/completions

支持模型#

  • easydoc-fin-chat

请求参数#

字段类型是否必需说明
modelstring模型名称,固定为 easydoc-fin-chat
messagesarray对话消息数组,支持 user / assistant / system
streamboolean是否启用流式返回,默认 false
temperaturefloat温度参数,范围 0-2,默认 1
max_tokensinteger最大生成 token 数

响应字段#

非流式响应#

字段类型说明
choices[0].message.contentstring生成的回答文本
choices[0].message.annotationsarray文档引用列表,见下方说明
choices[0].finish_reasonstring完成原因:stop / length
usage.prompt_tokensinteger输入 token 数
usage.completion_tokensinteger输出 token 数
usage.total_tokensinteger总 token 数

流式响应(SSE)#

每条消息以 data: 开头,流结束时发送 data: [DONE]delta 对象字段与非流式 message 一致。

annotations 文档引用#

字段类型说明
file_namestring来源文档文件名
urlstring文档访问链接(带签名,有时效性)
page_numberinteger引用页码

示例#

Curl 示例#

非流式:

bash
curl -X POST https://hk.hyucloud.com/v1/chat/completions \
  -H "Authorization: Bearer {api_key}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "easydoc-fin-chat",
    "messages": [
      {"role": "user", "content": "比亚迪2024年Q3营收同比增长率?"}
    ]
  }'

流式:

bash
curl -X POST https://hk.hyucloud.com/v1/chat/completions \
  -H "Authorization: Bearer {api_key}" \
  -H "Content-Type: application/json" \
  --no-buffer \
  -d '{
    "model": "easydoc-fin-chat",
    "messages": [
      {"role": "user", "content": "比亚迪2024年Q3营收同比增长率?"}
    ],
    "stream": true
  }'

Python 示例#

python
from openai import OpenAI

client = OpenAI(
    api_key="******",  # 替换为你的 API Key
    base_url="https://hk.hyucloud.com/v1",
)

# 流式调用
response = client.chat.completions.create(
    model="easydoc-fin-chat",
    messages=[
        {"role": "user", "content": "比亚迪2024年Q3营收同比增长率?"}
    ],
    stream=True,
)

for chunk in response:
    delta = chunk.choices[0].delta

    # 处理文本内容
    if delta.content:
        print(delta.content, end="", flush=True)

    # 处理文档引用(自定义扩展字段)
    if hasattr(delta, "annotations") and delta.annotations:
        for annotation in delta.annotations:
            print(f"\n引用: {annotation['file_name']} 第 {annotation['page_number']} 页")
            print(f"链接: {annotation['url']}")

响应示例#

非流式响应:

json
{
  "id": "resp_xxxxxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": 1700000000,
  "model": "easydoc-fin-chat",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "根据比亚迪2024年第三季度财报,营收为2011.25亿元,同比增长24.04%。",
        "annotations": [
          {
            "file_name": "比亚迪:2024年三季度报告.pdf",
            "url": "https://oss.easylink-ai.com/easylink-investplatform/file_md5/xxx.pdf?signature=...",
            "page_number": 2
          }
        ]
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 128,
    "completion_tokens": 64,
    "total_tokens": 192
  }
}

使用说明#

1. OpenAI SDK 兼容:将 base_url 设为 https://hk.hyucloud.com/v1api_key 设为你的 環宇互聯 API Key,即可直接使用 OpenAI SDK 调用。 2. 文档引用:响应中的 annotations 是扩展字段,标准 OpenAI SDK 解析时需通过 hasattr 判断是否存在后再读取。 3. 引用链接时效annotations[].url 带签名参数,有有效期限制,请及时访问,不要长期存储。 4. 流式建议:使用 cURL 测试流式响应时加 --no-buffer 参数,否则内容可能延迟输出。 5. 计费:按 token 计费,用量通过 usage.prompt_tokensusage.completion_tokens 返回。


EasyLink EasyDoc-Parse 智能文档解析#

概述#

EasyDoc-Parse 是一个智能文档解析模型。上传文档(PDF/图片)后,模型会自动识别文档结构,返回包含标题、文本、表格、图形等节点信息的结构化 JSON,以及 Markdown 格式内容,适用于文档数字化、内容提取、RAG 知识库构建等场景。

本接口为异步模式:提交任务后获得任务 ID,通过轮询接口查询结果。解析结果以文件形式存储,通过 output.urls[0] 返回下载链接,有效期 7 天。

更多细节请参考 EasyLink 官方文档

请求地址https://hk.hyucloud.com/v1/tasks/submit

支持模型#

  • easydoc-parse-premium

请求参数#

提交任务#

字段类型是否必需说明
modelstring模型名称,固定为 easydoc-parse-premium
input.img_urlstring待解析文件的 URL,支持 PDF / JPG / PNG / BMP / TIFF

查询任务状态#

字段类型是否必需说明
task_idstring提交任务时返回的任务 ID

响应字段#

提交响应#

字段类型说明
output.task_idstring任务 ID,用于后续查询
request_idstring请求 ID

状态查询响应#

字段类型说明
output.task_statusstring任务状态:Pending / Running / Success / Failure
output.urlsarray解析结果文件的下载链接列表(成功时返回,有效期 7 天)
output.error_messagestring错误信息(失败时返回)
usage.page_countinteger文件页数,用于计费

output.urls[0] 下载后得到的 JSON 结构:

字段类型说明
file_namestring文件名
nodesarray文档节点数组,见下方说明
markdownstringMarkdown 格式的文档内容

nodes 每个元素的结构:

字段类型说明
idinteger节点 ID
typestring节点类型:Title(标题)/ Text(文本)/ Table(表格)/ Figure(图形)
textstring节点文本内容
parent_idinteger父节点 ID,-1 表示根节点
composing_blocksarray坐标位置信息,包含 page_numbercoordinates [x1,y1,x2,y2]layout_widthlayout_height
path_infoobject节点路径信息

示例#

Curl 示例#

提交任务:

bash
curl -X POST https://hk.hyucloud.com/v1/tasks/submit \
  -H "Authorization: Bearer {api_key}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "easydoc-parse-premium",
    "input": {
      "img_url": "https://example.com/document.pdf"
    }
  }'

查询任务状态:

bash
curl "https://hk.hyucloud.com/v1/tasks/status?task_id={task_id}" \
  -H "Authorization: Bearer {api_key}"

下载解析结果:

bash
curl "{output.urls[0]}" -o result.json

Python 示例#

python
import json
import time
import requests

api_key = "******"  # 替换为你的 API Key
base_url = "https://hk.hyucloud.com/v1"

headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json",
}

# 提交任务
submit_data = {
    "model": "easydoc-parse-premium",
    "input": {
        "img_url": "https://example.com/document.pdf",
    },
}

resp = requests.post(f"{base_url}/tasks/submit", headers=headers, json=submit_data)
task_id = resp.json()["output"]["task_id"]
print(f"task_id: {task_id}")

# 轮询查询结果
while True:
    result = requests.get(
        f"{base_url}/tasks/status",
        headers=headers,
        params={"task_id": task_id},
    ).json()

    status = result["output"]["task_status"]
    print(f"status: {status}")

    if status == "Success":
        download_url = result["output"]["urls"][0]
        print(f"结果下载链接: {download_url}")
        parsed = requests.get(download_url).json()
        print(f"文件名: {parsed['file_name']}")
        print(f"节点数量: {len(parsed['nodes'])}")
        print(f"总页数: {result['usage']['page_count']}")
        break
    elif status == "Failure":
        print(f"失败: {result['output'].get('error_message')}")
        break

    time.sleep(10)

响应示例#

提交成功:

json
{
  "output": {
    "task_id": "parse_xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
  },
  "request_id": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
}

任务完成:

json
{
  "output": {
    "task_id": "parse_xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "task_status": "Success",
    "urls": [
      "https://text-store.cn-wlcb.ufileos.com/easylink/parse/parse_xxxxxxxx.json?Expires=xxxxxxxxxx&Signature=xxx&環宇互聯PublicKey=xxx"
    ],
    "submit_time": 1700000000,
    "finish_time": 1700000060
  },
  "usage": {
    "duration": 60,
    "page_count": 5
  },
  "request_id": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
}

下载链接返回的 JSON 结构示例:

json
{
  "file_name": "document.pdf",
  "nodes": [
    {
      "id": 1,
      "type": "Title",
      "text": "文档标题",
      "parent_id": -1,
      "composing_blocks": [
        {
          "page_number": 1,
          "coordinates": [582, 271, 1121, 328],
          "system": "PixelSpace",
          "layout_width": 1708,
          "layout_height": 2212
        }
      ],
      "path_info": {
        "path_context": "",
        "path": []
      }
    }
  ],
  "markdown": "# 文档标题\n\n正文内容..."
}

使用说明#

1. 文件格式:支持 PDF、JPG、PNG、BMP、TIFF,通过 input.img_url 传入文件的公网访问地址。 2. 结果获取:任务成功后,output.urls[0] 是解析结果 JSON 文件的下载链接,需要额外发起一次请求下载才能获取结构化内容。 3. 链接有效期:下载链接有效期为 7 天,请及时下载保存。 4. 计费:按文件页数计费,页数通过 usage.page_count 返回。


EasyLink EMR-Mask 病历脱敏#

概述#

EMR-Mask 是一个专业的病历文档智能脱敏模型。上传医疗文档(PDF/图片)后,模型会自动识别并遮蔽患者姓名、身份证号、联系电话等敏感信息,返回脱敏后的文件下载链接,保障医疗数据在共享、归档、训练等场景下的安全与合规性。

本接口为异步模式:提交任务后获得任务 ID,通过轮询接口查询结果。

更多细节请参考 EasyLink 官方文档

请求地址https://hk.hyucloud.com/v1/tasks/submit

支持模型#

  • easydoc-emr-mask

请求参数#

提交任务#

字段类型是否必需说明
modelstring模型名称,固定为 easydoc-emr-mask
input.img_urlstring待脱敏文件的 URL,支持 PDF / JPG / PNG / TIFF
input.promptstring脱敏规则,JSON Schema 格式字符串,指定需要脱敏的字段

input.prompt 示例(指定需要脱敏的字段):

json
{
  "type": "object",
  "properties": {
    "患者姓名": {"type": "string"},
    "患者性别": {"type": "string"},
    "入院时间": {"type": "string"},
    "出院时间": {"type": "string"},
    "年龄": {"type": "string"},
    "住院时长": {"type": "string"}
  }
}

查询任务状态#

字段类型是否必需说明
task_idstring提交任务时返回的任务 ID

响应字段#

提交响应#

字段类型说明
output.task_idstring任务 ID,用于后续查询
request_idstring请求 ID

状态查询响应#

字段类型说明
output.task_statusstring任务状态:Pending / Running / Success / Failure
output.urlsarray脱敏后的文件下载链接列表(1小时有效)
output.error_messagestring错误信息(失败时返回)
usage.page_countinteger文件页数,用于计费

示例#

Curl 示例#

提交任务:

bash
curl -X POST https://hk.hyucloud.com/v1/tasks/submit \
  -H "Authorization: Bearer {api_key}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "easydoc-emr-mask",
    "input": {
      "img_url": "https://example.com/medical_record.pdf",
      "prompt": "{\"type\":\"object\",\"properties\":{\"患者姓名\":{\"type\":\"string\"},\"患者性别\":{\"type\":\"string\"},\"年龄\":{\"type\":\"string\"}}}"
    }
  }'

查询任务状态:

bash
curl "https://hk.hyucloud.com/v1/tasks/status?task_id={task_id}" \
  -H "Authorization: Bearer {api_key}"

Python 示例#

python
import time
import requests

api_key = "******"  # 替换为你的 API Key
base_url = "https://hk.hyucloud.com/v1"

headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json",
}

# 提交任务
submit_data = {
    "model": "easydoc-emr-mask",
    "input": {
        "img_url": "https://example.com/medical_record.pdf",
        "prompt": '{"type":"object","properties":{"患者姓名":{"type":"string"},"患者性别":{"type":"string"},"年龄":{"type":"string"}}}',
    },
}

resp = requests.post(f"{base_url}/tasks/submit", headers=headers, json=submit_data)
task_id = resp.json()["output"]["task_id"]
print(f"task_id: {task_id}")

# 轮询查询结果
while True:
    result = requests.get(
        f"{base_url}/tasks/status",
        headers=headers,
        params={"task_id": task_id},
    ).json()

    status = result["output"]["task_status"]
    print(f"status: {status}")

    if status == "Success":
        print("脱敏后文件链接:")
        for url in result["output"]["urls"]:
            print(url)
        print(f"页数: {result['usage']['page_count']}")
        break
    elif status == "Failure":
        print(f"失败: {result['output'].get('error_message')}")
        break

    time.sleep(5)

响应示例#

提交成功:

json
{
  "output": {
    "task_id": "b_mask_xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
  },
  "request_id": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
}

任务完成:

json
{
  "output": {
    "task_id": "b_mask_xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "task_status": "Success",
    "urls": [
      "https://oss.easylink-ai.com/easylink-easydoc-task/mask_merge/xxxxxxxx.pdf?..."
    ],
    "submit_time": 1700000000,
    "finish_time": 1700000060
  },
  "usage": {
    "duration": 60,
    "page_count": 3
  },
  "request_id": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
}

使用说明#

1. 文件格式:支持 PDF、JPG、PNG、TIFF,通过 input.img_url 传入文件的公网访问地址。 2. 脱敏规则:通过 input.prompt 传入 JSON Schema 字符串,指定需要脱敏的字段名。不传或传空会导致任务失败。 3. 结果链接有效期:返回的脱敏文件 URL 有效期为 1 小时,请及时下载保存。 4. 计费:按文件页数计费,页数通过 usage.page_count 返回。


EasyLink EasyDoc-Extract 文档信息抽取#

概述#

EasyDoc-Extract 是一个智能文档信息抽取模型。上传文档(PDF/图片)后,模型会自动从中抽取结构化信息,返回 JSON 格式的抽取结果,适用于合同要素提取、发票解析、表单数据录入等场景。

本接口为异步模式:提交任务后获得任务 ID,通过轮询接口查询结果。

更多细节请参考 EasyLink 官方文档

请求地址https://hk.hyucloud.com/v1/tasks/submit

支持模型#

  • easydoc-extract

抽取模式说明#

模式触发条件说明
封闭式parameters.json_schema 有效 JSON按指定 Schema 抽取字段,结果为结构化 JSON 对象
自定义 Promptparameters.json_schema 无效 + parameters.prompt_cus 非空按自然语言描述抽取,结果为字符串
开放式两者均为空自动识别文档类型并抽取所有可识别字段

请求参数#

提交任务#

字段类型是否必需说明
modelstring模型名称,固定为 easydoc-extract
input.img_urlstring待抽取文件的 URL,支持 PDF / JPG / PNG / BMP / TIFF
parameters.json_schemastring封闭式模式:JSON Schema 格式字符串,指定需要抽取的字段
parameters.prompt_cusstring自定义 Prompt 模式:自然语言描述抽取需求

parameters.json_schema 示例(封闭式模式,抽取合同关键字段):

json
{
  "type": "object",
  "properties": {
    "甲方名称": {"type": "string"},
    "乙方名称": {"type": "string"},
    "合同金额": {"type": "string"},
    "签订日期": {"type": "string"},
    "合同编号": {"type": "string"}
  }
}

查询任务状态#

字段类型是否必需说明
task_idstring提交任务时返回的任务 ID

响应字段#

提交响应#

字段类型说明
output.task_idstring任务 ID,用于后续查询
request_idstring请求 ID

状态查询响应#

字段类型说明
output.task_statusstring任务状态:Pending / Running / Success / Failure
output.resultarray抽取结果列表(成功时返回),每个元素对应一个文件,见下方说明
output.error_messagestring错误信息(失败时返回)
usage.page_countinteger文件总页数,用于计费

output.result 每个元素的结构:

字段类型说明
page_countinteger当前文件页数
key_indexarray抽取字段名列表(封闭式模式返回)
extracted_fieldsobject/string抽取结果:封闭式模式为 JSON 对象,自定义 Prompt 模式为字符串

示例#

Curl 示例#

提交任务(封闭式模式):

bash
curl -X POST https://hk.hyucloud.com/v1/tasks/submit \
  -H "Authorization: Bearer {api_key}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "easydoc-extract",
    "input": {
      "img_url": "https://example.com/contract.pdf"
    },
    "parameters": {
      "json_schema": "{\"type\":\"object\",\"properties\":{\"甲方名称\":{\"type\":\"string\"},\"乙方名称\":{\"type\":\"string\"},\"合同金额\":{\"type\":\"string\"},\"签订日期\":{\"type\":\"string\"}}}"
    }
  }'

提交任务(开放式模式):

bash
curl -X POST https://hk.hyucloud.com/v1/tasks/submit \
  -H "Authorization: Bearer {api_key}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "easydoc-extract",
    "input": {
      "img_url": "https://example.com/document.pdf"
    }
  }'

查询任务状态:

bash
curl "https://hk.hyucloud.com/v1/tasks/status?task_id={task_id}" \
  -H "Authorization: Bearer {api_key}"

Python 示例#

python
import json
import time
import requests

api_key = "******"  # 替换为你的 API Key
base_url = "https://hk.hyucloud.com/v1"

headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json",
}

# 提交任务(封闭式模式)
json_schema = {
    "type": "object",
    "properties": {
        "甲方名称": {"type": "string"},
        "乙方名称": {"type": "string"},
        "合同金额": {"type": "string"},
        "签订日期": {"type": "string"},
    },
}

submit_data = {
    "model": "easydoc-extract",
    "input": {
        "img_url": "https://example.com/contract.pdf",
    },
    "parameters": {
        "json_schema": json.dumps(json_schema, ensure_ascii=False),
    },
}

resp = requests.post(f"{base_url}/tasks/submit", headers=headers, json=submit_data)
task_id = resp.json()["output"]["task_id"]
print(f"task_id: {task_id}")

# 轮询查询结果
while True:
    result = requests.get(
        f"{base_url}/tasks/status",
        headers=headers,
        params={"task_id": task_id},
    ).json()

    status = result["output"]["task_status"]
    print(f"status: {status}")

    if status == "Success":
        print("抽取结果:")
        for item in result["output"]["result"]:
            print(f"  页数: {item.get('page_count')}")
            print(f"  字段名: {item.get('key_index')}")
            print(f"  抽取内容: {item.get('extracted_fields')}")
        print(f"总页数: {result['usage']['page_count']}")
        break
    elif status == "Failure":
        print(f"失败: {result['output'].get('error_message')}")
        break

    time.sleep(5)

响应示例#

提交成功:

json
{
  "output": {
    "task_id": "b_extract_xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
  },
  "request_id": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
}

任务完成(封闭式模式):

json
{
  "output": {
    "task_id": "b_extract_xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "task_status": "Success",
    "result": [
      {
        "page_count": 5,
        "key_index": ["甲方名称", "乙方名称", "合同金额", "签订日期"],
        "extracted_fields": {
          "甲方名称": "北京示例科技有限公司",
          "乙方名称": "上海示例贸易有限公司",
          "合同金额": "人民币壹拾万元整",
          "签订日期": "2024年1月1日"
        }
      }
    ],
    "submit_time": 1700000000,
    "finish_time": 1700000060
  },
  "usage": {
    "duration": 60,
    "page_count": 5
  },
  "request_id": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
}

使用说明#

1. 文件格式:支持 PDF、JPG、PNG、BMP、TIFF,通过 input.img_url 传入文件的公网访问地址。 2. 抽取模式选择: - 字段明确时推荐使用封闭式模式(传入 parameters.json_schema),结果最为准确。 - 需要灵活描述抽取需求时使用自定义 Prompt 模式(传入 parameters.prompt_cus)。 - 无特定需求时可使用开放式模式(两者均不传),自动识别并抽取文档中的所有可识别字段。 3. json_schema 格式:传入的是 JSON Schema 的序列化字符串(即对 JSON 对象调用 json.dumps() 后的结果),而非 JSON 对象本身。 4. 结果格式:抽取结果通过 output.result 字段返回,为 JSON 数组,每个元素对应一个输入文件。 5. 计费:按文件总页数计费,页数通过 usage.page_count 返回。


Wan-AI/Wan2.7 Image API#

本文介绍 wan2.7-imagewan2.7-image-pro 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。

  • 同步接口:/v1/images/generations
  • 异步接口:/v1/tasks/submit + /v1/tasks/status

模型列表#

模型名说明
wan2.7-imageWan2.7 图片生成模型
wan2.7-image-proWan2.7 图片生成 Pro 模型

能力概览#

Wan2.7 当前支持:

  • 文生图
  • 单图编辑
  • 多图融合 / 多图编辑
  • 连续多图生成 / 组图生成

OpenAI 兼容接口(同步)#

接口#

POST https://hk.hyucloud.com/v1/images/generations

认证方式#

Authorization: Bearer $hyucloud_API_KEY

请求参数#

字段名类型是否必须默认值描述
modelstring必须-模型名称,可选值:wan2.7-imagewan2.7-image-pro
promptstring可选-文本提示词。promptimageimages 至少需要提供一项。
imagestring可选-单图输入,支持公网 URL 或 Base64。适用于单图编辑场景。图片要求见下方「图片输入说明」。
imagesarray[string]可选-多图输入,支持公网 URL 或 Base64,最多 9 张。适用于多图融合、多图编辑场景。若同时传入 imagesimage,优先使用 images。图片要求见下方「图片输入说明」。
sizestring可选2K输出尺寸。支持档位 1K/2K/4K,或像素值 宽*高(如 1280*720,兼容 宽x高 写法)。两种方式语义不同,取值范围见下方「size 取值说明」。
nint可选1生成图片数量。普通模式取值 1~4;开启 enable_sequential 时取值 1~12(实际张数由模型决定,不超过 n)。
seedint可选-随机种子。建议传正整数;传 0 或不传时按未设置处理。
watermarkboolean可选false是否添加水印。
thinking_modeboolean可选true是否开启深度思考模式。仅在未开启组图模式且无图片输入时生效,开启可提升出图质量但会增加耗时。
enable_sequentialboolean可选false是否开启连续多图生成 / 组图模式。建议与 n 配合使用。

size 取值说明#

支持两种取值方式,语义不同,不可混用:

方式一:档位 1K / 2K / 4K(默认 2K

  • 总像素分别对应 1024×1024、2048×2048、4096×4096。有图片输入时,输出宽高比跟随输入图(多图时取最后一张);无图片输入时输出为正方形。
  • wan2.7-image-pro:文生图(无图片输入且未开启组图)支持 1K/2K/4K;图像编辑、组图场景仅支持 1K/2K
  • wan2.7-image:仅支持 1K/2K,不支持 4K

**方式二:像素值 宽*高(如 1280*720,兼容 1280x720 写法)**

  • 精确指定输出宽高(实际输出像素可能存在微小差异),宽高比需在 1:8 ~ 8:1 之间。
  • wan2.7-image-pro:文生图场景总像素范围 [768×768, 4096×4096];其他场景 [768×768, 2048×2048]
  • wan2.7-image:所有场景总像素范围 [768×768, 2048×2048]

图片输入说明#

  • 格式:JPEG/JPG、PNG(不支持透明通道)、BMP、WEBP
  • 分辨率:宽和高均需在 [240, 8000] 像素之间,宽高比 1:8 ~ 8:1
  • 大小:单张不超过 20MB;最多传入 9 张,按数组顺序定义图像顺序

请求示例#

1. 文生图#

bash
curl --location 'https://hk.hyucloud.com/v1/images/generations' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.7-image",
    "prompt": "A futuristic cloud data center floating above the sea at sunrise",
    "size": "1K",
    "seed": 123456,
    "watermark": false
  }'

2. 单图编辑#

bash
curl --location 'https://hk.hyucloud.com/v1/images/generations' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.7-image-pro",
    "prompt": "把这只猫改成赛博朋克风格,霓虹灯光,电影感构图",
    "image": "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
    "size": "2K",
    "thinking_mode": true,
    "watermark": false
  }'

3. 多图融合#

bash
curl --location 'https://hk.hyucloud.com/v1/images/generations' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.7-image-pro",
    "prompt": "融合两张参考图的主体特征,生成一张高级感品牌海报",
    "images": [
      "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
      "https://hk.hyucloud.com/hyucloud-maxcot.jpg"
    ],
    "size": "2048*2048",
    "thinking_mode": true,
    "seed": 20260402
  }'

4. 连续多图生成#

bash
curl --location 'https://hk.hyucloud.com/v1/images/generations' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.7-image-pro",
    "prompt": "生成一组同一角色在春夏秋冬四季中的海报,人物形象保持一致",
    "size": "2K",
    "thinking_mode": true,
    "enable_sequential": true,
    "n": 4
  }'

响应参数#

字段名类型描述
createdinteger本次请求创建时间的 Unix 时间戳(秒)
dataarray输出图片信息列表
data.urlstring生成图片的下载地址。链接有效期为 24 小时,请及时转存。

响应示例#

json
{
  "created": 1775558400,
  "data": [
    {
      "url": "https://example.com/generated-image-1.png"
    },
    {
      "url": "https://example.com/generated-image-2.png"
    }
  ]
}

异步任务接口#

提交任务#

接口#

POST https://hk.hyucloud.com/v1/tasks/submit

认证方式#

Authorization: Bearer $hyucloud_API_KEY

请求体#

json
{
  "model": "wan2.7-image-pro",
  "input": {
    "prompt": "一只坐在咖啡馆窗边的布偶猫",
    "images": [
      "https://hk.hyucloud.com/hyucloud-maxcot.jpg"
    ]
  },
  "parameters": {
    "size": "2K",
    "prompt_extend": true,
    "enable_sequential": true,
    "n": 4,
    "seed": 123456,
    "watermark": false
  }
}

请求参数#

字段名类型是否必须描述
modelstring必须模型名称,可选值:wan2.7-imagewan2.7-image-pro
input.promptstring可选文本提示词。input.promptinput.imagesinput.img_urlinput.first_frame_url 至少需要提供一项。
input.imagesarray[string]可选多图输入,支持公网 URL 或 Base64。若同时传入 input.imagesinput.img_urlinput.first_frame_url,优先使用 input.images
input.img_urlstring可选单图输入,支持公网 URL 或 Base64。适用于单图编辑场景。
input.first_frame_urlstring可选单图兼容字段,支持公网 URL 或 Base64。在 Wan2.7 图片任务中会按普通图片输入处理。
parameters.sizestring可选输出尺寸。支持档位 1K/2K/4K,或像素值 宽*高(如 1280*720,兼容 宽x高 写法)。取值规则同同步接口的「size 取值说明」。
parameters.nint可选生成图片数量。普通模式取值 1~4;开启 enable_sequential 时取值 1~12(实际张数由模型决定,不超过 n)。
parameters.seedint可选随机种子。建议传正整数;传 0 或不传时按未设置处理。
parameters.watermarkboolean可选是否添加水印。
parameters.enable_sequentialboolean可选是否开启连续多图生成 / 组图模式。通常建议与 parameters.n 配合使用。
parameters.prompt_extendboolean可选提示词增强开关,传 true 时会映射为 Wan2.7 的 thinking_mode=true

请求示例#

##### 1. 文生图

bash
curl --location 'https://hk.hyucloud.com/v1/tasks/submit' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.7-image",
    "input": {
      "prompt": "A futuristic cloud data center floating above the sea at sunrise"
    },
    "parameters": {
      "size": "1K",
      "seed": 123456
    }
  }'

##### 2. 单图编辑

bash
curl --location 'https://hk.hyucloud.com/v1/tasks/submit' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.7-image-pro",
    "input": {
      "prompt": "把这只猫改成赛博朋克风格,霓虹灯光,电影感构图",
      "img_url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg"
    },
    "parameters": {
      "size": "2K",
      "prompt_extend": true,
      "watermark": false
    }
  }'

##### 3. 多图融合

bash
curl --location 'https://hk.hyucloud.com/v1/tasks/submit' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.7-image-pro",
    "input": {
      "prompt": "融合两张参考图的主体特征,生成一张高级感品牌海报",
      "images": [
        "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
        "https://hk.hyucloud.com/hyucloud-maxcot.jpg"
      ]
    },
    "parameters": {
      "size": "2048*2048",
      "prompt_extend": true,
      "seed": 20260402
    }
  }'

##### 4. 连续多图生成

bash
curl --location 'https://hk.hyucloud.com/v1/tasks/submit' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.7-image-pro",
    "input": {
      "prompt": "生成一组同一角色在春夏秋冬四季中的海报,人物形象保持一致"
    },
    "parameters": {
      "size": "2K",
      "prompt_extend": true,
      "enable_sequential": true,
      "n": 4
    }
  }'

提交响应参数#

字段名类型描述
output.task_idstring异步任务唯一标识
request_idstring请求唯一标识

提交响应示例#

json
{
  "output": {
    "task_id": "3c7d6b6c-7cdb-4f37-bf41-7f2b0f1a9f0d"
  },
  "request_id": "req_202604021530000001"
}

查询任务状态#

接口#

GET https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

bash
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
  --header "Authorization: Bearer $hyucloud_API_KEY"

响应参数#

字段名类型描述
output.task_idstring异步任务唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailureCancelled
output.urlsarray[string]图片结果 URL 列表。链接有效期为 24 小时,请及时转存。
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.completion_tokensinteger可选,输出 token 数
usage.total_tokensinteger可选,总 token 数
request_idstring请求唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "3c7d6b6c-7cdb-4f37-bf41-7f2b0f1a9f0d",
    "task_status": "Success",
    "urls": [
      "https://example.com/generated-image-1.png",
      "https://example.com/generated-image-2.png",
      "https://example.com/generated-image-3.png",
      "https://example.com/generated-image-4.png"
    ],
    "submit_time": 1775115000,
    "finish_time": 1775115038
  },
  "usage": {
    "completion_tokens": 4,
    "total_tokens": 4
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "3c7d6b6c-7cdb-4f37-bf41-7f2b0f1a9f0d",
    "task_status": "Failure",
    "submit_time": 1775115000,
    "finish_time": 1775115012,
    "error_message": "code=InvalidParameter, message=invalid image url"
  },
  "request_id": ""
}

gemini-2.5-flash-image( nano banana )#

本文介绍 gemini-2.5-flash-image 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


以下只展示部分使用到的字段说明,Gemini API 详细字段见Gemini 官网文档

请求参数#

请求体#

字段名类型是否必须默认值描述
contentsarray必须-请求的内容,包含一个或多个部分。
contents.rolestring必须"user"内容的角色,此处固定为 "user"。
contents.partsarray必须-内容的具体部分。
contents.parts.textstring可选-提示词文本。
contents.parts.inlineDataobject可选-内联数据(如图像)。
contents.parts.inlineData.mimeTypestring可选-数据的 MIME 类型。
contents.parts.inlineData.datastring可选-Base64 编码的数据。
contents.parts.fileDataobject可选-文件数据,支持 snake_case: file_data。
contents.parts.fileData.mimeTypestring可选-文件的 MIME 类型。
contents.parts.fileData.fileUristring可选-文件的 URI。
generationConfigobject可选-生成配置。
generationConfig.responseModalitiesarray可选["TEXT", "IMAGE"]期望的响应形式,可以是文本或图像。

响应参数#

字段名类型描述
candidatesarray返回的候选内容列表。
candidates.contentobject候选内容。
candidates.content.partsarray内容的具体部分,可能包含文本和图像数据。
candidates.content.parts.textstring模型返回的文本描述。
candidates.content.parts.inlineDataobject内联的图像数据。
candidates.content.parts.inlineData.datastringBase64 编码的图像数据。
candidates.content.parts.inlineData.mimeTypestring数据的 MIME 类型,例如 "image/png"。
candidates.content.rolestring内容的角色,此处为 "model"。
candidates.finishReasonstring生成结束的原因,例如 "STOP"。
usageMetadataobjecttoken 使用情况的元数据。
usageMetadata.candidatesTokenCountinteger候选内容消耗的 token 数。
usageMetadata.promptTokenCountinteger提示词消耗的 token 数。
usageMetadata.totalTokenCountinteger总共消耗的 token 数。
errorObject错误信息对象
error.codestring错误码
error.messagestring错误提示信息
error.paramstring请求 id

示例#

Gemini 兼容接口#

我们兼容gemini的 {xxx}/v1beat/models接口,您可以直接使用官方SDK调用,例如 python-genai

POST https://hk.hyucloud.com/v1beta/models/gemini-2.5-flash-image:generateContent

图片生成(文本转图片)#

⚠️ 注意:您必须在配置中添加 responseModalities: ["TEXT", "IMAGE"]。这些模型不支持仅图片输出。

curl#

bash
curl --location 'https://hk.hyucloud.com/v1beta/models/gemini-2.5-flash-image:generateContent' \
--header "x-goog-api-key: $hyucloud_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "contents": [
        {
            "role": "user",
            "parts": [
                {
                    "text": "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
                }
            ]
        }
    ],
    "generationConfig": {
        "responseModalities": [
            "TEXT",
            "IMAGE"
        ]
    }
}' | jq -r '.candidates[0].content.parts[] | select(.inlineData and (.thought | not)) | .inlineData.data' | head -1 \
| base64 -d > hyucloud_generated_image.png

python#

python
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import os


client = genai.Client(
    api_key=os.getenv("hyucloud_API_KEY", "<hyucloud_API_KEY>"),  # 您的API_KEY
    http_options=types.HttpOptions(
        base_url="https://hk.hyucloud.com"
    ),
)

contents = [
    {
        "text": "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme.",
    },
]

generation_config = types.GenerationConfig(
    response_modalities=["text", "image"],
)

response = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=contents,
    config={
        "response_modalities": ["text", "image"],
    },
)

for part in response.candidates[0].content.parts:
    # 跳过思考过程中的中间图片,只保留最终输出图片
    if getattr(part, "thought", False):
        continue
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("hyucloud_generated_image.png")

图片编辑(文本和图片转图片)#

curl#

bash
cat <<EOF | curl -X POST \
  --header "Authorization: Bearer ${hyucloud_API_KEY}" \
  --header "Content-Type: application/json" \
  --data @- \
  https://hk.hyucloud.com/v1beta/models/gemini-2.5-flash-image:generateContent | jq -r '.candidates[0].content.parts[] | select(.inlineData and (.thought | not)) | .inlineData.data' | head -1 | base64 --decode > hyucloud_generated_image.png
{
  "contents": [
    {
      "role": "user",
      "parts": [
        {"text": "Convert this photo to black and white, in a cartoonish style."},
        {
          "inlineData": {
            "mimeType": "image/jpeg",
            "data": "$(curl -s https://hk.hyucloud.com/hyucloud-maxcot.jpg | base64 | tr -d '\n')"
          }
        }
      ]
    }
  ],
  "generationConfig": {
    "responseModalities": ["TEXT", "IMAGE"]
  }
}
EOF

python#

python
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import os

client = genai.Client(
    api_key=os.getenv("hyucloud_API_KEY", "<hyucloud_API_KEY>"),  # 您的API_KEY
    http_options=types.HttpOptions(
        base_url="https://hk.hyucloud.com"
    ),
)

response = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=[
        types.Content(
            role="user",
            parts=[
                types.Part(
                    text="Convert this photo to black and white, in a cartoonish style."
                ),
                types.Part(
                    file_data=types.FileData(
                        mime_type="image/jpeg",
                        file_uri="https://hk.hyucloud.com/hyucloud-maxcot.jpg",
                    )
                ),
            ],
        )
    ],
    config=types.GenerateContentConfig(response_modalities=["TEXT", "IMAGE"]),
)

for part in response.candidates[0].content.parts:
    # 跳过思考过程中的中间图片,只保留最终输出图片
    if getattr(part, "thought", False):
        continue
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("hyucloud_generated_image.png")

响应示例#

json
{
  "candidates": [
    {
      "content": {
        "parts": [
          {
            "text": "That sounds incredibly unique! Here's a picture of a nano banana dish in a fancy restaurant with a Gemini theme:\n\n"
          },
          {
            "inlineData": {
              "data": "xxx",
              "mimeType": "image/png"
            }
          }
        ],
        "role": "model"
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "candidatesTokenCount": 1315,
    "candidatesTokensDetails": [
      {
        "modality": "IMAGE",
        "tokenCount": 1290
      },
      {
        "modality": "TEXT",
        "tokenCount": 25
      }
    ],
    "promptTokenCount": 16,
    "promptTokensDetails": [
      {
        "modality": "TEXT",
        "tokenCount": 16
      }
    ],
    "totalTokenCount": 1331,
    "trafficType": "ON_DEMAND"
  }
}
json
{
  "error": {
    "message": "error_message",
    "type": "error_type",
    "param": "request_id",
    "code": "error_code"
  }
}

gemini-3-pro-image ( nano banana pro )#

本文介绍 gemini-3-pro-image-preview (模型ID: gemini-3-pro-image-preview) 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


以下只展示部分使用到的字段说明,详细说明请参考官方文档 Gemini 3 Pro 图片功能的新变化

请求参数#

请求体#

字段名类型是否必须默认值描述
contentsarray必须-请求的内容,包含一个或多个部分。
contents.rolestring必须"user"内容的角色,此处固定为 "user"。
contents.partsarray必须-内容的具体部分。
contents.parts.textstring可选-提示词文本。
generationConfigobject可选-生成配置。
generationConfig.responseModalitiesarray可选["TEXT", "IMAGE"]期望的响应形式,可以是文本或图像。
generationConfig.imageConfigobject可选-图片生成配置。
generationConfig.imageConfig.aspectRatiostring可选"1:1"图片宽高比。支持 "1:1", "2:3", "3:2", "3:4", "4:3", "4:5", "5:4", "9:16", "16:9", "21:9"。
generationConfig.imageConfig.imageSizestring可选"1K"图片分辨率。支持 "1K", "2K", "4K"。

响应参数#

字段名类型描述
candidatesarray返回的候选内容列表。
candidates.contentobject候选内容。
candidates.content.partsarray内容的具体部分,可能包含文本和图像数据。
candidates.content.parts.textstring模型返回的文本描述。
candidates.content.parts.inlineDataobject内联的图像数据。
candidates.content.parts.inlineData.datastringBase64 编码的图像数据。
candidates.content.parts.inlineData.mimeTypestring数据的 MIME 类型,例如 "image/png"。
candidates.finishReasonstring生成结束的原因,例如 "STOP"。
usageMetadataobjecttoken 使用情况的元数据。
errorObject错误信息对象

示例#

Gemini 兼容接口#

POST https://hk.hyucloud.com/v1beta/models/gemini-3-pro-image-preview:generateContent

图片生成(文本转图片)#

⚠️ 注意:您必须在配置中添加 responseModalities: ["TEXT", "IMAGE"]。

curl#

bash
curl -s -X POST \
  "https://hk.hyucloud.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{"parts": [{"text": "Da Vinci style anatomical sketch of a dissected Monarch butterfly. Detailed drawings of the head, wings, and legs on textured parchment with notes in English."}]}],
    "tools": [{"google_search": {}}],
  "generationConfig": {
      "responseModalities": ["TEXT", "IMAGE"],
      "imageConfig": {"aspectRatio": "1:1", "imageSize": "1K"}
    }
  }' | jq -r '.candidates[0].content.parts[] | select(.inlineData and (.thought | not)) | .inlineData.data' | head -1 | base64 --decode > butterfly.png

python#

python
from google import genai
from google.genai import types
import os

client = genai.Client(
    api_key=os.getenv("hyucloud_API_KEY", "<hyucloud_API_KEY>"),  # 您的API_KEY
    http_options=types.HttpOptions(
        base_url="https://hk.hyucloud.com"
    ),
)

prompt = "Da Vinci style anatomical sketch of a dissected Monarch butterfly. Detailed drawings of the head, wings, and legs on textured parchment with notes in English."
aspect_ratio = "1:1"  # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"
resolution = "1K"  # "1K", "2K", "4K"

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
        image_config=types.ImageConfig(
            aspect_ratio=aspect_ratio, image_size=resolution
        ),
    ),
)

for part in response.parts:
    # 跳过思考过程中的中间图片,只保留最终输出图片
    if getattr(part, "thought", False):
        continue
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        image.save("butterfly.png")

响应示例#

json
{
  "candidates": [
    {
      "content": {
        "parts": [
          {
            "text": "Here is the anatomical sketch of a dissected Monarch butterfly in Da Vinci style..."
          },
          {
            "inlineData": {
              "data": "iVBORw0KGgoAAAANSUhEUgAA...",
              "mimeType": "image/png"
            }
          }
        ],
        "role": "model"
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "candidatesTokenCount": 1315,
    "totalTokenCount": 1331
  }
}
json
{
  "error": {
    "message": "error_message",
    "type": "error_type",
    "param": "request_id",
    "code": "error_code"
  }
}

gemini-3.1-flash-image ( nano banana 2 )#

本文介绍 gemini-3.1-flash-image-preview (模型ID: gemini-3.1-flash-image-preview) 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


以下只展示部分使用到的字段说明,详细说明请参考官方文档 Gemini 3 Pro 图片功能的新变化

请求参数#

请求体#

字段名类型是否必须默认值描述
contentsarray必须-请求的内容,包含一个或多个部分。
contents.rolestring必须"user"内容的角色,此处固定为 "user"。
contents.partsarray必须-内容的具体部分。
contents.parts.textstring可选-提示词文本。
generationConfigobject可选-生成配置。
generationConfig.responseModalitiesarray可选["TEXT", "IMAGE"]期望的响应形式,可以是文本或图像。
generationConfig.imageConfigobject可选-图片生成配置。
generationConfig.imageConfig.aspectRatiostring可选"1:1"图片宽高比。支持 "1:1", "2:3", "3:2", "3:4", "4:3", "4:5", "5:4", "9:16", "16:9", "21:9"。
generationConfig.imageConfig.imageSizestring可选"1K"图片分辨率。支持 "512"(0.5K), "1K", "2K", "4K"。注意:512 不带 K 后缀。

响应参数#

字段名类型描述
candidatesarray返回的候选内容列表。
candidates.contentobject候选内容。
candidates.content.partsarray内容的具体部分,可能包含文本和图像数据。
candidates.content.parts.textstring模型返回的文本描述。
candidates.content.parts.inlineDataobject内联的图像数据。
candidates.content.parts.inlineData.datastringBase64 编码的图像数据。
candidates.content.parts.inlineData.mimeTypestring数据的 MIME 类型,例如 "image/png"。
candidates.finishReasonstring生成结束的原因,例如 "STOP"。
usageMetadataobjecttoken 使用情况的元数据。
errorObject错误信息对象

示例#

Gemini 兼容接口#

POST https://hk.hyucloud.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent

图片生成(文本转图片)#

⚠️ 注意:您必须在配置中添加 responseModalities: ["TEXT", "IMAGE"]。

curl#

bash
curl -s -X POST \
  "https://hk.hyucloud.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent" \
  -H "x-goog-api-key: $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{"parts": [{"text": "Da Vinci style anatomical sketch of a dissected Monarch butterfly. Detailed drawings of the head, wings, and legs on textured parchment with notes in English."}]}],
    "tools": [{"google_search": {}}],
  "generationConfig": {
      "responseModalities": ["TEXT", "IMAGE"],
      "imageConfig": {"aspectRatio": "1:1", "imageSize": "1K"}
    }
  }' | jq -r '.candidates[0].content.parts[] | select(.inlineData and (.thought | not)) | .inlineData.data' | head -1 | base64 --decode > butterfly.png

python#

python
from google import genai
from google.genai import types
import os

client = genai.Client(
    api_key=os.getenv("hyucloud_API_KEY", "<hyucloud_API_KEY>"),  # 您的API_KEY
    http_options=types.HttpOptions(
        base_url="https://hk.hyucloud.com"
    ),
)

prompt = "Da Vinci style anatomical sketch of a dissected Monarch butterfly. Detailed drawings of the head, wings, and legs on textured parchment with notes in English."
aspect_ratio = "1:1"  # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"
resolution = "1K"  # "512"(0.5K), "1K", "2K", "4K"

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
        image_config=types.ImageConfig(
            aspect_ratio=aspect_ratio, image_size=resolution
        ),
    ),
)

for part in response.parts:
    # 跳过思考过程中的中间图片,只保留最终输出图片
    if getattr(part, "thought", False):
        continue
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        image.save("butterfly.png")

响应示例#

json
{
  "candidates": [
    {
      "content": {
        "parts": [
          {
            "text": "Here is the anatomical sketch of a dissected Monarch butterfly in Da Vinci style..."
          },
          {
            "inlineData": {
              "data": "iVBORw0KGgoAAAANSUhEUgAA...",
              "mimeType": "image/png"
            }
          }
        ],
        "role": "model"
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "candidatesTokenCount": 1315,
    "totalTokenCount": 1331
  }
}
json
{
  "error": {
    "message": "error_message",
    "type": "error_type",
    "param": "request_id",
    "code": "error_code"
  }
}

0.5K 分辨率请求示例#

bash
curl -s -X POST \
  "https://hk.hyucloud.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent" \
  -H "x-goog-api-key: $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{"parts": [{"text": "一只坐着的橙色小猫,正面,纯色背景"}]}],
    "generationConfig": {
      "responseModalities": ["IMAGE"],
      "imageConfig": {"aspectRatio": "1:1", "imageSize": "512"}
    }
  }'

flux-2-pro#

本文介绍 flux-2-pro 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


以下只展示部分使用到的字段说明,flux-2-pro API 详细字段见flux-2-pro 官网文档

请求地址#

POST https://hk.hyucloud.com/v1/flux-2-pro

认证方式#

API Key#

与官方不同,我们不使用 x-key,而是使用 Authorization

请求参数#

请求体#

字段名类型是否必须默认值描述
promptstring提示词
input_imagestring图片base64
input_image_2string图片base64
input_image_3string图片base64
input_image_4string图片base64
input_image_5string图片base64
input_image_6string图片base64
input_image_7string图片base64
input_image_8string图片base64
seedint种子,可选种子以保证可重复性。
widthint图片宽度,x >= 64,必须是32的倍数
heightint图片高度,x >= 64,必须是32的倍数
safety_tolerancestring输入和输出调节的容忍水平,可选值为1-6。0表示最严格,6表示最不严格。
output_formatjpeg/pngpng输出格式,可选值为png,jpg。
webhook_urlstringWebhook URL,用于接收生成结果。
webhook_secretstringWebhook Secret,用于验证Webhook请求。

响应参数#

字段名类型描述
createedint创建时间
input_mpint输入图片像素,单位 百万,向上取整
output_mpint输出图片像素,单位 百万,向上取整
total_pixelsint总像素
data[object]图片数据
data.[].b64_jsonstring图片base64

示例#

curl#

bash
curl -X POST "https://hk.hyucloud.com/v1/flux-2-pro" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -d '{
     "prompt" : "A photograph of a red fox in an autumn forest",
     "width": 1024,
     "height": 1024
    }' | jq -r '.data[0].b64_json' | base64 --decode > flux-2-pro.png

python#

python
import requests
import os

url = "https://hk.hyucloud.com/v1/flux-2-pro"
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {os.getenv('hyucloud_API_KEY')}"
}
payload = {
    "prompt": "A photograph of a red fox in an autumn forest",
    "width": 1024,
    "height": 1024
}

response = requests.post(url, headers=headers, json=payload)
result = response.json()
print(result)

flux-kontext-pro#

本文介绍 flux-kontext-pro 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


以下只展示部分使用到的字段说明,flux-kontext-pro API 详细字段见flux-kontext-pro 官网文档

请求地址#

POST https://hk.hyucloud.com/v1/flux-kontext-pro

认证方式#

API Key#

与官方不同,我们不使用 x-key,而是使用 Authorization

请求参数#

请求体#

字段名类型是否必须默认值描述
promptstring提示词
input_imagestring图片base64
input_image_2string图片base64
input_image_3string图片base64
input_image_4string图片base64
seedint种子,可选种子以保证可重复性。
aspect_ratiostring图像的宽高比介于21:9到9:21之间
output_formatjpeg/pngpng输出格式,可选值为png,jpg。
webhook_urlstringWebhook URL,用于接收生成结果。
webhook_secretstringWebhook Secret,用于验证Webhook请求。
prompt_upsamplingboolfalse是否对提示进行上采样。如果激活,会自动修改提示词以实现更具创意的生成。
safety_tolerancestring输入和输出调节的容忍水平,可选值为1-6。0表示最严格,6表示最不严格。

响应参数#

字段名类型描述
createedint创建时间
data[object]图片数据
data.[].b64_jsonstring图片base64

示例#

curl#

bash
curl -X POST "https://hk.hyucloud.com/v1/flux-kontext-pro" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -d '{
     "prompt" : "A photograph of a red fox in an autumn forest"
    }' | jq -r '.data[0].b64_json' | base64 --decode > flux-pro-1.1.png

python#

python
import requests
import os

url = "https://hk.hyucloud.com/v1/flux-kontext-pro"
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {os.getenv('hyucloud_API_KEY')}"
}
payload = {
    "prompt": "A photograph of a red fox in an autumn forest"
}

response = requests.post(url, headers=headers, json=payload)
result = response.json()
print(result)

flux-pro-1.1#

本文介绍 flux-pro-1.1 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


以下只展示部分使用到的字段说明,flux-pro-1.1 API 详细字段见flux-pro-1.1 官网文档

请求地址#

POST https://hk.hyucloud.com/v1/flux-pro-1.1

认证方式#

API Key#

与官方不同,我们不使用 x-key,而是使用 Authorization

请求参数#

请求体#

字段名类型是否必须默认值描述
promptstring提示词
image_promptstring图片base64
widthint图片宽度,256 &lt;= x &lt;= 1440,必须是32的倍数
heightint图片高度,256 &lt;= x &lt;= 1440,必须是32的倍数
prompt_upsamplingboolfalse是否对提示进行上采样。如果激活,会自动修改提示词以实现更具创意的生成。
seedint种子,可选种子以保证可重复性。
safety_toleranceint2输入和输出调节的容忍水平,可选值为1-6。0表示最严格,6表示最不严格。
output_formatjpeg/pngpng输出格式,可选值为png,jpg。
webhook_urlstringWebhook URL,用于接收生成结果。
webhook_secretstringWebhook Secret,用于验证Webhook请求。

响应参数#

字段名类型描述
createedint创建时间
data[object]图片数据
data.[].b64_jsonstring图片base64

示例#

curl#

bash
curl -X POST "https://hk.hyucloud.com/v1/flux-pro-1.1" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -d '{
     "prompt" : "A photograph of a red fox in an autumn forest",
     "width": 1024,
     "height": 1024
    }' | jq -r '.data[0].b64_json' | base64 --decode > flux-pro-1.1.png

python#

python
import requests
import os

url = "https://hk.hyucloud.com/v1/flux-pro-1.1"
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {os.getenv('hyucloud_API_KEY')}"
}
payload = {
    "prompt": "A photograph of a red fox in an autumn forest",
    "width": 1024,
    "height": 1024,
}

response = requests.post(url, headers=headers, json=payload)
result = response.json()
print(result)

stepfun-ai/step1x-edit API#

本文介绍 stepfun-ai/step1x-edit 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


请求参数#

请求体#

字段名类型是否必须默认值描述
promptstring必须-提示词
modelstring必须-本次请求使用的模型名称,此处为 stepfun-ai/step1x-edit
imagestring必须-base64 数据或图片链接 http://xxx
nint可选1生成图片数量,取值范围为 1~4
strengthfloat可选0.8转换参考图像的程度, 取值范围 0~1
seedint可选-1随机数种子,用于控制模型生成内容的随机性。如果希望生成内容保持一致,可以使用相同的 seed 参数值。
stepsint可选20推理次数, 取值范围 1~50
guidance_scalefloat可选2.5模型输出结果与 prompt 的一致程度,即生成图像的自由度;值越大,模型自由度越小,与用户输入的提示词相关性越强。<br/>取值[1, 10]。
negative_promptstring可选-负面提示词,用于指定不希望在生成图像中出现的内容
response_formatstring可選"url"指定返回生成图像的格式,默认为 url

响应参数#

字段名类型描述
createdinteger本次请求创建时间的 Unix 时间戳(秒)。
dataarray输出图像的信息,包括图像下载的 URL 或 Base64。<br/>• 当指定返回生成图像的格式为 url 时,则相应参数的子字段为 url;<br/>• 当指定返回生成图像的格式为 b64_json 时,则相应参数的子字段为 b64_json。<br/>注意:链接将在生成后 7 天内失效,请务必及时保存图像。
errorObject错误信息对象
error.codestring错误码
error.messagestring错误提示信息
error.paramstring请求 id

示例#

OPENAI 兼容接口#

POST https://hk.hyucloud.com/v1/images/generations

同步请求#

bash
curl --location 'https://hk.hyucloud.com/v1/images/generations' \
--header "Authorization: Bearer $hyucloud_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "stepfun-ai/step1x-edit",
    "prompt": "Convert to quick pencil sketch",
    "image": "data:image/png;base64,{image_base64_string}",
    "negative_prompt": "blurry, low quality"
}'
python
import os
from openai import OpenAI

client = OpenAI(
    base_url=os.getenv("BASE_URL", "https://hk.hyucloud.com/v1"),
    api_key=os.getenv("API_KEY", "$hyucloud_API_KEY")
)

response = client.images.generate(
    model="stepfun-ai/step1x-edit",
    prompt="Convert to quick pencil sketch",
    extra_body={
        "image": "data:image/png;base64,{image_base64_string}",
        "negative_prompt": "blurry, low quality"
    }
)

print(response.data[0].url)

响应#

json
{
  "created": 1750667997,
  "data": [
    {
      "url": "https://xxxxx/xxxx.png",
      "b64_json": "data:image/png;base64,{image_base64_string}"
    }
  ],
  "usage": {
    "input_tokens_details": {}
  }
}
json
{
  "error": {
    "message": "error_message",
    "type": "error_type",
    "param": "request_id",
    "code": "error_code"
  }
}

{/* TODO:异步请求

异步请求#

*/}

---

# Qwen/Qwen-Image-Edit API

本文介绍 `Qwen/Qwen-Image-Edit` 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。

---

## 请求参数

### 请求体

| 字段名 | 类型   | 是否必须 | 默认值 | 描述                                                                                             |
| ------ | ------ | -------- | ------ | ------------------------------------------------------------------------------------------------ |
| prompt | string | 必须     | -      | 提示词                                                                                           |
| model  | string | 必须     | -      | 本次请求使用的模型名称,此处为 `Qwen/Qwen-Image-Edit`。                                          |
| image  | string | 必须     | -      | base64 数据或图片链接 `http://xxx`                                                               |
| seed   | int    | 可选     | -1     | 随机数种子,用于控制模型生成内容的随机性。如果希望生成内容保持一致,可以使用相同的 seed 参数值。 |
| size   | string | 可选     | `1664x928` | 生成图像的尺寸(宽x高)。默认 `1664x928`,可选值及对应比例:`1664x928`(16:9)、`1472x1104`(4:3)、`1328x1328`(1:1)、`1104x1472`(3:4)、`928x1664`(9:16) |

## 响应参数

| 字段名        | 类型      | 描述                                                                                                                                                                                                                                                    |
| ------------- | --------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| created       | `integer` | 本次请求创建时间的 Unix 时间戳(秒)。                                                                                                                                                                                                                  |
| data          | `array`   | 输出图像的信息,包括图像下载的 URL 或 Base64。<br/>• 当指定返回生成图像的格式为 url 时,则相应参数的子字段为 url;<br/>• 当指定返回生成图像的格式为 b64_json 时,则相应参数的子字段为 b64_json。<br/>注意:链接将在生成后 7 天内失效,请务必及时保存图像。 |
| error         | `Object`  | 错误信息对象                                                                                                                                                                                                                                            |
| error.code    | `string`  | 错误码                                                                                                                                                                                                                                                  |
| error.message | `string`  | 错误提示信息                                                                                                                                                                                                                                            |
| error.param   | `string`  | 请求 id                                                                                                                                                                                                                                                 |

## 示例

### OPENAI 兼容接口

`POST https://hk.hyucloud.com/v1/images/generations`

#### 同步请求

curl --location 'https://hk.hyucloud.com/v1/images/generations' \ --header "Authorization: Bearer $hyucloud_API_KEY" \ --header 'Content-Type: application/json' \ --data '{ "model": "Qwen/Qwen-Image-Edit", "prompt": "Convert to quick pencil sketch", "image": "data:image/png;base64,{image_base64_string}", "size": "1024x1024" }'

code

import os from openai import OpenAI

client = OpenAI( base_url=os.getenv("BASE_URL", "https://hk.hyucloud.com/v1"), api_key=os.getenv("API_KEY", "$hyucloud_API_KEY") )

response = client.images.generate( model="Qwen/Qwen-Image-Edit", prompt="Convert to quick pencil sketch", extra_body={ "image": "data:image/png;base64,{image_base64_string}", "size": "1024x1024" } )

print(response.data[0].url)

code

### 响应

{ "created": 1750667997, "data": [ { "url": "https://xxxxx/xxxx.png", "b64_json": "data:image/png;base64,{image_base64_string}" } ], "usage": { "input_tokens_details": {} } }

code

{ "error": { "message": "error_message", "type": "error_type", "param": "request_id", "code": "error_code" } }

code

{/*
TODO:异步请求
### 异步请求

Qwen/Qwen-Image API#

本文介绍 Qwen/Qwen-Image 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


请求参数#

请求体#

字段名类型是否必须默认值描述
promptstring必须-提示词
modelstring必须-本次请求使用的模型名称,此处为 Qwen/Qwen-Image
seedint可选-1随机数种子,用于控制模型生成内容的随机性。如果希望生成内容保持一致,可以使用相同的 seed 参数值。
sizestring可选1664x928生成图像的尺寸(宽x高)。默认 1664x928,可选值及对应比例:1664x928(16:9)、1472x1104(4:3)、1328x1328(1:1)、1104x1472(3:4)、928x1664(9:16)

响应参数#

字段名类型描述
createdinteger本次请求创建时间的 Unix 时间戳(秒)。
dataarray输出图像的信息,包括图像下载的 URL 或 Base64。<br/>• 当指定返回生成图像的格式为 url 时,则相应参数的子字段为 url;<br/>• 当指定返回生成图像的格式为 b64_json 时,则相应参数的子字段为 b64_json。<br/>注意:链接将在生成后 7 天内失效,请务必及时保存图像。
errorObject错误信息对象
error.codestring错误码
error.messagestring错误提示信息
error.paramstring请求 id

示例#

OPENAI 兼容接口#

POST https://hk.hyucloud.com/v1/images/generations

同步请求#

bash
curl --location 'https://hk.hyucloud.com/v1/images/generations' \
--header "Authorization: Bearer $hyucloud_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "Qwen/Qwen-Image",
    "prompt": "Convert to quick pencil sketch",
    "size": "1024x1024"
}'
python
import os
from openai import OpenAI

client = OpenAI(
    base_url=os.getenv("BASE_URL", "https://hk.hyucloud.com/v1"),
    api_key=os.getenv("API_KEY", "$hyucloud_API_KEY")
)

response = client.images.generate(
    model="Qwen/Qwen-Image",
    prompt="Convert to quick pencil sketch",
    size="1024x1024"
)

print(response.data[0].url)

响应#

json
{
  "created": 1750667997,
  "data": [
    {
      "url": "https://xxxxx/xxxx.png",
      "b64_json": "data:image/png;base64,{image_base64_string}"
    }
  ],
  "usage": {
    "input_tokens_details": {}
  }
}
json
{
  "error": {
    "message": "error_message",
    "type": "error_type",
    "param": "request_id",
    "code": "error_code"
  }
}

{/* TODO:异步请求

异步请求#

*/}

---

# gpt-image-1 API

本文介绍 `gpt-image-1` 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。

---

## 请求参数

### 请求体

| 字段名              | 类型   | 是否必须 | 默认值        | 描述                                                                                                                       |
| ------------------- | ------ | -------- | ------------- | -------------------------------------------------------------------------------------------------------------------------- |
| prompt              | string | 必须     | -             | 提示词                                                                                                                     |
| model               | string | 必须     | -             | 本次请求使用的模型名称,此处为 `gpt-image-1`。                                                                             |
| n                   | int    | 可选     | 1             | 生成图片数量,取值范围为 1~4                                                                                               |
| size                | string | 可选     | "1024x1024"   | 分辨率。GPT‑image‑1 支持 `1024x1024`、`1024x1536`、`1536x1024`。                                                             |
| quality             | string | 可选     | -             | 图片质量,支持 `low`、`medium`、`high`;质量越高耗时越长。                                                                  |
| output_format       | string | 可选     | "png"         | 输出图片格式,支持 `png`、`jpeg`。                                                                                          |
| output_compression  | int    | 可选     | 100           | 图片压缩强度,取值 0~100;`0` 为不压缩,`100` 为最大压缩。                                                                  |

## 响应参数

| 字段名        | 类型      | 描述                                                                                                                                                                                                                                                    |
| ------------- | --------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| created       | `integer` | 本次请求创建时间的 Unix 时间戳(秒)。                                                                                                                                                                                                                  |
| data          | `array`   | 输出图像的信息,包括图像下载的 URL 或 Base64,gpt-image-1模型返回的是base64数据。<br/>• 当指定返回生成图像的格式为 url 时,则相应参数的子字段为 url;<br/>• 当指定返回生成图像的格式为 b64_json 时,则相应参数的子字段为 b64_json。<br/>注意:链接将在生成后 7 天内失效,请务必及时保存图像。 |
| error         | `Object`  | 错误信息对象                                                                                                                                                                                                                                            |
| error.code    | `string`  | 错误码                                                                                                                                                                                                                                                  |
| error.message | `string`  | 错误提示信息                                                                                                                                                                                                                                            |
| error.param   | `string`  | 请求 id                                                                                                                                                                                                                                                 |

## 示例

### OPENAI 兼容接口

`POST https://hk.hyucloud.com/v1/images/generations`

#### 同步请求

#### curl

curl --location 'https://hk.hyucloud.com/v1/images/generations' \ --header "Authorization: Bearer $hyucloud_API_KEY" \ --header 'Content-Type: application/json' \ --data '{ "model": "gpt-image-1", "prompt": "a beautiful flower", "size": "1024x1024", "quality": "high", "output_format": "png", "output_compression": 100 }'

code

#### python

import os, base64 from openai import OpenAI

client = OpenAI( base_url="https://hk.hyucloud.com/v1", api_key=os.getenv("hyucloud_API_KEY", "YOUR_API_KEY") )

res = client.images.generate( model="gpt-image-1", prompt="a beautiful flower", size="1024x1024", quality="high", )

gpt-image-1 返回 base64 数据#

image_b64 = res.data[0].b64_json raw = image_b64.split(",")[-1] if image_b64.startswith("data:") else image_b64 with open("image.png", "wb") as f: f.write(base64.b64decode(raw)) print("Saved to image.png")

code


### 图片编辑

`POST https://hk.hyucloud.com/v1/images/edits`

使用 multipart/form-data 传参,至少包含待编辑图片 `image`(可选 `mask`)、以及 `model`、`prompt` 等字段;其余参数如 `size`、`quality`、`output_format`、`output_compression` 与生成接口一致。

#### curl

curl --location 'https://hk.hyucloud.com/v1/images/edits' \ --header "Authorization: Bearer $hyucloud_API_KEY" \ -F "image=@/path/to/your/image.png" \ -F "mask=@/path/to/your/mask.png" \ -F "model=gpt-image-1" \ -F "prompt=Add a beach ball in the center" \ -F "size=1024x1024" \ -F "n=1" \ -F "quality=high" \ -F "output_format=png" \ -F "output_compression=100"

code

#### python

import os, base64, requests

url = "https://hk.hyucloud.com/v1/images/edits" headers = {"Authorization": f"Bearer {os.getenv('hyucloud_API_KEY', '$hyucloud_API_KEY')}"}

files = { "image": ("beach.png", open("beach.png", "rb"), "image/png"), # 可选:提供 mask 来限定编辑区域 # "mask": ("mask.png", open("mask.png", "rb"), "image/png"), }

data = { "model": "gpt-image-1", "prompt": "Add a beach ball in the center", "size": "1024x1024", "n": "1", "quality": "high", "output_format": "png", "output_compression": "100", }

r = requests.post(url, headers=headers, files=files, data=data) r.raise_for_status() resp = r.json()

image_b64 = resp["data"][0]["b64_json"] raw = image_b64.split(",")[-1] if image_b64.startswith("data:") else image_b64 with open("edit.png", "wb") as f: f.write(base64.b64decode(raw)) print("Saved to edit.png")

code


### 响应

{ "created": 1750667997, "data": [ { "b64_json": "{image_base64_string}" } ], "usage": { "total_tokens": 4169, "input_tokens": 9, "output_tokens": 4160, "input_tokens_details": { "text_tokens": 9 } } }

code

{ "error": { "message": "error_message", "type": "error_type", "param": "request_id", "code": "error_code" } }

code

{/*
TODO:异步请求
### 异步请求

gpt-image-1-mini API#

本文介绍 gpt-image-1-mini 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


请求参数#

请求体#

字段名类型是否必须默认值描述
promptstring必须-提示词
modelstring必须-本次请求使用的模型名称,此处为 gpt-image-1-mini
nint可选1生成图片数量,取值范围为 1~10
sizestring可选1024x1536分辨率。支持 1024x10241024x15361536x1024
qualitystring可选-图片质量,支持 lowmediumhigh;质量越高耗时越长。
backgroundstring可选auto背景透明度,支持 transparent(透明)、opaque(不透明)、auto(自动)。设为 transparent 时需配合 output_format=png
moderationstring可选auto内容审核级别,支持 auto(默认)、low(宽松)。
output_formatstring可选png输出图片格式,支持 pngjpeg
output_compressionint可选-图片压缩强度,取值 0~100;0 为不压缩,100 为最大压缩。仅对 jpeg 格式生效。
userstring可选-终端用户标识符,透传给上游用于滥用检测,不影响生成结果。

响应参数#

字段名类型描述
createdinteger本次请求创建时间的 Unix 时间戳(秒)。
backgroundstring本次生成图片的背景类型,与请求参数 background 对应,如 opaquetransparent
output_formatstring本次生成图片的格式,与请求参数 output_format 对应,如 pngjpeg
qualitystring本次生成图片的质量,与请求参数 quality 对应,如 lowmediumhigh
sizestring本次生成图片的分辨率,与请求参数 size 对应,如 1024x1024
dataarray输出图像的信息,gpt-image-1-mini 模型返回的是 base64 数据。<br/>• b64_json:base64 编码的图片数据,解码后即为原始图片文件。
usageobject本次请求的 token 用量。
usage.input_tokensinteger输入消耗的 token 总数。
usage.input_tokens_details.text_tokensinteger输入中文字 prompt 消耗的 token 数。
usage.input_tokens_details.image_tokensinteger输入中图片消耗的 token 数(图片编辑接口传入图片时有值,纯文字生图时为 0)。
usage.output_tokensinteger输出消耗的 token 总数。
usage.output_tokens_details.image_tokensinteger输出图片消耗的 token 数。
usage.total_tokensinteger本次请求消耗的 token 总数。
errorObject错误信息对象
error.codestring错误码
error.messagestring错误提示信息
error.paramstring请求 id

示例#

OPENAI 兼容接口#

POST https://hk.hyucloud.com/v1/images/generations

同步请求#

curl#

bash
curl --location 'https://hk.hyucloud.com/v1/images/generations' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "gpt-image-1-mini",
    "prompt": "a beautiful flower",
    "size": "1024x1024",
    "quality": "high",
    "output_format": "png",
    "output_compression": 100
  }'

python#

python
import os, base64
from openai import OpenAI

client = OpenAI(
    base_url="https://hk.hyucloud.com/v1",
    api_key=os.getenv("hyucloud_API_KEY", "YOUR_API_KEY")
)

res = client.images.generate(
    model="gpt-image-1-mini",
    prompt="a beautiful flower",
    size="1024x1024",
    quality="high",
)

# gpt-image-1-mini 返回 base64 数据
image_b64 = res.data[0].b64_json
raw = image_b64.split(",")[-1] if image_b64.startswith("data:") else image_b64
with open("image.png", "wb") as f:
    f.write(base64.b64decode(raw))
print("Saved to image.png")

图片编辑#

POST https://hk.hyucloud.com/v1/images/edits

使用 multipart/form-data 传参,至少包含待编辑图片 image(可选 mask)、以及 modelprompt 等字段;其余参数如 sizequalityoutput_formatoutput_compression 与生成接口一致。

mask 说明:mask 为可选参数,用于指定图片中需要编辑的区域(透明区域=需要编辑,不透明区域=保留)。使用时需满足以下两个条件:

1. 必须为 PNG 格式且包含 alpha 通道(RGBA 模式),普通 RGB 的 PNG 或 JPEG 不支持;

2. 尺寸必须与原图 image 完全一致

curl#

bash
curl --location 'https://hk.hyucloud.com/v1/images/edits' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  -F "image=@/path/to/your/image.png" \
  -F "mask=@/path/to/your/mask.png" \
  -F "model=gpt-image-1-mini" \
  -F "prompt=Add a beach ball in the center" \
  -F "size=1024x1024" \
  -F "n=1" \
  -F "quality=high" \
  -F "output_format=png" \
  -F "output_compression=100"

python#

python
import os, base64, requests

url = "https://hk.hyucloud.com/v1/images/edits"
headers = {"Authorization": f"Bearer {os.getenv('hyucloud_API_KEY', '$hyucloud_API_KEY')}"}

files = {
    "image": ("beach.png", open("beach.png", "rb"), "image/png"),
    # 可选:提供 mask 来限定编辑区域
    # "mask": ("mask.png", open("mask.png", "rb"), "image/png"),
}

data = {
    "model": "gpt-image-1-mini",
    "prompt": "Add a beach ball in the center",
    "size": "1024x1024",
    "n": "1",
    "quality": "high",
    "output_format": "png",
    "output_compression": "100",
}

r = requests.post(url, headers=headers, files=files, data=data)
r.raise_for_status()
resp = r.json()

image_b64 = resp["data"][0]["b64_json"]
raw = image_b64.split(",")[-1] if image_b64.startswith("data:") else image_b64
with open("edit.png", "wb") as f:
    f.write(base64.b64decode(raw))
print("Saved to edit.png")

响应#

json
{
  "created": 1748484857,
  "background": "opaque",
  "output_format": "png",
  "quality": "low",
  "size": "1024x1024",
  "data": [
    {
      "b64_json": "{image_base64_string}"
    }
  ],
  "usage": {
    "total_tokens": 280,
    "input_tokens": 8,
    "output_tokens": 272,
    "input_tokens_details": {
      "image_tokens": 0,
      "text_tokens": 8
    },
    "output_tokens_details": {
      "image_tokens": 272,
      "text_tokens": 0
    }
  }
}
json
{
  "error": {
    "message": "error_message",
    "type": "error_type",
    "param": "request_id",
    "code": "error_code"
  }
}

gpt-image-1.5 API#

本文介绍 gpt-image-1.5 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


请求参数#

请求体#

字段名类型是否必须默认值描述
promptstring必须-提示词
modelstring必须-本次请求使用的模型名称,此处为 gpt-image-1.5
nint可选1生成图片数量,取值范围为 1~4
sizestring可选"1024x1024"分辨率。GPT‑image‑1.5 支持 1024x10241024x15361536x1024
qualitystring可选-图片质量,支持 lowmediumhigh;质量越高耗时越长。相比 1.0 版本,生成速度提升 4 倍,成本降低 20%。
output_formatstring可选"png"输出图片格式,支持 pngjpegwebp
output_compressionint可选100图片压缩强度,取值 0~100;0 为不压缩,100 为最大压缩。

响应参数#

字段名类型描述
createdinteger本次请求创建时间的 Unix 时间戳(秒)。
dataarray输出图像的信息,包括图像下载的 URL 或 Base64,gpt-image-1.5模型返回的是base64数据。<br/>• 当指定返回生成图像的格式为 url 时,则相应参数的子字段为 url;<br/>• 当指定返回生成图像的格式为 b64_json 时,则相应参数的子字段为 b64_json。<br/>注意:链接将在生成后 7 天内失效,请务必及时保存图像。
errorObject错误信息对象
error.codestring错误码
error.messagestring错误提示信息
error.paramstring请求 id

示例#

OPENAI 兼容接口#

POST https://hk.hyucloud.com/v1/images/generations

同步请求#

curl#

bash
curl --location 'https://hk.hyucloud.com/v1/images/generations' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "gpt-image-1.5",
    "prompt": "a beautiful flower",
    "size": "1024x1024",
    "quality": "high",
    "output_format": "png",
    "output_compression": 100
  }'

python#

python
import os, base64
from openai import OpenAI

client = OpenAI(
    base_url="https://hk.hyucloud.com/v1",
    api_key=os.getenv("hyucloud_API_KEY", "YOUR_API_KEY")
)

res = client.images.generate(
    model="gpt-image-1.5",
    prompt="a beautiful flower",
    size="1024x1024",
    quality="high",
)

# gpt-image-1.5 返回 base64 数据
image_b64 = res.data[0].b64_json
raw = image_b64.split(",")[-1] if image_b64.startswith("data:") else image_b64
with open("image.png", "wb") as f:
    f.write(base64.b64decode(raw))
print("Saved to image.png")

图片编辑#

POST https://hk.hyucloud.com/v1/images/edits

gpt-image-1.5 支持更精确的局部编辑功能,能够针对特定区域进行修改,同时保持其他区域的构图、色调和人物外观一致,避免整体重绘。

使用 multipart/form-data 传参,至少包含待编辑图片 image(可选 mask)、以及 modelprompt 等字段;其余参数如 sizequalityoutput_formatoutput_compression 与生成接口一致。

curl#

bash
curl --location 'https://hk.hyucloud.com/v1/images/edits' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  -F "image=@/path/to/your/image.png" \
  -F "mask=@/path/to/your/mask.png" \
  -F "model=gpt-image-1.5" \
  -F "prompt=Add a beach ball in the center" \
  -F "size=1024x1024" \
  -F "n=1" \
  -F "quality=high" \
  -F "output_format=png" \
  -F "output_compression=100"

python#

python
import os, base64, requests

url = "https://hk.hyucloud.com/v1/images/edits"
headers = {"Authorization": f"Bearer {os.getenv('hyucloud_API_KEY', '$hyucloud_API_KEY')}"}

files = {
    "image": ("beach.png", open("beach.png", "rb"), "image/png"),
    # 可选:提供 mask 来限定编辑区域
    # "mask": ("mask.png", open("mask.png", "rb"), "image/png"),
}

data = {
    "model": "gpt-image-1.5",
    "prompt": "Add a beach ball in the center",
    "size": "1024x1024",
    "n": "1",
    "quality": "high",
    "output_format": "png",
    "output_compression": "100",
}

r = requests.post(url, headers=headers, files=files, data=data)
r.raise_for_status()
resp = r.json()

image_b64 = resp["data"][0]["b64_json"]
raw = image_b64.split(",")[-1] if image_b64.startswith("data:") else image_b64
with open("edit.png", "wb") as f:
    f.write(base64.b64decode(raw))
print("Saved to edit.png")

响应#

json
{
  "created": 1750667997,
  "data":
  [
    {
      "b64_json": "{image_base64_string}"
    }
  ],
  "usage":
  {
    "total_tokens": 4169,
    "input_tokens": 9,
    "output_tokens": 4160,
    "input_tokens_details":
    {
      "text_tokens": 9
    }
  }
}
json
{
  "error": {
    "message": "error_message",
    "type": "error_type",
    "param": "request_id",
    "code": "error_code"
  }
}

gpt-image-2 API#

本文介绍 gpt-image-2 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


请求参数#

请求体#

字段名类型是否必须默认值描述
promptstring必须-提示词
modelstring必须-本次请求使用的模型名称,此处为 gpt-image-2
nint可选1生成图片数量,取值范围为 1~10
sizestring可选"auto"分辨率。GPT‑image‑2 支持任意分辨率:宽高都必须是 16 像素的倍数;最高支持 3840 像素(4K);宽高比最高支持 3:1;像素总数范围为 655360–8294400。推荐: 1024x10241024x15361536x10242048x20482048x11522160x3840
qualitystring可选-图片质量,支持 lowmediumhigh;质量越高耗时越长。
output_formatstring可选"png"输出图片格式,支持 pngjpeg
output_compressionint可选100图片压缩强度,取值 0~100;0 为不压缩,100 为最大压缩。

响应参数#

字段名类型描述
createdinteger本次请求创建时间的 Unix 时间戳(秒)。
dataarray输出图像的信息,包括图像下载的 URL 或 Base64,gpt-image-2模型返回的是base64数据。<br>• 当指定返回生成图像的格式为 url 时,则相应参数的子字段为 url;<br>• 当指定返回生成图像的格式为 b64_json 时,则相应参数的子字段为 b64_json。<br>注意:链接将在生成后 7 天内失效,请务必及时保存图像。
errorObject错误信息对象
error.codestring错误码
error.messagestring错误提示信息
error.paramstring请求 id

示例#

OPENAI 兼容接口#

POST https://hk.hyucloud.com/v1/images/generations

同步请求#

<!-- tabs:start -->

curl #

bash
curl --location 'https://hk.hyucloud.com/v1/images/generations' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "gpt-image-2",
    "prompt": "a beautiful flower",
    "size": "1024x1024",
    "quality": "high",
    "output_format": "png",
    "output_compression": 100
  }'

python #

python
import os, base64
from openai import OpenAI

client = OpenAI(
    base_url="https://hk.hyucloud.com/v1",
    api_key=os.getenv("hyucloud_API_KEY", "YOUR_API_KEY")
)

res = client.images.generate(
    model="gpt-image-2",
    prompt="a beautiful flower",
    size="1024x1024",
    quality="high",
)

# gpt-image-2 返回 base64 数据
image_b64 = res.data[0].b64_json
raw = image_b64.split(",")[-1] if image_b64.startswith("data:") else image_b64
with open("image.png", "wb") as f:
    f.write(base64.b64decode(raw))
print("Saved to image.png")

<!-- tabs:end -->

图片编辑#

POST https://hk.hyucloud.com/v1/images/edits

gpt-image-2 支持两种编辑模式:

  • 局部编辑:针对单张图片的特定区域进行修改,同时保持其他区域的构图、色调和人物外观一致,避免整体重绘。可配合 mask 字段限定编辑区域。
  • 多图合成:传入多张参考图(通过重复字段 image[]),模型将所有图片的内容融合为一张新图,适合礼盒组合、产品拼图、场景合成等场景。

使用 multipart/form-data 传参,至少包含待编辑图片 image(单图)或 image[](多图,可重复),以及 modelprompt 等字段;其余参数如 sizequalityoutput_formatoutput_compression 与生成接口一致。

<!-- tabs:start -->

curl #

bash
curl --location 'https://hk.hyucloud.com/v1/images/edits' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  -F "image=@/path/to/your/image.png" \
  -F "mask=@/path/to/your/mask.png" \
  -F "model=gpt-image-2" \
  -F "prompt=Add a beach ball in the center" \
  -F "size=1024x1024" \
  -F "n=1" \
  -F "quality=low" \
  -F "output_format=png" \
  -F "output_compression=100"

python #

python
import os, base64, requests

url = "https://hk.hyucloud.com/v1/images/edits"
headers = {"Authorization": f"Bearer {os.getenv('hyucloud_API_KEY', '$hyucloud_API_KEY')}"}

files = {
    "image": ("beach.png", open("beach.png", "rb"), "image/png"),
    # 可选:提供 mask 来限定编辑区域
    # "mask": ("mask.png", open("mask.png", "rb"), "image/png"),
}

data = {
    "model": "gpt-image-2",
    "prompt": "Add a beach ball in the center",
    "size": "1024x1024",
    "n": "1",
    "quality": "high",
    "output_format": "png",
    "output_compression": "100",
}

r = requests.post(url, headers=headers, files=files, data=data)
r.raise_for_status()
resp = r.json()

image_b64 = resp["data"][0]["b64_json"]
raw = image_b64.split(",")[-1] if image_b64.startswith("data:") else image_b64
with open("edit.png", "wb") as f:
    f.write(base64.b64decode(raw))
print("Saved to edit.png")

<!-- tabs:end -->

多图合成示例#

将多张产品图合成为一张礼盒展示图,通过重复字段 image[] 传入多张图片:

输入图片(4 张)

body-lotion.pngbath-bomb.pngincense-kit.pngsoap.png
!body-lotion!bath-bomb!incense-kit!soap

输出图片

!output

<!-- tabs:start -->

curl #

bash
curl --location 'https://hk.hyucloud.com/v1/images/edits' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  -F "model=gpt-image-2" \
  -F "image[]=@./body-lotion.png" \
  -F "image[]=@./bath-bomb.png" \
  -F "image[]=@./incense-kit.png" \
  -F "image[]=@./soap.png" \
  -F "prompt=a beautiful gift basket containing all these products arranged elegantly"

python #

python
import os, base64, requests

url = "https://hk.hyucloud.com/v1/images/edits"
headers = {"Authorization": f"Bearer {os.getenv('hyucloud_API_KEY', '$hyucloud_API_KEY')}"}

image_paths = [
    "body-lotion.png",
    "bath-bomb.png",
    "incense-kit.png",
    "soap.png",
]

# image[] 重复字段需用列表形式传入
files = [("image[]", (p, open(p, "rb"), "image/png")) for p in image_paths]

data = {
    "model": "gpt-image-2",
    "prompt": "a beautiful gift basket containing all these products arranged elegantly",
}

r = requests.post(url, headers=headers, files=files, data=data)
r.raise_for_status()
resp = r.json()

image_b64 = resp["data"][0]["b64_json"]
with open("output.png", "wb") as f:
    f.write(base64.b64decode(image_b64))
print("Saved to output.png")

<!-- tabs:end -->

注意:多图合成时无需传 mask;输出尺寸由模型自动决定,不一定为正方形。

响应#

json
{
  "created": 1750667997,
  "data":
  [
    {
      "b64_json": "{image_base64_string}"
    }
  ],
  "usage":
  {
    "total_tokens": 4169,
    "input_tokens": 9,
    "output_tokens": 4160,
    "input_tokens_details":
    {
      "text_tokens": 9
    }
  }
}
json
{
  "error": {
    "message": "error_message",
    "type": "error_type",
    "param": "request_id",
    "code": "error_code"
  }
}

doubao-seedream API#

本文介绍 doubao-seedream-4.5,doubao-seedream-5-0-260128 模型调用 API 的输入输出参数,供您使用接口时查阅字段含义。


请求参数#

请求体#

字段名类型是否必须默认值描述
modelstring必须-本次请求使用的模型名称,此处可填:<br/>doubao-seedream-4.5<br/>doubao-seedream-5-0-260128
promptstring必须-用于生成图像的提示词,支持中英文,建议不超过300个汉字或600个英文单词。
imagesarray(string)可选-输入的图片信息,支持 URL 或 Base64 编码。支持单图或多图输入,最多支持传入 14 张参考图。<br/>图片URL:请确保图片URL可被访问。<br/>Base64编码:请遵循此格式data:image/&lt;图片格式&gt;;base64,&lt;Base64编码&gt;。注意 &lt;图片格式&gt; 需小写,如 data:image/png;base64,&lt;base64_image&gt;。
sizestring可选-指定生成图像的尺寸信息,支持以下两种方式,不可混用。<br/>方式 1 : 指定生成图像的分辨率,并在prompt中用自然语言描述图片宽高比、图片形状或图片用途,最终由模型判断生成图片的大小。可选值:2K、4K。<br/>方式2:指定生成图像的宽高像素值,默认值:2048x2048,总像素取值范围:[2560x1440=3686400, 4096x4096=16777216] ,宽高比取值范围:[1/16, 16],推荐:2048x2048,2304x1728,1728x2304,2560x1440,1440x2560,2496x1664,1664x2496,3024x1296
sequential_image_generationstring可选disabled控制是否关闭组图功能。<br/>auto:自动判断模式,模型会根据用户提供的提示词自主判断是否返回组图以及组图包含的图片数量。<br/>disabled:关闭组图功能,模型只会生成一张图。
sequential_image_generation<br/>_optionsobject可选-组图功能的配置。仅当 sequential_image_generation 为 auto 时生效。
sequential_image_generation<br/>_options.max_imagesinteger可选-指定本次请求,最多可生成的图片数量。取值范围: [1, 15]
streamBoolean可选false控制是否开启流式输出模式。<br/>false:非流式输出模式,等待所有图片全部生成结束后再一次性返回所有信息。<br/>true:流式输出模式,即时返回每张图片输出的结果。在生成单图和组图的场景下,流式输出模式均生效。
response_formatstring可选url指定生成图像的返回格式。<br/>生成的图片为 jpeg 格式,支持以下两种返回方式:<br/>url:返回图片下载链接;链接在图片生成后24小时内有效,请及时下载图片。<br/>b64_json:以 Base64 编码字符串的 JSON 格式返回图像数据。
watermarkBoolean可选true是否在生成的图片中添加水印。<br/>false:不添加水印。<br/>true:在图片右下角添加“AI生成”字样的水印标识。
optimize_prompt_optionsobject可选-提示词优化功能的配置。
toolsarray[object]可选-配置模型要调用的工具。仅 doubao-seedream-5-0-260128 支持该参数
tools.typestring可选web_searchweb_search:联网搜索功能。<br/>开启联网搜索后,模型会根据用户的提示词自主判断是否搜索互联网内容(如商品、天气等),提升生成图片的时效性,但也会增加一定的时延。
output_formatstring可选jpeg指定生成图像的文件格式。仅 doubao-seedream-5-0-260128 支持该参数。<br/>可选值:<br/>png<br/>jpeg

非stream响应参数#

字段名类型描述
modelstring本次请求使用的模型 ID (模型名称-版本)。
createdinteger本次请求创建时间的 Unix 时间戳(秒)。
dataarray输出图像的信息。可能是图像信息,也可能是错误信息。
data.urlstring图片的 url 信息,当 response_format 指定为 url 时返回。该链接将在生成后 24 小时内失效,请务必及时保存图像。
data.b64_jsonstring图片的 base64 信息,当 response_format 指定为 b64_json 时返回。
data.sizestring图像的宽高像素值,格式 &lt;宽像素&gt;x&lt;高像素&gt;,如2048×2048。
data.errorobject错误信息结构体。
data.error.codestring某张图片生成错误的错误码。
data.error.messagestring某张图片生成错误的提示信息。
usageobject本次请求的用量信息。
usage.generated_imagesinteger模型成功生成的图片张数,不包含生成失败的图片。仅对成功生成图片按张数进行计费。
usage.output_tokensinteger模型生成的图片花费的 token 数量。<br/>计算逻辑为:计算 sum(图片长*图片宽)/256 ,然后取整。
usage.total_tokensinteger本次请求消耗的总 token 数量。<br/>当前不计算输入 token,故与 output_tokens 值一致。
errorobject本次请求,如发生错误,对应的错误信息。
error.codestring错误码。
error.messagestring错误提示信息。

stream响应参数#

当您调用图片生成API 并将 stream 设置为 true 时,服务器会在生成响应的过程中,通过 Server-Sent Events(SSE)实时向客户端推送事件。以下为服务器会推送的各类事件。

image_generation.partial_succeeded:#

在流式响应模式下,当任意图片生成成功时返回该事件。

字段名类型描述
typestring在流式响应模式下,当任意图片生成成功时返回该事件。这里应为:image_generation.partial_succeeded。
modelstring本次请求使用的模型 ID。
createdinteger本次请求创建时间的 Unix 时间戳(秒)。
image_indexinteger本次生图请求中,本次事件对应图片在请求中的序号。从 0开始累加,不管生图是否成功,即在 image_generation.partial_succeeded、image_generation.partial_failed 事件,均会自动累加 1。
urlstring本次事件对应图片的下载 URL。当请求中配置字段 response_format 为 url 时返回。
b64_jsonstring本次事件对应图片的 Base64 编码。当请求中配置字段 response_format 为 b64_json 时返回。
sizestring图像的宽高像素值,格式&lt;宽像素&gt;×&lt;高像素&gt;,如 2048×2048。

image_generation.partial_failed:#

在流式返回模式下,当任意图片生成失败时返回该事件。

字段名类型描述
typestring此处应为 image_generation.partial_failed
modelstring本次请求使用的模型 ID。
createdinteger本次请求创建时间的 Unix 时间戳(秒)。
image_indexinteger本次生图请求中,本次事件对应图片在请求中的序号。从 0开始累加,不管图片是否生成成功,即在image_generation.partial_succeeded、image_generation.partial_failed 事件,均会自动累加 1。
errorobject本次生图请求中,本次事件对应的错误原因。
error.codestring错误码。
error.messagestring错误提示信息。

image_generation.completed:#

请求的所有图片(无论成功或失败)均处理完毕后返回,是该流式返回的最后一个响应事件。

字段名类型描述
typestring此处应为 image_generation.completed。
modelstring本次请求使用的模型 ID。
createdinteger本次请求创建时间的 Unix 时间戳(秒)。
usageobject本次请求的用量信息。
usage.generated_imagesinteger模型成功生成的图片张数,不包含生成失败的图片。仅对成功生成图片按张数进行计费。
usage.output_tokensinteger模型生成的图片花费的 token 数量。<br/>计算逻辑为:计算sum(图片长*图片宽)/256 ,然后取整
usage.total_tokensinteger本次请求消耗的总 token 数量。当前不计算输入 token,故与 output_tokens 值一致。

示例#

OPENAI 兼容接口#

POST https://hk.hyucloud.com/v1/images/generations

curl#

bash
curl --location 'https://hk.hyucloud.com/v1/images/generations' \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "doubao-seedream-4.5",
    "prompt": "将图片转换为铅笔素描",
    "images": ["https://hk.hyucloud.com/hyucloud-maxcot.jpg"],
    "size": "2k",
    "watermark": false,
    "stream": false,
    "response_format":"url"
  }'
  ```
  #### ** seedream-5.0联网搜索 **

curl --location 'https://hk.hyucloud.com/v1/images/generations' \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $hyucloud_API_KEY" \ -d '{ "model": "doubao-seedream-5-0-260128", "prompt": "制作一张上海未来5日的天气预报图,采用现代扁平化插画风格,清晰展示每日天气、温度和穿搭建议。", "size": "2k", "tools": [ { "type": "web_search" } ], "output_format":"jpeg", "response_format": "url", "watermark": false }' ```

python#

python
import os
from openai import OpenAI

client = OpenAI(
    base_url="https://hk.hyucloud.com/v1",
    api_key=os.getenv("hyucloud_API_KEY", "YOUR_API_KEY")
)

response = client.images.generate(
    model="doubao-seedream-4.5",
    prompt="Convert to quick pencil sketch",
    extra_body={
        "images":["https://hk.hyucloud.com/hyucloud-maxcot.jpg"],
        "size":"2K",
        "response_format":"url",
        "watermark":False
    }
)

print(response.data[0].url)

响应#

json
{
	"model": "doubao-seedream-4-5-251128",
	"created": 1767939740,
	"data": [{
		"url": "https://xxxxxx",
		"size": "2048x2048"
	}],
	"usage": {
		"generated_images": 1,
		"output_tokens": 16384,
		"total_tokens": 16384
	}
}

Midjourney API#

本文介绍通过 環宇互聯 调用 Midjourney 的完整流程,包含文生图、放大、变体和重新生成四个操作。


模型列表#

模型名功能
midjourney-fast-imagine文生图,输入提示词,返回 4 张图的拼合网格图
midjourney-fast-upscale放大单张图(U1~U4 及后续二次操作)
midjourney-fast-variation变体,基于某张图重新生成 4 张(V1~V4)
midjourney-fast-reroll重新生成全部 4 张(🔄)

服务地址#

接口方法地址
提交任务POSThttps://hk.hyucloud.com/v1/tasks/submit
查询状态GEThttps://hk.hyucloud.com/v1/tasks/status

认证方式:Authorization: Bearer <your-api-key>


工作流#

所有 Midjourney 任务均为异步执行:

1. POST /v1/tasks/submit 提交任务,得到 task_id 2. 轮询 GET /v1/tasks/status?task_id=<task_id>,直到 task_statusSuccessFailure


接口详情#

提交任务#

POST https://hk.hyucloud.com/v1/tasks/submit

请求体#

json
{
  "model": "<模型名>",
  "input": {
    "prompt": "<提示词,仅 imagine 需要>"
  },
  "parameters": {
    "mj_task_id": "<上一步操作的 task_id,upscale / variation / reroll 必填>",
    "mj_custom_id": "<buttons 中的 custom_id,upscale / variation / reroll 必填>"
  }
}

参数说明#

字段类型是否必须说明
modelstring必须模型名,见上方模型列表
input.promptstringimagine 必须文生图提示词
parameters.mj_task_idstringupscale / variation / reroll 必须关联的上一步任务 ID
parameters.mj_custom_idstringupscale / variation / reroll 必须来自上一步查询结果 buttons 中的 custom_id

响应#

json
{
  "output": {
    "task_id": "1775203239196609"
  },
  "request_id": "abc123..."
}

查询任务状态#

GET https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

响应#

json
{
  "output": {
    "task_id": "1775203239196609",
    "task_status": "Success",
    "urls": ["https://...图片地址..."],
    "submit_time": 1775203239,
    "buttons": [
      {"custom_id": "MJ::JOB::upsample::1::431a5822-...", "label": "U1"},
      {"custom_id": "MJ::JOB::upsample::2::431a5822-...", "label": "U2"},
      {"custom_id": "MJ::JOB::upsample::3::431a5822-...", "label": "U3"},
      {"custom_id": "MJ::JOB::upsample::4::431a5822-...", "label": "U4"},
      {"custom_id": "MJ::JOB::reroll::0::431a5822-...::SOLO", "emoji": "🔄"},
      {"custom_id": "MJ::JOB::variation::1::431a5822-...", "label": "V1"},
      {"custom_id": "MJ::JOB::variation::2::431a5822-...", "label": "V2"},
      {"custom_id": "MJ::JOB::variation::3::431a5822-...", "label": "V3"},
      {"custom_id": "MJ::JOB::variation::4::431a5822-...", "label": "V4"}
    ]
  }
}

task_status 枚举#

含义
Pending排队中
Running生成中
Success成功
Failure失败,见 error_message 字段

响应字段说明#

字段类型说明
output.task_idstring任务 ID
output.task_statusstring任务状态,见上方枚举
output.urlsarray图片直链列表。imagine / variation / reroll 返回 1 张网格拼合图;upscale 返回 1 张单图
output.submit_timeinteger提交时间的 Unix 时间戳(秒)
output.buttonsarray可继续操作的按钮列表,每项含 custom_id

完整示例#

Step 1 — 文生图(imagine)#

bash
curl -X POST https://hk.hyucloud.com/v1/tasks/submit \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "midjourney-fast-imagine",
    "input": {
      "prompt": "a cute cat sitting on a cloud, anime style"
    }
  }'

提交后轮询查询接口,直到 task_statusSuccess

bash
curl "https://hk.hyucloud.com/v1/tasks/status?task_id=1775203239196609" \
  -H "Authorization: Bearer $hyucloud_API_KEY"

成功后记录:

  • urls[0]:4 张图的拼合网格图地址
  • task_id:后续 upscale / variation / reroll 需要
  • buttons:后续操作的 custom_id 来源

Step 2a — 放大单张(upscale,以 U1 为例)#

buttons 中找到 label"U1" 的项,取其 custom_id

bash
curl -X POST https://hk.hyucloud.com/v1/tasks/submit \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "midjourney-fast-upscale",
    "input": {},
    "parameters": {
      "mj_task_id":   "1775203239196609",
      "mj_custom_id": "MJ::JOB::upsample::1::431a5822-bfb2-4c55-8fc5-fc101abebd91"
    }
  }'

upscale 成功后同样返回 buttons,包含更多二次操作选项(二次放大、Vary、Zoom、Pan、Animate 等),均可继续通过 midjourney-fast-upscale 模型发起。


Step 2b — 变体(variation,以 V1 为例)#

buttons 中找到 label"V1" 的项,取其 custom_id

bash
curl -X POST https://hk.hyucloud.com/v1/tasks/submit \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "midjourney-fast-variation",
    "input": {},
    "parameters": {
      "mj_task_id":   "1775203239196609",
      "mj_custom_id": "MJ::JOB::variation::1::431a5822-bfb2-4c55-8fc5-fc101abebd91"
    }
  }'

variation 成功后返回新的 buttons,可继续对新图执行 upscale 等操作。


Step 2c — 重新生成(reroll)#

buttons 中找到 emoji"🔄" 的项,取其 custom_id

bash
curl -X POST https://hk.hyucloud.com/v1/tasks/submit \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "midjourney-fast-reroll",
    "input": {},
    "parameters": {
      "mj_task_id":   "1775203239196609",
      "mj_custom_id": "MJ::JOB::reroll::0::431a5822-bfb2-4c55-8fc5-fc101abebd91::SOLO"
    }
  }'

OpenAI/Sora2-T2V#

文生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 openai/sora-2/text-to-video
input.promptstring提示词,用于指导视频生成
parameters.sizestring生成视频的尺寸。 <br/>可选的分辨率: <br/>- 720x1280<br/>- 1280x720<br/>默认为 720x1280
parameters.durationint视频生成时长(秒),可选值 4, 8, 12,默认为 4

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "openai/sora-2/text-to-video",
    "input": {
      "prompt": "A beautiful girl is dancing"
    },
    "parameters": {
      "size": "720x1280",
      "duration": 4
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 4
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

OpenAI/Sora2-I2V#

图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 openai/sora-2/image-to-video
input.first_frame_urlstring视频首帧图片 URL,可为 URL 或 Base64
input.promptstring提示词,用于指导视频生成
parameters.durationint视频生成时长(秒),可选值 4, 8, 12,默认为 4

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "openai/sora-2/image-to-video",
    "input": {
      "first_frame_url": "https://test2-im.cn-bj.ufileos.com/image/Adobe%20Express%20-%20file.png",
      "prompt": "The image is coming to life"
    },
    "parameters": {
      "size": "720x1280",
      "duration": 4
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 4
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Sora-2#

视频模型,此接口与submit调用方式不同,与openai 官方接口调用方式一致,模型功能无差异。

异步提交任务#

接口#

https://hk.hyucloud.com/v1/videos

输入#

参数类型是否必选描述
modelstring模型名称,此处为 sora-2
promptstring提示词,用于指导视频生成
sizestring生成视频的尺寸。 <br/>可选的分辨率: <br/>- 720x1280<br/>- 1280x720<br/>
durationstring视频生成时长(秒),可选值 4, 8, 12
input_referencestring首帧图

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl -X POST "https://hk.hyucloud.com/v1/videos" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F prompt="She turns around and smiles, then slowly walks out of the frame." \
  -F model="sora-2" \
  -F size="1280x720" \
  -F seconds="8" \
  -F input_reference="@sample_720p.jpeg;type=image/jpeg"

输出#

参数类型描述
idstring异步任务的唯一标识
objectstring类型
modelstring模型名称
statusstring任务状态,queued, in_progress, completed, and failed
progressint任务进度
sizestring分辨率
secondsstring时长

响应示例#

json
{
    "id": "video_456",
    "object": "video",
    "model": "sora-2",
    "status": "queued",
    "progress": 0,
    "created_at": 1712698600,
    "size": "720x1280",
    "seconds": "8"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/videos/<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/videos/video_6982fa1cd4f081908b619dc53cfc2435' \
-H "Authorization: Bearer $OPENAI_API_KEY"

输出#

参数类型描述
idstring异步任务的唯一标识
objectstring类型
modelstring模型名称
statusstring任务状态,queued, in_progress, completed, and failed
progressint任务进度
sizestring分辨率
secondsstring时长

响应示例(成功)#

json
{
  "id": "video_456",
  "object": "video",
  "model": "sora-2",
  "status": "queued",
  "progress": 0,
  "created_at": 1712698600,
  "size": "720x1280",
  "seconds": "8"
}

响应示例(失败)#

json
{
  "error": {
    "message": "error",
    "type": "invalid_request_error",
    "param": null,
    "code": null
  }
}

下载视频#

接口#

https://hk.hyucloud.com/v1/videos/<task_id>/content

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/videos/<task_id>/content' \
-H "Authorization: Bearer $OPENAI_API_KEY"
--output video.mp4

正常返回#

返回二进制流

异常返回#

json
{
    "error": {
        "message": "task is not completed yet, current status: Pending",
        "type": "invalid_request_error"
    }
}

remix#

接口#

https://hk.hyucloud.com/v1/videos/<task_id>/remix

请求示例#

shell
curl -X POST "https://hk.hyucloud.com/v1/videos/<task_id>/remix" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "赛博朋克风格"
  }'

正常返回#

json
{
  "id": "video_456",
  "object": "video",
  "model": "sora-2",
  "status": "queued",
  "progress": 0,
  "created_at": 1712698600,
  "size": "720x1280",
  "seconds": "8",
  "remixed_from_video_id": "video_123"
}

异常返回#

json
{
    "error": {
        "message": "Invalid param: prompt is required",
        "type": "invalid_request_error",
        "param": "6217f8ed-396d-434a-9b78-96775c0d2f99",
        "code": "param_error"
    }
}

Wan-AI/Wan2.2-I2V#

图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 Wan-AI/Wan2.2-I2V
input.first_frame_urlstring视频首帧图片 URL,可为 URL 或 Base64
input.last_frame_urlstring视频末帧图片 URL,可为 URL 或 Base64
input.promptstring提示词,用于指导视频生成
input.negative_promptstring反向提示词,用于限制不希望出现的内容
parameters.resolutionstring生成视频的分辨率档位,当前仅支持720P480P
parameters.durationint视频生成时长(秒),支持5 8
parameters.seedint随机数种子,范围[0, 2147483647]

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "Wan-AI/Wan2.2-I2V",
    "input": {
      "first_frame_url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
      "last_frame_url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
      "prompt": "Convert to quick pencil sketch"
    },
    "parameters": {
      "resolution": "720P"
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Wan-AI/Wan2.2-T2V#

文生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 Wan-AI/Wan2.2-T2V
input.promptstring提示词,用于生成视频的内容描述
input.negative_promptstring反向提示词,用于限制不希望出现的内容
parameters.sizestring输出尺寸,分辨率选择 480P 时,size 支持832x480, 480x832<br/>分辨率选择 720P 时,size 支持1280x720, 720x1280
parameters.resolutionstring生成视频的分辨率档位,当前仅支持720P480P
parameters.durationint视频生成时长(秒),支持5 8
parameters.seedint随机数种子,范围[0, 2147483647]

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "Wan-AI/Wan2.2-T2V",
    "input": {
      "prompt": "a beautiful flower",
      "negative_prompt": "low quality"
    },
    "parameters": {
      "resolution": "720P",
      "seed": 12345
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>' \

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756958375,
    "finish_time": 1756958428
  },
  "usage": {
    "duration": 5
  },
  "request_id": "request_id"
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756958375,
    "finish_time": 1756958380,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Wan-AI/Wan2.5-I2V#

图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 Wan-AI/Wan2.5-I2V
input.negative_promptstring反向提示词,用于限制不希望出现的内容
input.first_frame_urlstring视频首帧图片 URL
input.audio_urlstring音频 URL,用于指导生成。如果音频时长超过指定的视频时长,将被截断;如果短于视频时长,视频后半部分将无声。
input.promptstring提示词,用于指导视频生成
parameters.resolutionstring视频分辨率选择,支持:480p, 720p, 1080p
parameters.durationint视频生成时长(秒),可选值 510,默认为 5
parameters.enable_prompt_expansionboolean是否启用提示词优化,默认为 false
parameters.seedint随机数种子,范围[-1, 2147483647],-1表示随机

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "Wan-AI/Wan2.5-I2V",
    "input": {
      "first_frame_url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
      "audio_url": "https://hk.hyucloud.com/%E9%94%A6%E7%91%9F.mp3",
      "prompt": "make it swim"
    },
    "parameters": {
      "resolution": "720p",
      "duration": 5
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Wan-AI/Wan2.5-T2V#

文生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 Wan-AI/Wan2.5-T2V
input.promptstring提示词,用于指导视频生成
input.negative_promptstring反向提示词,用于限制不希望出现的内容
input.audio_urlstring音频文件 URL,用于指导生成,可选
parameters.sizestring生成视频的尺寸。 <br/>可选的视频分辨率及其对应的视频宽高比为: <br/>480P档位:<br/>- 832x480:16:9<br/>- 480x832:9:16<br/>720P档位:<br/>- 1280x720:16:9<br/>- 720x1280:9:16<br/>1080P档位:<br/>- 1920x1080: 16:9<br/>- 1080x1920: 9:16
parameters.durationint视频生成时长(秒),可选值 510,默认为 5
parameters.prompt_extendbool是否开启prompt智能改写。开启后使用大模型对输入prompt进行智能改写。对于较短的prompt生成效果提升明显,但会增加耗时。默认false
parameters.seedint随机数种子,范围[-1, 2147483647],-1表示随机

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "Wan-AI/Wan2.5-T2V",
    "input": {
      "prompt": "A beautiful girl is dancing",
      "audio_url": "https://example.com/audio.mp3"
    },
    "parameters": {
      "size": "832x480",
      "duration": 5
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Wan-AI/Wan2.6-I2V#

图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 Wan-AI/Wan2.6-I2V
input.promptstring提示词,用于指导视频生成
input.negative_promptstring反向提示词,用于限制不希望出现的内容
input.img_urlstring视频首帧图片 URL
input.audio_urlstring音频 URL,用于指导生成。如果音频时长超过指定的视频时长,将被截断;如果短于视频时长,视频后半部分将无声。
parametersobject视频处理参数,如设置视频分辨率、设置视频时长、开启prompt智能改写、添加水印等
parameters.resolutionstring指定生成的视频分辨率档位,用于调整视频的清晰度(总像素)。模型根据选择的分辨率档位,自动缩放至相近总像素,视频宽高比将尽量与输入图像 img_url 的宽高比保持一致。重要resolution 直接影响费用,同一模型:1080P > 720P ,请在调用前确认模型价格。对于 Wan-AI/Wan2.6-I2V:可选值:720P1080P。默认值为 1080P。示例值:1080P
parameters.durationint视频生成时长(秒),可选值 51015
parameters.seedint随机数种子,范围 [0, 4294967295]
parameters.prompt_extendboolean是否开启prompt智能改写。开启后使用大模型对输入prompt进行智能改写。对于较短的prompt生成效果提升明显,但会增加耗时。默认值:true。示例值:true
parameters.shot_typestring指定生成视频的镜头类型,即视频是由一个连续镜头还是多个切换镜头组成。生效条件:仅当 prompt_extendtrue 时生效。参数优先级:shot_type > prompt。例如,若 shot_type 设置为 single,即使 prompt 中包含"生成多镜头视频",模型仍会输出单镜头视频。可选值:single(默认值,输出单镜头视频)、multi(输出多镜头视频)。示例值:single

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "Wan-AI/Wan2.6-I2V",
    "input": {
      "img_url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
      "prompt": "make it swim"
    },
    "parameters": {
      "resolution": "1080P",
      "duration": 5,
      "prompt_extend": true,
      "shot_type": "single"
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Wan-AI/Wan2.6-T2V#

文生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 Wan-AI/Wan2.6-T2V
input.promptstring提示词,用于指导视频生成
input.negative_promptstring反向提示词,用于限制不希望出现的内容
input.audio_urlstring频 URL,用于指导生成。如果音频时长超过指定的视频时长,将被截断;如果短于视频时长,视频后半部分将无声。可选
parameters.sizestring生成视频的尺寸。 <br/>可选的视频分辨率及其对应的视频宽高比为: <br/>720P档位:<br/>- 1280x720:16:9<br/>- 720x1280:9:16 <br/>1080P档位:<br/>- 1920x1080: 16:9<br/>- 1080x1920: 9:16 。

| parameters.duration | int | 否 | 视频生成时长(秒),可选值 51015,默认为 5

parameters.seedint随机数种子,范围[0, 2147483647]
parameters.shot_typestring指定生成视频的镜头类型,即视频是由一个连续镜头还是多个切换镜头组成。生效条件:仅当 prompt_extendtrue 时生效。参数优先级:shot_type > prompt。例如,若 shot_type 设置为 single,即使 prompt 中包含"生成多镜头视频",模型仍会输出单镜头视频。可选值:single(默认值,输出单镜头视频)、multi(输出多镜头视频)。示例值:single

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "Wan-AI/Wan2.6-T2V",
    "input": {
      "prompt": "A beautiful girl is dancing",
      "audio_url": "https://example.com/audio.mp3"
    },
    "parameters": {
      "size": "1280x720",
      "duration": 5
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Wan-AI/Wan2.6-R2V#

参考生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 wan2.6-r2v
input.promptstring提示词,用于指导视频生成
input.reference_urls[]string上传的参考文件 URL 数组,支持传入视频和图像。用于提取角色形象与音色(如有),以生成符合参考特征的视频。 <br/>每个 URL 可指向 一张图像 或 一段视频,传入多个参考文件时,按照数组顺序定义角色的顺序。即第 1 个 URL 对应 character1,第 2 个对应 character2,以此类推。每个参考文件仅包含一个主体角色。例如 character1 为小女孩,character2 为闹钟。图片与视频的数量限制如下:<br/> - 图像数量:0~5。 <br/> - 视频数量:0~3。<br/> - 总数限制:图像 + 视频 ≤ 5。<br/><strong>参考视频要求:</strong><ul><li>格式:MP4、MOV</li><li>时长:1s~30s</li><li>文件大小:不超过100MB</li></ul><strong>参考图像要求:</strong><ul><li>格式:JPEG、JPG、PNG(不支持透明通道)、BMP、WEBP</li><li>分辨率:宽高均需在[240,8000]像素之间</li><li>文件大小:不超过20MB</li></ul>
parameters.sizestring生成视频的尺寸。 <br/>可选的视频分辨率及其对应的视频宽高比为: <br/>720P档位:<br/>- 1280x720:16:9<br/>- 720x1280:9:16 <br/>1080P档位:<br/>- 1920x1080: 16:9<br/>- 1080x1920: 9:16 。

| parameters.duration | int | 否 | 视频生成时长(秒),可选值 510 ,默认为 5

parameters.shot_typestring指定生成视频的镜头类型,即视频是由一个连续镜头还是多个切换镜头组成。参数优先级:shot_type > prompt。例如,若 shot_type 设置为 single,即使 prompt 中包含"生成多镜头视频",模型仍会输出单镜头视频。可选值:single(默认值,输出单镜头视频)、multi(输出多镜头视频)。示例值:single

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.6-r2v",
    "input": {
        "prompt": "Character2 坐在靠窗的椅子上,手持 character3,在 character4 旁演奏一首舒缓的美国乡村民谣。Character1 对Character2开口说道:“听起来不错”",
        "reference_urls": [
            "https://example.com/wan-r2v-role1.mp4",
            "https://example.com/wan-r2v-role2.mp4",
            "https://example.com/wan-r2v-object4.png",
            "https://example.com/wan-r2v-backgroud5.png"
        ]
    },
    "parameters": {
        "size": "1920x1080",
        "duration": 5,
        "shot_type": "single"
    }
}'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识
error.messagestring错误信息
error.typestring错误类型
error.codestring错误code

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Wan-AI/Wan2.6-R2V-Flash#

参考生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 wan2.6-r2v-flash
input.promptstring提示词,用于指导视频生成
input.reference_urls[]string上传的参考文件 URL 数组,支持传入视频和图像。用于提取角色形象与音色(如有),以生成符合参考特征的视频。 <br/>每个 URL 可指向 一张图像 或 一段视频,传入多个参考文件时,按照数组顺序定义角色的顺序。即第 1 个 URL 对应 character1,第 2 个对应 character2,以此类推。每个参考文件仅包含一个主体角色。例如 character1 为小女孩,character2 为闹钟。图片与视频的数量限制如下:<br/> - 图像数量:0~5。 <br/> - 视频数量:0~3。<br/> - 总数限制:图像 + 视频 ≤ 5。<br/><strong>参考视频要求:</strong><ul><li>格式:MP4、MOV</li><li>时长:1s~30s</li><li>文件大小:不超过100MB</li></ul><strong>参考图像要求:</strong><ul><li>格式:JPEG、JPG、PNG(不支持透明通道)、BMP、WEBP</li><li>分辨率:宽高均需在[240,8000]像素之间</li><li>文件大小:不超过20MB</li></ul>
parameters.sizestring生成视频的尺寸。 <br/>可选的视频分辨率及其对应的视频宽高比为: <br/>720P档位:<br/>- 1280x720:16:9<br/>- 720x1280:9:16 <br/>1080P档位:<br/>- 1920x1080: 16:9<br/>- 1080x1920: 9:16 。

| parameters.duration | int | 否 | 视频生成时长(秒),可选值 510 ,默认为 5

parameters.shot_typestring指定生成视频的镜头类型,即视频是由一个连续镜头还是多个切换镜头组成。参数优先级:shot_type > prompt。例如,若 shot_type 设置为 single,即使 prompt 中包含"生成多镜头视频",模型仍会输出单镜头视频。可选值:single(默认值,输出单镜头视频)、multi(输出多镜头视频)。示例值:single
parameters.audiobool是否输出声音,默认是false

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "wan2.6-r2v-flash",
    "input": {
        "prompt": "Character2 坐在靠窗的椅子上,手持 character3,在 character4 旁演奏一首舒缓的美国乡村民谣。Character1 对Character2开口说道:“听起来不错”",
        "reference_urls": [
            "https://example.com/wan-r2v-role1.mp4",
            "https://example.com/wan-r2v-role2.mp4",
            "https://example.com/wan-r2v-object4.png",
            "https://example.com/wan-r2v-backgroud5.png"
        ]
    },
    "parameters": {
        "size": "1920x1080",
        "duration": 5,
        "audio":true,
        "shot_type": "single"
    }
}'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识
error.messagestring错误信息
error.typestring错误类型
error.codestring错误code

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

HappyHorse-T2V#

文生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 happyhorse-1.0-t2vhappyhorse-1.1-t2v
input.promptstring文本提示词,用于描述期望生成的视频内容
parameters.resolutionstring生成视频的分辨率档位,可选值:720P1080P,默认 1080P
parameters.ratiostring生成视频的宽高比,可选值:16:99:161:1,默认 16:9
parameters.durationint视频时长(秒),取值范围 315,默认 5
parameters.watermarkboolean是否添加水印,默认 true
parameters.seedint随机数种子,范围 [0, 2147483647]

请求示例#

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: Bearer <YOUR_API_KEY>' \
--header 'X-DashScope-Async: enable' \
--header 'Content-Type: application/json' \
--data '{
    "model": "happyhorse-1.0-t2v",
    "input": {
      "prompt": "一座由硬纸板和瓶盖搭建的微型城市,在夜晚焕发出生机。"
    },
    "parameters": {
      "resolution": "720P",
      "ratio": "16:9",
      "duration": 5
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger计费视频时长(秒)
usage.output_video_durationnumber输出视频时长(秒)
usage.video_countinteger输出视频数量
usage.SRinteger输出视频分辨率高度,例如 7201080
usage.ratiostring输出视频宽高比
request_idstring请求的唯一标识

HappyHorse-I2V#

图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 happyhorse-1.0-i2vhappyhorse-1.1-i2v
input.promptstring文本提示词,用于描述期望生成的视频内容
input.img_urlstring视频首帧图片 URL。也兼容 input.first_frame_urlinput.images[0]
parameters.resolutionstring生成视频的分辨率档位,可选值:720P1080P,默认 1080P
parameters.durationint视频时长(秒),取值范围 315,默认 5
parameters.watermarkboolean是否添加水印,默认 true
parameters.seedint随机数种子,范围 [0, 2147483647]

请求示例#

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: Bearer <YOUR_API_KEY>' \
--header 'X-DashScope-Async: enable' \
--header 'Content-Type: application/json' \
--data '{
    "model": "happyhorse-1.0-i2v",
    "input": {
      "prompt": "一只猫在草地上奔跑",
      "img_url": "https://example.com/cat.png"
    },
    "parameters": {
      "resolution": "720P",
      "duration": 5
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger计费视频时长(秒)
usage.output_video_durationnumber输出视频时长(秒)
usage.video_countinteger输出视频数量
usage.SRinteger输出视频分辨率高度,例如 7201080
request_idstring请求的唯一标识

HappyHorse-R2V#

参考图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 happyhorse-1.0-r2vhappyhorse-1.1-r2v
input.promptstring文本提示词。可使用 character1character2 等指代 input.images 中对应顺序的参考图
input.imagesstring[]参考图像 URL 列表,支持 1 到 9 张
parameters.resolutionstring生成视频的分辨率档位,可选值:720P1080P,默认 1080P
parameters.ratiostring生成视频的宽高比,可选值:16:99:161:1,默认 16:9
parameters.durationint视频时长(秒),取值范围 315,默认 5
parameters.watermarkboolean是否添加水印,默认 true
parameters.seedint随机数种子,范围 [0, 2147483647]

请求示例#

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: Bearer <YOUR_API_KEY>' \
--header 'X-DashScope-Async: enable' \
--header 'Content-Type: application/json' \
--data '{
    "model": "happyhorse-1.0-r2v",
    "input": {
      "prompt": "character1 手持 character2,在镜头前展示产品细节。",
      "images": [
        "https://example.com/person.jpg",
        "https://example.com/product.jpg"
      ]
    },
    "parameters": {
      "resolution": "720P",
      "ratio": "16:9",
      "duration": 5
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger计费视频时长(秒)
usage.output_video_durationnumber输出视频时长(秒)
usage.video_countinteger输出视频数量
usage.SRinteger输出视频分辨率高度,例如 7201080
usage.ratiostring输出视频宽高比
request_idstring请求的唯一标识

HappyHorse-Video-Edit#

视频编辑模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 happyhorse-1.0-video-edit
input.promptstring文本指令,用于描述视频编辑意图
input.video_urlstring待编辑视频 URL
input.imagesstring[]参考图像 URL 列表,最多 5 张
parameters.resolutionstring生成视频的分辨率档位,可选值:720P1080P,默认 1080P
parameters.watermarkboolean是否添加水印,默认 true
parameters.audio_settingstring声音控制,可选值:autoorigin,默认 auto
parameters.seedint随机数种子,范围 [0, 2147483647]

请求示例#

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: Bearer <YOUR_API_KEY>' \
--header 'X-DashScope-Async: enable' \
--header 'Content-Type: application/json' \
--data '{
    "model": "happyhorse-1.0-video-edit",
    "input": {
      "prompt": "让视频中的角色穿上参考图中的条纹毛衣",
      "video_url": "https://example.com/input.mp4",
      "images": [
        "https://example.com/reference.webp"
      ]
    },
    "parameters": {
      "resolution": "720P",
      "audio_setting": "origin"
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger计费视频时长(秒)
usage.input_video_durationnumber输入视频时长(秒)
usage.output_video_durationnumber输出视频时长(秒)
usage.video_countinteger输出视频数量
usage.SRinteger输出视频分辨率高度,例如 7201080
request_idstring请求的唯一标识

Vidu/Text2Video#

文生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,可选值:viduq2
input.promptstring文本提示词,用于生成视频的描述,最长 2000 字符
parameters.vidu_typestringVidu 接口类型,此处为 text2video
parameters.durationint视频时长参数,默认值依据模型而定:<br/> - viduq2 : 默认5秒,可选:1-10
parameters.seedint随机种子,默认 0 表示使用随机数
parameters.aspect_ratiostring长宽比,可选值:16:99:163:44:31:1,默认 16:9
parameters.resolutionstring分辨率参数,默认值依据模型和视频时长而定: <br/> - viduq2(1-10秒):默认 720p,可选:540p、720p、1080p
parameters.guidance_scalefloat64引导系数,控制生成结果与提示词的相关性
parameters.bgmbool是否添加背景音乐,默认 false

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "viduq2",
    "input": {
      "prompt": "In an ultra-realistic fashion photography style featuring light blue and pale amber tones, an astronaut in a spacesuit walks through the fog. The background consists of enchanting white and golden lights, creating a minimalist still life and an impressive panoramic scene."
    },
    "parameters": {
      "vidu_type": "text2video",
      "duration": 5,
      "aspect_ratio": "16:9",
      "resolution": "720p",
      "bgm": true
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Vidu/Img2Video#

图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,可选值:viduq3-providuq2-providuq2-turboviduq2-pro-fast<br/> - viduq3-pro:支持音画同步,支持生成分镜视频<br/> - viduq2-pro-fast:价格触底、效果好,生成速度较viduq2-turbo提高2-3倍<br/> - viduq2-pro:新模型,情感表达强,动态细节丰富<br/> - viduq2-turbo:新模型,效果好,生成快
input.first_frame_urlstring首帧图片,支持图片 URL 或 Base64 编码
input.promptstring文本提示词,用于指导视频生成,最长 2000 字符。
parameters.vidu_typestringVidu 接口类型,此处为 img2video
parameters.durationint视频时长<br/> - viduq3-pro 默认为 5,可选:1 - 16<br/> - viduq2-pro/viduq2-turbo/viduq2-pro-fast 默认为 5,可选:1-10
parameters.seedint随机种子,默认 0 表示使用随机数
parameters.resolutionstring分辨率<br/> - viduq3-pro 1-16秒:默认 720p,可选:360p、540p、720p、1080p、2K<br/> - viduq2-pro-fast/viduq2-pro/viduq2-turbo 1-10秒:默认 720p,可选:360p、540p、720p、1080p (其中Pro支持540p,fast不支持360p/540p)
parameters.movement_amplitudestring运动幅度,可选值:autosmallmediumlarge,默认 auto<br/> 注:q2、q3模型该参数不生效
parameters.bgmbool是否添加背景音乐,默认 false<br/> 注:q3模型该参数不生效
parameters.audiobool是否使用音视频直出能力,默认为false,枚举值为:<br/> - false:不需要音视频直出,输出静音视频 <br/> - true:需要音视频直出,输出带台词以及背景音的视频 <br/> 注1:该参数为true时,voice_id参数才生效<br/> 注2:当model 为q3 时,该参数默认值为true,且不可关闭
parameters.voice_idstring音色id <br/> 用来决定视频中的声音音色,为空时系统会自动推荐,可选枚举值参考列表:新音色列表<br/> 注:q3模型该参数不生效

注意事项:

  • 图片支持 png、jpeg、jpg、webp 格式
  • 图片比例需要小于 1:4 或者 4:1
  • 图片大小不超过 50 MB
  • Base64 编码格式示例:data:image/png;base64,{base64_encode}

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "viduq3-pro",
    "input": {
      "first_frame_url": "https://prod-ss-images.s3.cn-northwest-1.amazonaws.com.cn/vidu-maas/template/image2video.png",
      "prompt": "make it dance."
    },
    "parameters": {
      "vidu_type": "img2video",
      "duration": 5,
      "resolution": "1080p",
      "movement_amplitude": "auto",
      "audio": true
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Vidu/Reference2Video#

参考生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,可选值:viduq2
input.promptstring文本提示词,用于指导视频生成,最长 2000 字符
input.subjects[]object图片主体信息支持1-7个主体
input.subjects.idstring主体id,后续生成时可以通过@主体id的方式使用
input.subjects.images[]string该主体对应的图片url,每个主体最多支持3张图片 <br/> 注:支持传入图片 Base64 编码或图片URL(确保可访问)
input.subjects.voice_idstring音色id <br/> 用来决定视频中的声音音色,为空时系统会自动推荐,可选枚举值参考列表:新音色列表
parameters.vidu_typestringVidu 接口类型,此处为 reference2video
parameters.durationint视频时长参数,默认值依据模型而定: <br/> viduq2:默认5秒,可选:1-10
parameters.seedint随机种子,默认 0 表示使用随机数
parameters.aspect_ratiostring长宽比,可选值:16:99:164:33:41:1,默认 16:9,注:4:3、3:4 仅支持 q2
parameters.resolutionstring分辨率参数,默认值依据模型和视频时长而定:<br/> viduq2 (1-8秒):默认 720p, 可选:540p、720p、1080p
parameters.movement_amplitudestring运动幅度,可选值:autosmallmediumlarge,默认 auto,注:q2 模型不支持该参数
parameters.bgmbool是否添加背景音乐,默认 false
parameters.audiobool是否使用音视频直出能力,默认false,可选值 true、false <br/> - true:使用音视频直出能力。<br/> - false:不使用音视频直出能力。

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "viduq2",
    "input": {
      "prompt": "让@1与@2一起跑步,一起喊加油",
      "subjects": [
      {
        "id": "1",
        "images" : ["https://hk.hyucloud.com/hyucloud-maxcot.jpg"],
        "voice_id":""
      },
      {
        "id": "2",
        "images" : ["https://hk.hyucloud.com/hyucloud-maxcot.jpg"],
        "voice_id":""
      }
      ]
    },
    "parameters": {
      "vidu_type": "reference2video",
      "duration": 5,
      "aspect_ratio": "16:9",
      "resolution": "720p",
      "movement_amplitude": "auto",
      "bgm": false,
      "audio": true
    }
  }'

兼容旧接口-输入#

参数类型是否必选描述
modelstring模型名称,可选值:viduq2
input.images[]string参考图像数组,viduq2 支持 1-7 张,支持图片 URL 或 Base64 编码
input.promptstring文本提示词,用于指导视频生成,最长 2000 字符
parameters.vidu_typestringVidu 接口类型,此处为 reference2video
parameters.durationint视频时长参数,默认值依据模型而定: <br/> viduq2:默认5秒,可选:1-10
parameters.seedint随机种子,默认 0 表示使用随机数
parameters.aspect_ratiostring长宽比,可选值:16:99:164:33:41:1,默认 16:9,注:4:3、3:4 仅支持 q2
parameters.resolutionstring分辨率参数,默认值依据模型和视频时长而定:<br/> viduq2 (1-8秒):默认 720p, 可选:540p、720p、1080p
parameters.movement_amplitudestring运动幅度,可选值:autosmallmediumlarge,默认 auto,注:q2 模型不支持该参数
parameters.bgmbool是否添加背景音乐,默认 false

注意事项:

  • viduq2 模型支持 1-7 张参考图片
  • 模型将以参考图片中的主题为参考生成具备主体一致的视频
  • 图片支持 png、jpeg、jpg、webp 格式
  • 图片像素不能小于 128×128
  • 图片比例需要小于 1:4 或者 4:1
  • 图片大小不超过 50 MB
  • Base64 编码格式示例:data:image/png;base64,{base64_encode}

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "viduq2",
    "input": {
      "images": [
        "https://hk.hyucloud.com/hyucloud-maxcot.jpg"
      ],
      "prompt": "make it dance."
    },
    "parameters": {
      "vidu_type": "reference2video",
      "duration": 5,
      "aspect_ratio": "16:9",
      "resolution": "720p",
      "movement_amplitude": "auto",
      "bgm": true
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Vidu/首尾帧生视频#

vidu 首尾帧生成视频 接口文档

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,可选值:viduq2-providuq2-turboviduq2-pro-fastviduq3-pro <br/> - viduq2-pro:新模型,效果好,细节丰富 <br/> - viduq2-turbo:新模型,效果好,生成快 <br/> - viduq2-pro-fast:价格触底、效果稳定,生成速度较viduq2-turbo提高2-3倍 <br/> - viduq3-pro:高效生成优质音视频内容,让视频内容更生动、更形象、更立体,效果更好
input.first_frame_urlstring首帧图片,支持图片 URL 或 Base64 编码
input.last_frame_urlstring尾帧图片,支持图片 URL 或 Base64 编码
input.promptstring文本提示词,用于指导视频生成,最长 2000 字符。
parameters.vidu_typestringVidu 接口类型,此处为 start-end2video
parameters.durationint视频时长参数,默认值依据模型而定:<br/> - viduq2-pro 默认为 5,可选:1、2、3、4、5、6、7、8 <br/> - viduq2-turbo 默认为 5,可选:1、2、3、4、5、6、7、8 <br/> - viduq2-pro-fast 默认为 5,可选:1、2、3、4、5、6、7、8
parameters.seedint随机种子,默认 0 表示使用随机数
parameters.resolutionstring分辨率参数,默认值依据模型和视频时长而定: <br/> - viduq2-pro 1-8秒:默认 720p,可选:540p、720p、1080p <br/> - viduq2-turbo 1-8秒:默认 720p,可选:540p、720p、1080p <br/> - viduq2-pro-fast 1-8秒:默认 720p,可选:720p、1080p
parameters.movement_amplitudestring运动幅度,可选值:autosmallmediumlarge,默认 auto
parameters.bgmbool是否添加背景音乐,默认 false

注意事项:

  • 必须同时提供 first_frame_urllast_frame_url 两个参数
  • 首尾帧两张图的分辨率需相近,首帧分辨率/尾帧分辨率需在 0.8~1.25 之间
  • 图片支持 png、jpeg、jpg、webp 格式
  • 图片比例需要小于 1:4 或者 4:1
  • 图片大小不超过 50 MB
  • Base64 编码格式示例:data:image/png;base64,{base64_encode}

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "viduq2-pro",
    "input": {
      "first_frame_url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
      "last_frame_url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
      "prompt": "Continue the video with smooth camera movement."
    },
    "parameters": {
      "vidu_type": "start-end2video",
      "duration": 5,
      "resolution": "1080p",
      "movement_amplitude": "auto",
      "bgm": true
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Vidu/视频延长#

视频延长 Extend 接口描述

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,可选值:viduq2-turboviduq2-pro
input.video_urlstring视频 URL。传入的视频时长不能低于 4 秒,不能超过 1 分钟
input.last_frame_urlstring延长到尾帧的参考图像,支持图片 URL 或 Base64 编码
input.promptstring延长提示词,用来控制延长的视频内容
parameters.vidu_typestringVidu 接口类型,此处应为 extend 视频延长
parameters.durationint延长时长(秒),可选值 1-7,默认 5
parameters.resolutionstring视频分辨率,可选值:540p720p1080p,默认 720p

注意事项:

  • video_url

- 需要延长的视频链接必须提供,需要公网访问

  • last_frame_url 参数

- 支持传入图片 Base64 编码或图片URL(确保可访问); - 参考图片支持 png、jpeg、jpg、webp 格式 - 图片比例需要小于 1:4 或者 4:1 - 图片大小不超过 50 MB - 请注意,base64 decode之后的字节长度需要小于10M,且编码必须包含适当的内容类型字符串,例如:data:image/png;base64,{base64_encode}

请求示例(使用 video_url)#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "viduq2-turbo",
    "input": {
      "video_url": "https://hk.hyucloud.com/maxcot-dance.mp4",
      "last_frame_url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
      "prompt": "Continue the video with smooth camera movement"
    },
    "parameters": {
      "vidu_type": "extend",
      "duration": 5,
      "resolution": "720p"
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger延长的视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx-extended.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Vidu/LipSync#

对口型视频生成模型,支持音频驱动和文字驱动两种方式。

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,请固定填写:vidu-lip-sync
input.video_urlstring原视频 URL(需要确保可访问),模型将以此视频为画面来匹配口型。<br/><br/>格式要求:仅支持 mp4、mov、avi<br/>时长要求:1-600 秒,建议时长 10-120 秒<br/>大小要求:不超过 5GB<br/>分辨率要求:单边像素需在 360p-4096p 之间<br/>编码要求:视频编码格式需为 H.264,若不是请参见 编码格式转换<br/>内容要求:视频内容需免涉肖像权,否则会被下架或销毁<br/>视频素材规范:<br/>&nbsp;&nbsp;- 人脸画面:要求真人出镜(如果是卡通人物,需要人物五官和真人比例相近),画面中的人脸说话时建议正对镜头,水平转动不超过 45 度,俯仰不超过 15 度;人脸尽量不遮挡,面部光线稳定<br/>&nbsp;&nbsp;- 说话音频:对音频无限制
input.audio_urlstring音频文件 URL(与 text 二选一),对口型视频中使用的文字、音色以音频文件内容为准。<br/><br/>格式要求:支持 wav、mp3、wma、m4a、aac、ogg<br/>时长要求:大于 1 秒,小于 600 秒<br/>大小要求:不超过 100MB
input.textstring文本内容(与 audio_url 二选一),对口型视频生成时使用的文本内容。<br/><br/>字符要求:不少于 4 个字符,不超过 2000 字符(2-1000 个汉字或 4-2000 个英文)<br/>优先级:与 audio_url 同时有值时,以 audio_url 中的内容生成<br/>段落切换:用换行符标记<br/>停顿控制:支持自定义文本之间的语音时间间隔,使用 <#x#> 标记:<br/>&nbsp;&nbsp;- x 为停顿时长(单位:秒),范围 [0.01, 99.99],最多保留两位小数<br/>&nbsp;&nbsp;- 文本间隔时间需设置在两个可以语音发音的文本之间,不可连续使用多个停顿标记<br/>&nbsp;&nbsp;- 示例你好<#2#>我是hyucloud<#2#>很高兴见到你
input.ref_photo_urlstring人脸参考图 URL,用于在视频包含多张人脸时指定目标人物。<br/><br/>格式要求:支持 jpg、jpeg、png、bmp、webp<br/>分辨率要求:单边分辨率在 192-4096px<br/>大小要求:不超过 10MB<br/>内容要求:图片需包含一张清晰的人物正脸,且为视频中出现的人物<br/>默认行为:若不输入人脸参考图,默认选择视频中第一个有人脸的画面中人脸占比最大的人物为目标
parameters.vidu_typestringVidu 接口类型,此处为 lip-sync
parameters.speedfloat语速,默认 1.0,范围 [0.5, 2]。0.5 为最慢语速,2 为最快语速。<br/>仅文字驱动时生效
parameters.voice_idstring音色 ID,仅文字驱动时生效。参考 音色列表
parameters.volumeint音量大小,范围 0-10,默认 0(正常音量),值越大音量越高。<br/>仅文字驱动时生效

注意事项:

  • audio_urltext 必须提供其中一个
  • speedvoice_idvolume 参数仅在使用文字驱动时生效

请求示例(音频驱动)#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "vidu-lip-sync",
    "input": {
      "video_url": "https://hk.hyucloud.com/maxcot-dance.mp4",
      "audio_url": "https://hk.hyucloud.com/%E6%AC%A2%E8%BF%8E%E4%BD%BF%E7%94%A8環宇互聯_API.mp3"
    },
    "parameters": {
      "vidu_type": "lip-sync"
    }
  }'

请求示例(文字驱动)#

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "vidu-lip-sync",
    "input": {
      "video_url": "https://hk.hyucloud.com/maxcot-dance.mp4",
      "text": "你好,欢迎使用对口型功能"
    },
    "parameters": {
      "vidu_type": "lip-sync",
      "voice_id": "your_voice_id",
      "speed": 1.0,
      "volume": 4
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx-lipsync.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 30
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Vidu/一键生成mv#

一键生成MV

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称。 <br/>国内用户填写:vidu-mv,<br/> 国外用户填写:vidu-one-click-mv
input.imagesArray[String]用户生成mv时的模特图片或风格图片<br/> 注1:支持传入图片 Base64 编码或图片URL(确保可访问);<br/> 注2:支持输入 1~7 张图;<br/> 注3:图片支持 png、jpeg、jpg、webp格式;<br/> 注4:图片比例需要小于 1:4 或者 4:1 ;<br/> 注5:图片大小不超过 50 MB;<br/> 注6:请注意,http请求的post body不超过 20MB,且编码必须包含适当的内容类型字符串,例如:<br/>data:image/png;base64,{base64_encode}
input.audio_urlstring需要生成mv的音频<br/>注1:支持传入 Base64 编码或音频URL(确保可访问);<br/>注2:支持输入 1 个音频;<br/>注3:支持 mp3、wav、aac、m4a格式;<br/>注4:音频最少10秒,最多180秒;<br/>注5:请注意,http请求的post body不超过20MB,且编码必须包含适当的内容类型字符串,例如:<br/>data:audio/mp3;base64,{base64_encode}
input.promptstring用户提示词<br/>生成mv视频的文本描述。<br/>注1:字符长度不能超过 3000 个字符
parameters.vidu_typestringVidu 接口类型,此处为 one-click/mv
parameters.aspect_ratiostring输出比例,默认16:9<br/>可选值 1:1,16:9,9:16,4:3,3:4
parameters.resolutionstring清晰度,默认720p<br/>可选值:540p、720p、1080p
parameters.add_subtitlebool是否需要字幕,默认为 false<br/>true:需要字幕<br/>false:不需要字幕
parameters.languagestring音频语言类型,默认为自动<br/>可选 en、zh
parameters.srt_urlstring字幕文件url

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "vidu-mv",
    "input": {
        "images": ["https://xxxxxxxxx/image2video.png"],
        "prompt": "图中人物徘徊在路上。",
        "audio_url": "https://xxxxxxxxx/49ab8a8f-f564-4b96-80a2-b38cca527475.mp3"
    },
    "parameters": {
      "vidu_type": "one-click/mv",
      "aspect_ratio": "16:9",
      "resolution": "540p",
      "add_subtitle": true,
      "language": "en",
      "srt_url": "https://xxxxxxxxx/mv_subtitle.srt"
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx-mv.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 30
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

doubao-seedance-1-5-pro#

文图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 doubao-seedance-1-5-pro-251215
input.contentobject[]输入给模型生成视频的信息对象,支持三种对象类型:<br/> 文本信息<br/> 图片信息<br/> 样片信息<br/>参考下方content介绍。
parameters.execution_expires_afterint任务超时阈值。指定任务提交后的过期时间(单位:秒),默认值 172800 秒,即 48 小时。取值范围:[3600,259200]
parameters.generate_audioboolean控制生成的视频是否包含与画面同步的声音,默认false。<br/>true:模型输出的视频包含同步音频。<br/>false:模型输出的视频为无声视频。
parameters.draftboolean控制是否开启样片模式,默认false。<br/>true:开启样片模式,生成一段预览视频,快速验证场景结构、镜头调度、主体动作与 prompt 意图是否符合预期。消耗 token 数较正常视频更少,使用成本更低。<br/>false:关闭样片模式,正常生成一段视频。
parameters.resolutionstring视频分辨率,默认720p<br/>分辨率:支持480p720p1080p。<br/>样片模式只支持480p。
parameters.ratiostring生成视频的宽高比例,支持:16:94:31:13:49:1621:9adaptive。默认是adaptive,智能选择最合适的宽高比。
parameters.durationint生成视频时长(秒):4~12 秒,默认为 5
parameters.seedint随机数种子,范围[0, 2147483647]
parameters.camera_fixedboolean是否固定摄像头,默认false。<br/>true:固定摄像头。<br/>false:不固定摄像头。`
parameters.watermarkboolean生成视频是否包含水印,默认false。<br/>false:不含水印。<br/>true:含有水印。
parameters.service_tierstring指定处理本次请求的服务等级类型,默认default。<br/>default:在线推理模式,适合对推理时效性要求较高的场景。<br/>flex:离线推理模式,适合对推理时延要求不高的场景。

输入input.content对象介绍#

样片信息对象是通过样片生成视频,不支持与文本信息,图片信息对象混用。

文本信息对象#

参数类型是否必选描述
content.typestring输入内容的类型,此处应为 text
content.textstring输入给模型的文本内容,描述期望生成的视频,支持中英文。建议不超过500字。

图片信息对象#

参数类型是否必选描述
content.typestring输入内容的类型,此处应为 image_url。支持图片URL或图片 Base64 编码。
content.image_urlobject输入给模型的图片对象。
content.image_url.urlstring图片信息,可以是图片URL或图片Base64编码。<br/>图片URL:请确保图片URL可被访问。<br/>Base64编码:请遵循此格式data:image/&lt;图片格式&gt;;base64,&lt;Base64编码&gt;,注意 &lt;图片格式&gt; 需小写,如 data:image/png;base64,{base64_image}。
content.rolestring图片的位置或用途。<br/>1个image_url对象,字段role可不填,或字段role为:first_frame。<br/>2个image_url对象时,字段role必填。<br/>首帧图片对应的字段role为:first_frame。<br/>尾帧图片对应的字段role为:last_frame

样片信息对象#

参数类型是否必选描述
content.typestring输入内容的类型,此处应为 draft_task
content.draft_taskobject输入给模型的样片任务。
content.draft_task.idstring样片任务 ID。

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl -v 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "doubao-seedance-1-5-pro-251215",
    "input": {
        "content": [
        {
            "type": "text",
            "text": "让他跑起来。"
        },
        {
            "type": "image_url",
            "image_url": {
                "url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg"
            },
            "role": "first_frame"
        },
        {
            "type": "image_url",
            "image_url": {
                "url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg"
            },
            "role": "last_frame"
        }
      ]
    },
    "parameters": {
      "generate_audio": true,
      "duration": 5,
      "execution_expires_after": 3600,
      "generate_audio": true,
      "resolution": "720p",
      "camera_fixed": false,
      "watermark": false,
      "draft": false
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure,Expired
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
usage.completion_tokensinteger模型输出视频花费的 token 数量
usage.total_tokensinteger本次请求消耗的总 token 数量。视频生成模型不统计输入 token,输入 token 为 0,故 total_tokens=completion_tokens。
request_idstring请求的唯一标识

响应示例(成功)#

json
{
	"output": {
		"task_id": "xxxxxxx",
		"task_status": "Success",
		"urls": ["http://xxxxxxxx/xx.mp4"],
		"submit_time": 1768460826,
		"finish_time": 1768460932
	},
	"usage": {
		"completion_tokens": 108900,
		"total_tokens": 108900,
		"duration": 5
	},
	"request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "xxxxxxx",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
  	"completion_tokens": 0,
		"total_tokens": 0,
    "duration": 5
  },
  "request_id": ""
}

doubao-seedance-2-0#

文图生视频模型

模型最高分辨率
doubao-seedance-2-0-2601284K
doubao-seedance-2-0-mini-260615720p

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称:doubao-seedance-2-0-260128doubao-seedance-2-0-mini-260615
input.contentobject[]输入给模型生成视频的信息对象,支持五种对象类型:<br/> 文本信息<br/> 图片信息<br/> 样片信息<br/> 参考视频信息<br/> 参考音频信息<br/>参考下方content介绍。
parameters.execution_expires_afterint任务超时阈值。指定任务提交后的过期时间(单位:秒),默认值 172800 秒,即 48 小时。取值范围:[3600,259200]
parameters.generate_audioboolean控制生成的视频是否包含与画面同步的声音,默认false。<br/>true:模型输出的视频包含同步音频。<br/>false:模型输出的视频为无声视频。
parameters.resolutionstring视频分辨率,默认720p<br/>doubao-seedance-2-0-260128:支持480p720p1080p4K。<br/>doubao-seedance-2-0-mini-260615:支持480p720p。<br/>样片模式只支持480p。
parameters.ratiostring生成视频的宽高比例,支持:16:94:31:13:49:1621:9adaptive。默认是adaptive,智能选择最合适的宽高比。
parameters.durationint生成视频时长(秒):4~15 秒,默认为 5
parameters.seedint随机数种子,范围[0, 2147483647]
parameters.camera_fixedboolean是否固定摄像头,默认false。<br/>true:固定摄像头。<br/>false:不固定摄像头。`
parameters.watermarkboolean生成视频是否包含水印,默认false。<br/>false:不含水印。<br/>true:含有水印。
parameters.callback_urlstring填写本次生成任务结果的回调通知地址。当视频生成任务有状态变化时,方舟将向此地址推送 POST 请求。

输入input.content对象介绍#

样片信息对象是通过样片生成视频,不支持与文本信息,图片信息对象混用。

文本信息对象#

参数类型是否必选描述
content.typestring输入内容的类型,此处应为 text
content.textstring输入给模型的文本内容,描述期望生成的视频,支持中英文。建议不超过500字。

图片信息对象#

参数类型是否必选描述
content.typestring输入内容的类型,此处应为 image_url。支持图片URL或图片 Base64 编码。
content.image_urlobject输入给模型的图片对象。
content.image_url.urlstring图片信息,可以是图片URL或图片Base64编码。<br/>图片URL:请确保图片URL可被访问。<br/>Base64编码:请遵循此格式data:image/&lt;图片格式&gt;;base64,&lt;Base64编码&gt;,注意 &lt;图片格式&gt; 需小写,如 data:image/png;base64,{base64_image}。
content.rolestring图片的位置或用途。<br/>1个image_url对象,字段role可不填,或字段role为:first_frame。<br/>2个image_url对象时,字段role必填。<br/>首帧图片对应的字段role为:first_frame。<br/>尾帧图片对应的字段role为:last_frame。<br/> 参考图对应的字段role为: reference_image

参考视频信息对象#

参数类型是否必选描述
content.typestring输入内容的类型,此处应为 video_url
content.video_urlobject输入给模型的参考视频对象。
content.video_url.urlstring参考视频 URL,请确保 URL 可被访问。
content.rolestring固定为:reference_video

参考音频信息对象#

参数类型是否必选描述
content.typestring输入内容的类型,此处应为 audio_url
content.audio_urlobject输入给模型的参考音频对象。
content.audio_url.urlstring参考音频 URL,请确保 URL 可被访问。
content.rolestring固定为:reference_audio

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

下方是全量参数示例,具体组合方式见官方文档

shell
curl -v 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "doubao-seedance-2-0-260128",
    "input": {
        "content": [
        {
            "type": "text",
            "text": "让他跑起来。"
        },
        {
            "type": "image_url",
            "image_url": {
                "url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg"
            },
            "role": "first_frame"
        },
        {
          "type": "video_url",
          "video_url": {
              "url": "https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_tea_video1.mp4"
          },
          "role": "reference_video"
        },
        {
          "type": "audio_url",
          "audio_url": {
              "url": "https://ark-project.tos-cn-beijing.volces.com/doc_audio/r2v_tea_audio1.mp3"
          },
          "role": "reference_audio"
        }
      ]
    },
    "parameters": {
      "generate_audio": true,
      "duration": 15,
      "execution_expires_after": 3600,
      "generate_audio": true,
      "resolution": "720p",
      "camera_fixed": false,
      "watermark": false,
      "draft": false,
      "callback_url":"https://ark-project.tos-cn-beijing.volces.com"
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure,Expired
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
usage.completion_tokensinteger模型输出视频花费的 token 数量
usage.total_tokensinteger本次请求消耗的总 token 数量。视频生成模型不统计输入 token,输入 token 为 0,故 total_tokens=completion_tokens。
request_idstring请求的唯一标识

响应示例(成功)#

json
{
	"output": {
		"task_id": "xxxxxxx",
		"task_status": "Success",
		"urls": ["http://xxxxxxxx/xx.mp4"],
		"submit_time": 1768460826,
		"finish_time": 1768460932
	},
	"usage": {
		"completion_tokens": 108900,
		"total_tokens": 108900,
		"duration": 5
	},
	"request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "xxxxxxx",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
  	"completion_tokens": 0,
		"total_tokens": 0,
    "duration": 5
  },
  "request_id": ""
}

火山方舟素材管理#

本文介绍通过 hyucloud API 管理火山方舟私域素材的完整流程,包括真人认证、素材组管理和素材资产管理。

服务地址#

接口类型方法地址
创建真人认证会话GET/v1/volce-asset/visual-validate/sessions
查询真人认证结果POST/v1/volce-asset/visual-validate/result
查询素材组列表POST/v1/volce-asset/groups/list
查询素材组详情POST/v1/volce-asset/groups/get
更新素材组POST/v1/volce-asset/groups/update
删除素材组POST/v1/volce-asset/groups/delete
创建素材POST/v1/volce-asset/assets/create
查询素材列表POST/v1/volce-asset/assets/list
查询素材详情POST/v1/volce-asset/assets/get
更新素材POST/v1/volce-asset/assets/update
删除素材POST/v1/volce-asset/assets/delete

认证方式:Authorization: Bearer <your-api-key>

请求示例中使用中国大陆节点:

bash
export ENDPOINT="https://hk.hyucloud.com"
export hyucloud_API_KEY="<your-api-key>"

使用流程#

真人素材通常按以下流程使用:

1. 调用 GET /v1/volce-asset/visual-validate/sessions 创建真人认证会话,获取 h5_linkbearer_token。 2. 在浏览器中打开 h5_link,按页面提示完成真人认证。 3. 调用 POST /v1/volce-asset/visual-validate/result 查询认证状态。状态为 group_ready 时会返回 group_id。 4. 使用 group_id 调用素材创建接口,将图片、视频或音频 URL 添加到该素材组。 5. 通过素材查询接口确认素材状态为 Active 后,在支持私域素材的模型调用中使用对应素材。

真人认证#

创建真人认证会话#

创建一次真人认证会话。接口返回的 h5_link 需要由真实用户在浏览器中打开并完成认证。

GET /v1/volce-asset/visual-validate/sessions

请求示例#

bash
curl --location "$ENDPOINT/v1/volce-asset/visual-validate/sessions" \
  --header "Authorization: Bearer $hyucloud_API_KEY"

响应示例#

json
{
  "bearer_token": "2b7b3f8e-0f7d-4d4c-8f0f-xxxxxxxxxxxx",
  "h5_link": "https://example.com/visual-validate?token=xxxx"
}

响应字段#

字段类型说明
bearer_tokenstring本次认证会话的查询凭证,用于后续查询认证结果。有效期约 30 分钟。
h5_linkstring真人认证 H5 链接。业务方需要引导用户打开该链接完成认证。

查询真人认证结果#

认证完成后,使用 bearer_token 查询认证状态和素材组 ID。

POST /v1/volce-asset/visual-validate/result

请求体#

json
{
  "bearer_token": "2b7b3f8e-0f7d-4d4c-8f0f-xxxxxxxxxxxx"
}

参数说明#

字段类型是否必须说明
bearer_tokenstring创建认证会话时返回的查询凭证。

请求示例#

bash
curl --location "$ENDPOINT/v1/volce-asset/visual-validate/result" \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "bearer_token": "2b7b3f8e-0f7d-4d4c-8f0f-xxxxxxxxxxxx"
  }'

响应示例#

json
{
  "status": "group_ready",
  "group_id": "group-20260331145705-xxxxx"
}

响应字段#

字段类型说明
statusstring认证会话状态。
group_idstring真人认证通过后创建的素材组 ID。仅在素材组已就绪时返回有效值。

status 枚举#

含义
created会话已创建,用户尚未完成真人认证或回调尚未完成处理。
group_ready真人认证通过,素材组已创建,可以继续创建素材。
failed真人认证失败。
expired会话已过期。

素材组管理#

素材组用于归类和管理素材。真人认证通过后会自动创建一个 LivenessFace 类型素材组。

查询素材组列表#

POST /v1/volce-asset/groups/list

请求体#

json
{
  "filter": {
    "group_ids": ["group-20260331145705-xxxxx"],
    "group_type": "LivenessFace",
    "name": "test"
  },
  "page_number": 1,
  "page_size": 10
}

参数说明#

字段类型是否必须说明
filter.group_idsstring[]素材组 ID 列表。为空时查询当前账号可见的全部素材组。
filter.group_typestring素材组类型。可选值:LivenessFaceAIGC
filter.namestring素材组名称,支持模糊匹配。
page_numberinteger页码,从 1 开始,默认 1。
page_sizeinteger每页数量,默认 10,最大 100。

请求示例#

bash
curl --location "$ENDPOINT/v1/volce-asset/groups/list" \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "filter": {
      "group_type": "LivenessFace"
    },
    "page_number": 1,
    "page_size": 10
  }'

响应示例#

json
{
  "items": [
    {
      "id": "group-20260331145705-xxxxx",
      "name": "真人素材组",
      "description": "用于数字人生成",
      "group_type": "LivenessFace",
      "project_name": "default",
      "create_time": "2026-03-31T06:57:05Z",
      "update_time": "2026-03-31T06:57:05Z"
    }
  ],
  "total_count": 1,
  "page_number": 1,
  "page_size": 10
}

响应字段#

字段类型说明
itemsobject[]素材组列表。
items[].idstring素材组 ID。
items[].namestring素材组名称。
items[].descriptionstring素材组描述。
items[].group_typestring素材组类型。
items[].project_namestring资源所属项目。
items[].create_timestring创建时间。
items[].update_timestring更新时间。
total_countinteger满足条件的素材组总数。
page_numberinteger当前页码。
page_sizeinteger每页数量。

查询素材组详情#

POST /v1/volce-asset/groups/get

请求体#

json
{
  "id": "group-20260331145705-xxxxx"
}

请求示例#

bash
curl --location "$ENDPOINT/v1/volce-asset/groups/get" \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "id": "group-20260331145705-xxxxx"
  }'

响应示例#

json
{
  "id": "group-20260331145705-xxxxx",
  "name": "真人素材组",
  "description": "用于数字人生成",
  "group_type": "LivenessFace",
  "project_name": "default",
  "create_time": "2026-03-31T06:57:05Z",
  "update_time": "2026-03-31T06:57:05Z"
}

更新素材组#

更新素材组名称或描述。

POST /v1/volce-asset/groups/update

请求体#

json
{
  "id": "group-20260331145705-xxxxx",
  "name": "new-name",
  "description": "new-description"
}

参数说明#

字段类型是否必须说明
idstring素材组 ID。
namestring新素材组名称,namedescription 至少传一个。
descriptionstring新素材组描述,namedescription 至少传一个。

请求示例#

bash
curl --location "$ENDPOINT/v1/volce-asset/groups/update" \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "id": "group-20260331145705-xxxxx",
    "name": "真人素材组",
    "description": "用于数字人生成"
  }'

响应示例#

json
{
  "id": "group-20260331145705-xxxxx"
}

删除素材组#

删除指定素材组。

风险提示:删除素材组会级联删除组内全部素材,操作不可逆。删除前请确认该素材组和组内素材不再被业务使用。

POST /v1/volce-asset/groups/delete

请求体#

json
{
  "id": "group-20260331145705-xxxxx"
}

请求示例#

bash
curl --location "$ENDPOINT/v1/volce-asset/groups/delete" \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "id": "group-20260331145705-xxxxx"
  }'

响应示例#

json
{}

素材资产管理#

素材资产表示素材组中的单个素材。创建素材时需要提供公网可访问 URL,当前不支持 Base64 上传。

创建素材#

在指定素材组中创建素材。调用成功只表示素材已提交,素材仍会经过异步处理。请通过查询素材详情或素材列表确认 statusActive 后再使用。

POST /v1/volce-asset/assets/create

请求体#

json
{
  "group_id": "group-20260331145705-xxxxx",
  "url": "https://example.com/image.jpg",
  "name": "test-image",
  "asset_type": "Image"
}

参数说明#

字段类型是否必须说明
group_idstring素材所属素材组 ID。
urlstring素材公网可访问 URL。
namestring素材名称。
asset_typestring素材类型。可选值:ImageVideoAudio

素材限制#

类型主要限制
Image支持 jpeg/png/webp/bmp/tiff/gif/heic/heif;宽高比 (0.4, 2.5);宽高长度 (300, 6000) px;单图小于 30 MB。
Video支持 mp4/mov;分辨率 480p/720p/1080p;时长 [2, 15] 秒;宽高比 [0.4, 2.5];宽高 [300, 6000] px;总像素数 [409600, 2086876];小于 50 MB;FPS [24, 60]
Audio支持 wav/mp3;时长 [2, 15] 秒;小于 15 MB。

请求示例#

bash
curl --location "$ENDPOINT/v1/volce-asset/assets/create" \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "group_id": "group-20260331145705-xxxxx",
    "url": "https://example.com/image.jpg",
    "name": "test-image",
    "asset_type": "Image"
  }'

响应示例#

json
{
  "id": "Asset-20260331150000-xxxxx"
}

查询素材列表#

POST /v1/volce-asset/assets/list

请求体#

json
{
  "filter": {
    "group_ids": ["group-20260331145705-xxxxx"],
    "group_type": "LivenessFace",
    "statuses": ["Active"],
    "name": "test"
  },
  "page_number": 1,
  "page_size": 10,
  "sort_by": "CreateTime",
  "sort_order": "Desc"
}

参数说明#

字段类型是否必须说明
filter.group_idsstring[]素材组 ID 列表。为空时查询当前账号可见素材组下的素材。
filter.group_typestring素材组类型。可选值:LivenessFaceAIGC;默认 LivenessFace
filter.statusesstring[]素材状态列表。可选值:ActiveProcessingFailed
filter.namestring素材名称,支持模糊匹配。
page_numberinteger页码,从 1 开始,默认 1。
page_sizeinteger每页数量,默认 10,最大 100。
sort_bystring排序字段。可选值:CreateTimeUpdateTimeGroupId
sort_orderstring排序方向。可选值:DescAsc

请求示例#

bash
curl --location "$ENDPOINT/v1/volce-asset/assets/list" \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "filter": {
      "group_ids": ["group-20260331145705-xxxxx"],
      "statuses": ["Active"]
    },
    "page_number": 1,
    "page_size": 10
  }'

响应示例#

json
{
  "items": [
    {
      "id": "Asset-20260331150000-xxxxx",
      "name": "test-image",
      "url": "https://example.com/asset-url",
      "group_id": "group-20260331145705-xxxxx",
      "asset_type": "Image",
      "status": "Active",
      "error": {
        "code": "",
        "message": ""
      },
      "project_name": "default",
      "create_time": "2026-03-31T07:00:00Z",
      "update_time": "2026-03-31T07:00:30Z"
    }
  ],
  "total_count": 1,
  "page_number": 1,
  "page_size": 10
}

响应字段#

字段类型说明
itemsobject[]素材列表。
items[].idstring素材资产 ID。
items[].namestring素材名称。
items[].urlstring素材访问地址。
items[].group_idstring素材所属素材组 ID。
items[].asset_typestring素材类型:ImageVideoAudio
items[].statusstring素材状态:ActiveProcessingFailed
items[].error.codestring处理失败时的错误码。
items[].error.messagestring处理失败时的错误信息。
items[].project_namestring资源所属项目。
items[].create_timestring创建时间。
items[].update_timestring更新时间。
total_countinteger满足条件的素材总数。
page_numberinteger当前页码。
page_sizeinteger每页数量。

查询素材详情#

POST /v1/volce-asset/assets/get

请求体#

json
{
  "id": "Asset-20260331150000-xxxxx"
}

请求示例#

bash
curl --location "$ENDPOINT/v1/volce-asset/assets/get" \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "id": "Asset-20260331150000-xxxxx"
  }'

响应示例#

json
{
  "id": "Asset-20260331150000-xxxxx",
  "name": "test-image",
  "url": "https://example.com/asset-url",
  "group_id": "group-20260331145705-xxxxx",
  "asset_type": "Image",
  "status": "Active",
  "error": {
    "code": "",
    "message": ""
  },
  "project_name": "default",
  "create_time": "2026-03-31T07:00:00Z",
  "update_time": "2026-03-31T07:00:30Z"
}

更新素材#

当前仅支持更新素材名称。

POST /v1/volce-asset/assets/update

请求体#

json
{
  "id": "Asset-20260331150000-xxxxx",
  "name": "new-name"
}

请求示例#

bash
curl --location "$ENDPOINT/v1/volce-asset/assets/update" \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "id": "Asset-20260331150000-xxxxx",
    "name": "new-name"
  }'

响应示例#

json
{
  "id": "Asset-20260331150000-xxxxx"
}

删除素材#

删除指定素材资产。

POST /v1/volce-asset/assets/delete

请求体#

json
{
  "id": "Asset-20260331150000-xxxxx"
}

请求示例#

bash
curl --location "$ENDPOINT/v1/volce-asset/assets/delete" \
  --header "Authorization: Bearer $hyucloud_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "id": "Asset-20260331150000-xxxxx"
  }'

响应示例#

json
{}

注意事项#

  • 所有接口都会按当前 API Key 所属账号做权限校验。只能查询和管理当前账号可见的素材组和素材。
  • 创建素材时,url 必须是服务端可访问的公网 URL。
  • 素材创建是异步处理,assets/create 返回素材 ID 后,请轮询 assets/getassets/list,等待 status 变为 Active
  • 删除素材组会级联删除组内全部素材,操作不可逆。
  • 接口错误码请参考 错误码

MiniMax/Hailuo-2.3-I2V#

图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 MiniMax-Hailuo-2.3
input.first_frame_imagestring视频起始帧图片,支持公网 URL 或 Base64 编码的 Data URL(格式:data:image/jpeg;base64,...)<br/>图片要求:<br/>- 格式:JPG、JPEG、PNG、WebP<br/>- 体积:≤20MB<br/>- 尺寸:短边像素>300px,长宽比 2:5 ~ 5:2 之间
input.promptstring视频文本描述,最大长度 2000 字符<br/>支持运镜指令,详见「运镜控制说明」
parameters.durationint视频时长(秒),与模型和分辨率相关,详见「时长与分辨率对应关系」,默认 6
parameters.resolutionstring视频分辨率,与模型和时长相关,详见「时长与分辨率对应关系」
parameters.prompt_optimizerboolean是否自动优化文本描述,默认 true
parameters.fast_pretreatmentboolean是否缩短文本优化耗时(仅对 MiniMax-Hailuo-2.3生效),默认 false
parameters.aigc_watermarkboolean是否在视频中添加水印,默认 false

运镜控制说明#

MiniMax-Hailuo-2.3 系列模型支持运镜指令,可在 input.prompt 中使用以下运镜指令:

支持的运镜指令(共15种)#

类别指令
左右移[左移]、[右移]
左右摇[左摇]、[右摇]
推拉[推进]、[拉远]
升降[上升]、[下降]
上下摇[上摇]、[下摇]
变焦[变焦推近]、[变焦拉远]
其他[晃动]、[跟随]、[固定]

运镜使用规则#

1. 组合运镜:同一组 [] 内可添加多个指令(建议不超过3个),同时生效。示例:"prompt": "一只猫在草地上跑[左摇,上升]" 2. 顺序运镜:prompt 中前后指令依次生效。示例:"prompt": "一只猫在草地上跑[推进], 然后[拉远]" 3. 自然语言支持:也可通过自然语言描述运镜,但使用标准指令效果更精准

时长与分辨率对应关系#

1. 不同模型支持的时长(秒)#

模型720P 分辨率768P 分辨率1080P 分辨率
MiniMax-Hailuo-2.3-6、106

2. 不同模型支持的分辨率#

模型6秒时长10秒时长
MiniMax-Hailuo-2.3768P(默认)、1080P768P(默认)

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "MiniMax-Hailuo-2.3",
    "input": {
      "first_frame_image": "https://cdn.hyucloud.com/prod/2024-09-18-16/user/multi_chat_file/9c0b5c14-ee88-4a5b-b503-4f626f018639.jpeg",
      "prompt": "A mouse runs toward the camera, smiling and blinking. [推进, 跟随]"
    },
    "parameters": {
      "duration": 6,
      "resolution": "1080P",
      "prompt_optimizer": true,
      "fast_pretreatment": false,
      "aigc_watermark": false
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "106916112212032"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "176843862716480",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 6
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 6
  },
  "request_id": ""
}

MiniMax/Hailuo-2.3-T2V#

文生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 MiniMax-Hailuo-2.3
input.promptstring视频文本描述,最大长度 2000 字符<br/>支持运镜指令,详见「运镜控制说明」
parameters.durationint视频时长(秒),与模型和分辨率相关,详见「时长与分辨率对应关系」,默认 6
parameters.resolutionstring视频分辨率,与模型和时长相关,详见「时长与分辨率对应关系」
parameters.prompt_optimizerboolean是否自动优化文本描述,默认 true
parameters.fast_pretreatmentboolean是否缩短文本优化耗时(仅对 MiniMax-Hailuo-2.3 生效),默认 false
parameters.aigc_watermarkboolean是否在视频中添加水印,默认 false

运镜控制说明#

MiniMax-Hailuo-2.3 系列模型支持运镜指令,可在 input.prompt 中使用以下运镜指令:

支持的运镜指令(共15种)#

类别指令
左右移[左移]、[右移]
左右摇[左摇]、[右摇]
推拉[推进]、[拉远]
升降[上升]、[下降]
上下摇[上摇]、[下摇]
变焦[变焦推近]、[变焦拉远]
其他[晃动]、[跟随]、[固定]

运镜使用规则#

1. 组合运镜:同一组 [] 内可添加多个指令(建议不超过3个),同时生效。示例:"prompt": "一只猫在草地上跑[左摇,上升]" 2. 顺序运镜:prompt 中前后指令依次生效。示例:"prompt": "一只猫在草地上跑[推进], 然后[拉远]" 3. 自然语言支持:也可通过自然语言描述运镜,但使用标准指令效果更精准

时长与分辨率对应关系#

1. 不同模型支持的时长(秒)#

模型720P 分辨率768P 分辨率1080P 分辨率
MiniMax-Hailuo-2.3-6、106

2. 不同模型支持的分辨率#

模型6秒时长10秒时长
MiniMax-Hailuo-2.3768P(默认)、1080P768P(默认)

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "MiniMax-Hailuo-2.3",
    "input": {
      "prompt": "A beautiful sunset over the ocean with waves gently crashing on the shore. [推进, 跟随]"
    },
    "parameters": {
      "duration": 6,
      "resolution": "1080P",
      "prompt_optimizer": true,
      "fast_pretreatment": false,
      "aigc_watermark": false
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "106916112212032"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "176843862716480",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 6
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 6
  },
  "request_id": ""
}

MiniMax/Hailuo-2.3-Fast#

图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 MiniMax-Hailuo-2.3-Fast
input.first_frame_imagestring视频起始帧图片,支持公网 URL 或 Base64 编码的 Data URL(格式:data:image/jpeg;base64,...)<br/>图片要求:<br/>- 格式:JPG、JPEG、PNG、WebP<br/>- 体积:≤20MB<br/>- 尺寸:短边像素>300px,长宽比 2:5 ~ 5:2 之间
input.promptstring视频文本描述,最大长度 2000 字符<br/>支持运镜指令,详见「运镜控制说明」
parameters.durationint视频时长(秒),与模型和分辨率相关,详见「时长与分辨率对应关系」,默认 6
parameters.resolutionstring视频分辨率,与模型和时长相关,详见「时长与分辨率对应关系」
parameters.prompt_optimizerboolean是否自动优化文本描述,默认 true
parameters.fast_pretreatmentboolean是否缩短文本优化耗时(仅对 MiniMax-Hailuo-2.3 生效),默认 false
parameters.aigc_watermarkboolean是否在视频中添加水印,默认 false

运镜控制说明#

MiniMax-Hailuo-2.3-Fast 系列模型支持运镜指令,可在 input.prompt 中使用以下运镜指令:

支持的运镜指令(共15种)#

类别指令
左右移[左移]、[右移]
左右摇[左摇]、[右摇]
推拉[推进]、[拉远]
升降[上升]、[下降]
上下摇[上摇]、[下摇]
变焦[变焦推近]、[变焦拉远]
其他[晃动]、[跟随]、[固定]

运镜使用规则#

1. 组合运镜:同一组 [] 内可添加多个指令(建议不超过3个),同时生效。示例:"prompt": "一只猫在草地上跑[左摇,上升]" 2. 顺序运镜:prompt 中前后指令依次生效。示例:"prompt": "一只猫在草地上跑[推进], 然后[拉远]" 3. 自然语言支持:也可通过自然语言描述运镜,但使用标准指令效果更精准

时长与分辨率对应关系#

1. 不同模型支持的时长(秒)#

模型720P 分辨率768P 分辨率1080P 分辨率
MiniMax-Hailuo-2.3-Fast-6、106

2. 不同模型支持的分辨率#

模型6秒时长10秒时长
MiniMax-Hailuo-2.3-Fast768P(默认)、1080P768P(默认)

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "MiniMax-Hailuo-2.3-Fast",
    "input": {
      "prompt": "A beautiful sunset over the ocean with waves gently crashing on the shore. [推进, 跟随]",
      "first_frame_image": "https://hk.hyucloud.com/hyucloud-maxcot.jpg"
    },
    "parameters": {
      "duration": 6,
      "resolution": "1080P",
      "prompt_optimizer": true,
      "fast_pretreatment": false,
      "aigc_watermark": false
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "106916112212032"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "176843862716480",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 6
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 6
  },
  "request_id": ""
}

MiniMax/Hailuo-02#

文生视频,图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 MiniMax-Hailuo-02
input.promptstring视频文本描述,最大长度 2000 字符<br/>支持运镜指令,详见「运镜控制说明」
input.first_frame_imagestring视频起始帧图片,支持公网 URL 或 Base64 编码的 Data URL(格式:data:image/jpeg;base64,...)<br/>图片要求:<br/>- 格式:JPG、JPEG、PNG、WebP<br/>- 体积:≤20MB<br/>- 尺寸:短边像素>300px,长宽比 2:5 ~ 5:2 之间
input.last_frame_imagestring视频尾帧图片,支持公网 URL 或 Base64 编码的 Data URL(格式:data:image/jpeg;base64,...)<br/>图片要求:<br/>- 格式:JPG、JPEG、PNG、WebP<br/>- 体积:≤20MB<br/>- 尺寸:短边像素>300px,长宽比 2:5 ~ 5:2 之间
parameters.durationint视频时长(秒),与模型和分辨率相关,详见「时长与分辨率对应关系」,默认 6
parameters.resolutionstring视频分辨率,与模型和时长相关,详见「时长与分辨率对应关系」
parameters.prompt_optimizerboolean是否自动优化文本描述,默认 true
parameters.fast_pretreatmentboolean是否缩短文本优化耗时(仅对 MiniMax-Hailuo-2.3 生效),默认 false
parameters.aigc_watermarkboolean是否在视频中添加水印,默认 false

运镜控制说明#

MiniMax-Hailuo-02 系列模型支持运镜指令,可在 input.prompt 中使用以下运镜指令:

支持的运镜指令(共15种)#

类别指令
左右移[左移]、[右移]
左右摇[左摇]、[右摇]
推拉[推进]、[拉远]
升降[上升]、[下降]
上下摇[上摇]、[下摇]
变焦[变焦推近]、[变焦拉远]
其他[晃动]、[跟随]、[固定]

运镜使用规则#

1. 组合运镜:同一组 [] 内可添加多个指令(建议不超过3个),同时生效。示例:"prompt": "一只猫在草地上跑[左摇,上升]" 2. 顺序运镜:prompt 中前后指令依次生效。示例:"prompt": "一只猫在草地上跑[推进], 然后[拉远]" 3. 自然语言支持:也可通过自然语言描述运镜,但使用标准指令效果更精准

时长与分辨率对应关系#

1. 不同模型支持的时长(秒)#

模型720P 分辨率768P 分辨率1080P 分辨率
MiniMax-Hailuo-02-6、106

2. 不同模型支持的分辨率#

模型6秒时长10秒时长
MiniMax-Hailuo-02768P(默认)、1080P768P(默认)

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "MiniMax-Hailuo-02",
    "input": {
      "prompt": "A beautiful sunset over the ocean with waves gently crashing on the shore. [推进, 跟随]"
    },
    "parameters": {
      "duration": 6,
      "resolution": "1080P",
      "prompt_optimizer": true,
      "fast_pretreatment": false,
      "aigc_watermark": false
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "106916112212032"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "176843862716480",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 6
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 6
  },
  "request_id": ""
}

Kling/O1#

全视频生成模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 kling-video-o1
input.promptstring提示词,用于指导视频生成
parameters.modestring生成模式,可选值:stdpro,默认为 pro 目前只支持pro
parameters.aspect_ratiostring视频长宽比,可选值:16:99:161:1
parameters.durationint视频时长(秒),可选值:345678910,默认为 5 <br/> 使用文生视频、首帧图生视频时,仅支持5和10s<br/>使用视频编辑功能(“refer_type”:“base”)时,输出结果与传入视频时长相同,此时当前参数无效;此时,按输入视频时长四舍五入取整计量计费
parameters.image_listarray图片列表,用于指定视频的首帧或尾帧。每个图片项包含:<br/>- image_url:图片 URL 或 Base64 编码<br/>- type:图片类型,可选值:first_frame(首帧)、end_frame(尾帧)
parameters.video_listarray视频列表,用于视频参考或编辑。每个视频项包含:<br/>- video_url:视频 URL<br/>- refer_type:参考类型,可选值:feature(特征参考)、base(待编辑)<br/>- keep_original_sound:是否保留原音,可选值:yesno
parameters.element_listarray主体参考列表 <br/>- 基于主体库中主体的ID配置,用key:value承载,如下:<br/>"element_list":[<br/>&#123;<br/>"element_id":long<br/>&#125;<br/>]<br/>- 参考主体数量与有无参考视频、参考图片数量有关,其中:<br/>- 有参考视频时,参考图片数量和参考主体数量之和不得超过4;<br/>- 无参考视频时,参考图片数量和参考主体数量之和不得超过7

注意

  • O1 模型不支持自定义主体相关功能(element_list 参数),如需支持请联系技术支持。

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "kling-video-o1",
    "input": {
      "prompt": "A beautiful sunset over the ocean with waves gently crashing"
    },
    "parameters": {
      "mode": "pro",
      "aspect_ratio": "16:9",
      "duration": 5,
      "image_list": [
        {
          "image_url": "https://example.com/first_frame.jpg",
          "type": "first_frame"
        }
      ]
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Kling/v2.6-I2V#

图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 kling-v2-6
input.promptstring提示词,用于指导视频生成
input.negative_promptstring反向提示词,用于限制不希望出现的内容
parameters.modestring生成模式,可选值:stdpro,默认为 pro 目前只支持pro
parameters.aspect_ratiostring视频长宽比,可选值:16:99:161:1
parameters.durationint视频时长(秒),可选值:510,默认为 5
parameters.imagestring参考图像 <br/>支持传入图片Base64编码或图片URL(确保可访问)<br/>请注意,若您使用base64的方式,请确保您传递的所有图像数据参数均采用Base64编码格式。在提交数据时,请不要在Base64编码字符串前添加任何前缀,例如data:image/png;base64,。正确的参数格式应该直接是Base64编码后的字符串。<br/>示例:<br/>正确的Base64编码参数:<br/><br/> iVBORw0KGgoAAAANSUhEUgAAAAUAAAAFCAYAAACNbyblAAAAHElEQVQI12P4//8/w38GIAXDIBKE0DHxgljNBAAO9TXL0Y4OHwAAAABJRU5ErkJggg==<br/><br/>错误的Base64编码参数(包含data:前缀):<br/><br/> data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAUAAAAFCAYAAACNbyblAAAAHElEQVQI12P4//8/w38GIAXDIBKE0DHxgljNBAAO9TXL0Y4OHwAAAABJRU5ErkJggg==<br/><br/>请仅提供Base64编码的字符串部分,以便系统能够正确处理和解析您的数据<br/>- 图片格式支持.jpg / .jpeg / .png<br/>- 图片文件大小不能超过10MB,图片宽高尺寸不小于300px,图片宽高比介于1:2.5 ~ 2.5:1之间<br/>- image 参数与 image_tail 参数至少二选一,二者不能同时为空
parameters.image_tailstring视频尾帧图片 URL,支持 URL 或 Base64 编码。具体要求参照 parameters.image

注意

  • v2.6 不支持有声视频(包含音色 voice_listsound 参数),如需支持请联系技术支持。

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "kling-v2-6",
    "input": {
      "prompt": "The image comes to life with gentle movement"
    },
    "parameters": {
      "mode": "pro",
      "aspect_ratio": "16:9",
      "duration": 5,
      "image": "https://example.com/first_frame.jpg"
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Kling/v2.6-T2V#

文生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 kling-v2-6
input.promptstring提示词,用于指导视频生成
input.negative_promptstring反向提示词,用于限制不希望出现的内容
parameters.modestring生成模式,可选值:stdpro,默认为 pro 目前只支持pro
parameters.aspect_ratiostring视频长宽比,可选值:16:99:161:1
parameters.durationint视频时长(秒),可选值:510,默认为 5

注意: -v2.6 不支持有声视频(包含音色 voice_listsound 参数),如需支持请联系技术支持。

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "kling-v2-6",
    "input": {
      "prompt": "A beautiful girl is dancing in a garden"
    },
    "parameters": {
      "mode": "pro",
      "aspect_ratio": "16:9",
      "duration": 5
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Kling/V3-Omni#

多模态视频生成模型,支持文本、图像和视频作为多模态输入。

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 kling-v3-omni
input.promptstring提示词,最多 2500 字符。当 multi_shot 为 false 时不能为空。<br/>可通过 <<<image_1>>><<<video_1>>> 格式引用图片、视频
input.negative_promptstring反向提示词,最多 2500 字符。建议直接在正向 prompt 中通过否定句添加
parameters.modestring生成模式。std:标准模式(720P);pro:专业模式(1080P)。默认 pro
parameters.aspect_ratiostring条件必选视频长宽比,可选值:16:99:161:1。仅在使用视频编辑功能(refer_type: base)时可省略,其他场景均必填
parameters.durationint视频时长(秒),可选值:3 ~ 15,默认 5。<br/>使用视频参考时仅支持 3 ~ 10 秒。<br/>使用视频编辑功能(refer_type: base)时,输出与传入视频时长相同,此参数无效
parameters.soundstring是否生成声音,可选值:onoff,默认 off。<br/>有参考视频时只能为 off
parameters.multi_shotbool是否启用多镜头模式,默认 false。<br/>为 trueprompt 无效;为 falseshot_typemulti_prompt 无效
parameters.shot_typestring镜头类型,当 multi_shottrue 时必填,可选值:customize
parameters.multi_promptarray多镜头提示词列表,当 multi_shottrueshot_typecustomize 时不能为空。<br/>最少 1 个镜头,最多 6 个;每个镜头内容不超过 512 字符;每个镜头时长不小于 1 秒且不大于总时长;所有镜头时长之和需等于总时长。<br/>每项包含:<br/>- index:镜头序号,从 1 开始(int)<br/>- prompt:该镜头提示词(string)<br/>- duration:该镜头时长(string)
parameters.image_listarray参考图片列表,支持首帧/尾帧/参考图。每项包含:<br/>- image_url:图片 URL 或 Base64(string,必填)<br/>- type:图片类型,可选值 first_frameend_frame(string,可选)<br/><br/>约束:<br/>- 有参考视频时,图片数量 ≤ 4<br/>- 无参考视频时,图片数量 ≤ 7<br/>- 图片数量超过 2 时不支持设置尾帧<br/>- 暂不支持仅尾帧(有尾帧时必须有首帧)
parameters.video_listarray参考视频列表,最多 1 段。每项包含:<br/>- video_url:视频 URL(string,必填,支持 MP4/MOV)<br/>- refer_type:参考类型,feature(特征参考)或 base(待编辑),默认 base<br/>- keep_original_sound:是否保留原声,yesno<br/><br/>使用视频参考时仅支持 3-10 秒。待编辑视频时不能定义首尾帧。有参考视频时 sound 只能为 off
parameters.watermark_enabledbool是否生成带水印的结果,暂不支持自定义水印
parameters.external_task_idstring自定义任务 ID,不会覆盖系统生成的任务 ID,但支持通过该 ID 查询任务。请确保单用户下唯一

图片格式要求

  • 支持格式:.jpg.jpeg.png
  • 文件大小:不超过 10MB
  • 尺寸要求:宽高最小 300px,宽高比在 1:2.5 ~ 2.5:1 之间
  • 使用 Base64 编码时,不要添加 data:image/png;base64, 等前缀

视频格式要求

  • 支持格式:MP4、MOV
  • 视频时长不少于 3 秒
  • 宽高尺寸介于 720px ~ 2160px
  • 帧率 24fps ~ 60fps,生成视频输出为 24fps
  • 最多 1 段视频,大小不超过 200MB

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

文生视频:

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "kling-v3-omni",
    "input": {
      "prompt": "A beautiful sunset over the ocean with waves gently crashing"
    },
    "parameters": {
      "mode": "pro",
      "aspect_ratio": "16:9",
      "duration": 5,
      "sound": "on"
    }
  }'

图片参考 + 首尾帧:

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "kling-v3-omni",
    "input": {
      "prompt": "A girl walking through a garden"
    },
    "parameters": {
      "mode": "pro",
      "aspect_ratio": "16:9",
      "duration": 5,
      "image_list": [
        {"image_url": "https://example.com/first_frame.jpg", "type": "first_frame"},
        {"image_url": "https://example.com/last_frame.jpg", "type": "end_frame"}
      ]
    }
  }'

视频编辑(待编辑视频):

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "kling-v3-omni",
    "input": {
      "prompt": "Add a cinematic color grading effect"
    },
    "parameters": {
      "mode": "pro",
      "video_list": [
        {
          "video_url": "https://example.com/input.mp4",
          "refer_type": "base",
          "keep_original_sound": "yes"
        }
      ]
    }
  }'

多镜头 + 图片引用:

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "kling-v3-omni",
    "parameters": {
      "mode": "pro",
      "aspect_ratio": "16:9",
      "duration": 5,
      "multi_shot": true,
      "shot_type": "customize",
      "multi_prompt": [
        {"index": 1, "prompt": "<<<image_1>>>A person sitting on a park bench, sunlight filtering through trees", "duration": "2"},
        {"index": 2, "prompt": "A car speeding down a rainy street, headlights glowing", "duration": "3"}
      ],
      "image_list": [
        {"image_url": "https://example.com/person.jpg"}
      ],
      "sound": "on"
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

错误码#

错误码描述
006001094任务资源不足
006001095任务响应错误
006001099任务创建错误

Kling/v3#

Kling v3 系列视频生成模型,统一使用 kling-v3 模型 ID,根据入参自动路由到下列三种生成模式:

  • 文生视频(t2v):仅传 prompt
  • 图生视频(i2v):传入参考图(首帧或首尾帧)
  • 运动控制(motion_control):同时传入参考图与参考视频,由参考视频驱动角色运动

也可以通过 parameters.kling_v3_type 显式指定模式,详见下方"模式选择"。

模式选择#

服务端按以下优先级判定本次请求走哪种模式:

1. parameters.kling_v3_type 显式指定时优先生效,可选值:t2v / i2v / motion_control 2. 未显式指定时按入参隐式推导: - input.video_url 非空 → motion_control - 存在任一首帧图字段(parameters.image / input.images / input.first_frame_url / input.img_url)→ i2v - 否则 → t2v

推荐生产环境直接传 kling_v3_type 显式指定,避免未来字段语义变化导致的隐式路由偏差。

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

通用参数#

参数类型是否必选描述
modelstring模型名称,统一为 kling-v3
parameters.kling_v3_typestring显式指定生成模式,可选值:t2vi2vmotion_control。不传则按入参隐式推导
input.promptstring条件必选提示词,最多 2500 字符。t2v / i2v 模式下当 multi_shotfalse 时必填;motion_control 模式下可选
input.negative_promptstring反向提示词,最多 2500 字符
parameters.modestring生成模式。std:标准模式(720P);pro:专业模式(1080P)。默认 std
parameters.aspect_ratiostring视频长宽比,可选值:16:99:161:1。默认 16:9i2v 模式下忽略此参数,以输入图片的宽高比为准
parameters.durationint视频时长(秒)。t2v / i2v 模式可选 3 ~ 15motion_control 模式可选 510。默认 5
parameters.watermark_enabledbool是否生成带水印的结果
parameters.external_task_idstring自定义任务 ID,不会覆盖系统生成的任务 ID,但支持通过该 ID 查询任务。请确保单用户下唯一

文生视频 / 图生视频 模式专属参数(t2v / i2v#

参数类型是否必选描述
parameters.imagestring条件必选参考图像(首帧),i2v 模式下必填,t2v 模式下不传。支持图片 Base64 编码或图片 URL(确保可访问)。<br/>Base64 编码时请勿添加 data:image/png;base64, 等前缀,直接传入编码字符串即可。<br/>- 图片格式支持 .jpg.jpeg.png<br/>- 文件大小不超过 10MB<br/>- 宽高尺寸不小于 300px,宽高比介于 1:2.5 ~ 2.5:1 之间
parameters.image_tailstring视频尾帧图片,传入后同时控制首尾帧。需配合 image 一起使用。支持 URL 或 Base64 编码,格式要求参照 image 参数
parameters.soundstring是否生成声音,可选值:onoff,默认 off
parameters.multi_shotbool是否启用多镜头模式,默认 false。<br/>为 trueprompt 无效;为 falseshot_typemulti_prompt 无效
parameters.shot_typestring条件必选镜头类型,当 multi_shottrue 时必填,可选值:customize
parameters.multi_promptarray条件必选多镜头提示词列表,当 multi_shottrueshot_typecustomize 时不能为空。<br/>最少 1 个镜头,最多 6 个;每个镜头内容不超过 512 字符;每个镜头时长不小于 1 秒且不大于总时长;所有镜头时长之和需等于总时长。<br/>每项包含:<br/>- index:镜头序号,从 1 开始(int)<br/>- prompt:该镜头提示词(string)<br/>- duration:该镜头时长(string)

运动控制 模式专属参数(motion_control#

参数类型是否必选描述
input.img_urlstring参考图片,支持图片 Base64 编码或图片 URL(确保可访问)。<br/>- 图片格式支持 .jpg.png<br/>- 文件大小不超过 10MB<br/>- 宽高尺寸介于 300px ~ 65536px 之间<br/>- 宽高比介于 1:2.5 ~ 2.5:1 之间
input.video_urlstring参考视频 URL,支持 MP4、MOV 格式。<br/>- 文件大小不超过 100MB<br/>- 宽高尺寸介于 340px ~ 3850px 之间<br/>- 视频时长不少于 3 秒;横向视频不超过 30 秒,竖向视频不超过 10 秒
parameters.character_orientationstring角色朝向,决定角色面朝方向。可选值:image(朝向与参考图一致)、video(朝向与参考视频一致)
parameters.keep_original_soundstring是否保留参考视频原声,可选值:yesno,默认 yes

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

文生视频(t2v,不传 image):

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "kling-v3",
    "input": {
      "prompt": "A beautiful sunset over the ocean with waves gently crashing"
    },
    "parameters": {
      "kling_v3_type": "t2v",
      "mode": "pro",
      "aspect_ratio": "16:9",
      "duration": 5,
      "sound": "on"
    }
  }'

图生视频(i2v,传入 image 作为首帧):

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "kling-v3",
    "input": {
      "prompt": "The image comes to life with gentle movement"
    },
    "parameters": {
      "kling_v3_type": "i2v",
      "mode": "pro",
      "duration": 5,
      "image": "https://example.com/first_frame.jpg"
    }
  }'

首尾帧控制(i2v,同时传入 imageimage_tail):

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "kling-v3",
    "input": {
      "prompt": "A girl walking through a garden"
    },
    "parameters": {
      "kling_v3_type": "i2v",
      "mode": "pro",
      "duration": 5,
      "image": "https://example.com/first_frame.jpg",
      "image_tail": "https://example.com/last_frame.jpg"
    }
  }'

多镜头生成(t2v):

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "kling-v3",
    "parameters": {
      "kling_v3_type": "t2v",
      "mode": "pro",
      "aspect_ratio": "16:9",
      "duration": 5,
      "multi_shot": true,
      "shot_type": "customize",
      "multi_prompt": [
        {"index": 1, "prompt": "A person walking through a misty forest at dawn", "duration": "2"},
        {"index": 2, "prompt": "A car speeding down a rainy street, headlights glowing", "duration": "3"}
      ],
      "sound": "on"
    }
  }'

运动控制(motion_control,参考图 + 参考视频):

shell
curl -X POST 'https://hk.hyucloud.com/v1/tasks/submit' \
-H 'Authorization: <YOUR_API_KEY>' \
-H 'Content-Type: application/json' \
-d '{
    "model": "kling-v3",
    "input": {
      "img_url": "https://example.com/character.jpg",
      "video_url": "https://example.com/motion_reference.mp4",
      "prompt": "A person dancing gracefully"
    },
    "parameters": {
      "kling_v3_type": "motion_control",
      "duration": 5,
      "aspect_ratio": "16:9",
      "character_orientation": "image",
      "mode": "std"
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger视频时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

错误码#

错误码描述
006001094任务资源不足
006001095任务响应错误
006001099任务创建错误

Veo-3.1#

文图生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 veo-3.1-generate-001veo-3.1-fast-generate-001
input.promptstring提示词,用于指导视频生成
input.negative_promptstring反向提示词,用于限制不希望出现的内容
input.imageobject用于指导视频生成的图片对象,如果请求包含last_frame对象,则image为首帧对象
input.image.bytesBase64Encodedstring图片的字节 base64 编码字符串。纯 base64 编码数据,不能包含 data:image/jpeg;base64, 这个前缀。
input.image.mimeTypestring图片的 MIME 类型,只接受以下 MIME 类型:<br/> image/jpeg <br/> image/png <br/> image/webp
input.last_frameobject用于指导视频生成的尾帧图片对象
input.last_frame.bytesBase64Encodedstring图片的字节 base64 编码字符串。纯 base64 编码数据,不能包含 data:image/jpeg;base64, 这个前缀。
input.last_frame.mimeTypestring图片的 MIME 类型,只接受以下 MIME 类型:<br/> image/jpeg <br/> image/png <br/> image/webp
parameters.resolutionstring所生成视频的分辨率。可接受的值为 720p(默认值)或 1080p
parameters.durationint视频生成时长(秒),支持468。默认为 8
parameters.aspect_ratioint指定所生成视频的宽高比。接受的值如下:<br/> 16:9 <br/>9:16 <br/>默认值为 16:9
parameters.generate_audiobool必选参数,为视频生成音频。接受的值包括 truefalse
parameters.person_generationstring用于控制是否允许人物或人脸生成的安全设置。以下项之一:<br/>allow_adult(默认值):仅允许生成成人<br/>dont_allow:禁止在图片中包含人物/人脸。

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "veo-3.1-generate-001",
    "input": {
      "prompt": "make it run",
      "image" : {
        "bytesBase64Encoded": "xxxxx",
        "mimeType": "image/jpeg"
      },
      "last_frame" : {
        "bytesBase64Encoded": "xxxxx",
        "mimeType": "image/jpeg"
      }
    },
    "parameters": {
      "duration": 6,
      "aspect_ratio": "16:9",
      "resolution": "1080p",
      "generate_audio": true
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表,默认保留24小时,请及时下载。
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

Pixverse/Pixverse-v6#

文本/图片/视频 生视频模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处为 pixverse-v6
input.first_frame_urlstring视频首帧图片 URL,可为 URL 或 Base64,使用首尾帧生视频时需填写该参数

| input.last_frame_url | string | 否 | 视频末帧图片 URL,可为 URL 或 Base64,使用首尾帧生视频时需填写该参数

input.img_urlstring使用参考图生视频时需填写该参数, 可为 URL 或 Base64
input.promptstring提示词,用于指导视频生成
parameters.resolutionstring生成视频的分辨率档位,当前仅支持1080p720p540p360p
parameters.aspect_ratiostring长宽比,支持16:9, 4:3, 1:1, 3:4, 9:16, 2:3, 3:2, 21:9,仅在只由文本,没有参考图像或者视频生成时有效
parameters.durationint视频生成时长(秒), 1~15
parameters.generate_audioint是否生成带音频的视频
parameters.seedint随机数种子,范围[0, 2147483647]

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

  • 文生视频
shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "pixverse-v6",
    "input": {
      "prompt": "Convert to quick pencil sketch"
    },
    "parameters": {
      "resolution": "720p",
      "aspect_ratio": "16:9",
      "duration": 5
    }
  }'
  • 首尾帧生视频
shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "pixverse-v6",
    "input": {
      "first_frame_url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
      "last_frame_url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
      "prompt": "Convert to quick pencil sketch"
    },
    "parameters": {
      "resolution": "720p",
      "duration": 5
    }
  }'
  • 参考图生视频
shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "pixverse-v6",
    "input": {
      "img_url": "https://hk.hyucloud.com/hyucloud-maxcot.jpg",
      "prompt": "Convert to quick pencil sketch"
    },
    "parameters": {
      "resolution": "720p",
      "duration": 5
    }
  }'
  • 视频延长
shell
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
    "model": "pixverse-v6",
    "input": {
      "video_url": "https://hk.hyucloud.com/maxcot-dance.mp4",
      "prompt": "Convert to quick pencil sketch"
    },
    "parameters": {
      "resolution": "720p",
      "duration": 5
    }
  }'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:Pending,Running,Success,Failure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
usage.durationinteger任务执行时长(秒)
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp4"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "usage": {
    "duration": 5
  },
  "request_id": ""
}

IndexTeam/IndexTTS-2文档#

本文介绍hyucloud语音合成模型IndexTeam/IndexTTS-2调用 API 的输入输出参数,供您使用接口时查阅字段含义。

接口地址#

https://hk.hyucloud.com/v1/audio/infer <br/> 注意:该接口请求体格式必须为 multipart/form-data(表单模式)

请求参数:表单文件参数(Form Data)#

参数类型必填说明
modelstring要使用的 TTS 模型名称,此处为:IndexTeam/IndexTTS-2
spk_audio_file文件(二进制)说话人参考音频文件,用于提取音色特征,仅支持 MP3、WAV,文件小于20MB
emo_audio_file文件(二进制)情感参考音频文件,用于提取语音的情感特征,仅支持 MP3、WAV,文件小于20MB
payloadstringJSON 格式的配置参数字符串

payload 配置参数(JSON 格式)#

参数类型必填默认值说明
inputstring-需要合成的文本内容,最大支持 600 字符。
sample_rateint22050输出音频采样率,单位为 Hz。常见值:220504410048000
speedfloat1语速调整系数,接口限制范围:0.25 &lt;= 值 &lt;= 4.0
gainfloat1音量调整系数,1 为原始音量,>1 表示增大,<1 表示减小。
emo_control_methodint0情感控制方式:0 = 无情感参考;1 = 情感音频参考(需同时传 emo_audio_file);2 = 情感向量参考;3 = 情感文本参考。
emo_alphafloat1情感融合权重,用于控制情感特征对输出结果的影响程度。
emo_vecarray[float][0, 0, 0, 0, 0, 0, 0, 0]8 维情感向量,仅在 emo_control_method = 2 时生效;所有元素之和不能超过 1.5。示例:[0.1, 0.2, 0.0, 0.3, 0.1, 0.0, 0.2, 0.4]
emo_textstring""情感文本描述,仅在 emo_control_method = 3 时生效。示例:"今天股票涨停了,好激动"
use_randomboolfalse情感随机性开关。true 表示随机引入情感变化,false 表示严格按指定情感合成。
interval_silenceint200文本分块合成时间隔静音时长,单位为毫秒。

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

bash
curl https://hk.hyucloud.com/v1/audio/infer \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F "model=IndexTeam/IndexTTS-2" \
  -F "spk_audio_file=@audio/klee.wav" \
  -F "emo_audio_file=@audio/emo_sad.wav" \
  -F "payload={
    \"input\": \"酒楼丧尽天良,开始借机竞拍房间,哎,一群蠢货。\",
    \"emo_weight\": 0.8,
    \"emo_control_method\": 1
  }" \
  --output 007_sad_08.wav

响应格式#

API 返回二进制音频文件流。

  • 音频格式:目前仅支持 WAV 格式输出
  • Content-Typeaudio/wav

错误响应#

当请求失败时,API 会返回标准的 JSON 格式错误响应:

json
{
  "error": {
    "message": "错误描述信息",
    "type": "invalid_request_error",
    "code": "error_code",
    "param": "<请求 ID,用于反馈或排查错误原因>"
  }
}

同时兼容以下接口#

接口地址:https://hk.hyucloud.com/v1/audio/speech

请求参数#

参数类型必填说明
modelstring要使用的 TTS 模型名称,例如:IndexTeam/IndexTTS-2
inputstring要转换为语音的文本内容(最大支持 600 字符)
voicestring使用的音色,可选值包括:内置音色(jack_cheng, sales_voice, crystla_liu, stephen_chow, xiaoyueyue, mkas, entertain, novel, movie),也可以填写自定义音色 ID(形如 uspeech:xxxx,详见下文「使用自定义音色」)

调用示例#

以下示例展示如何使用 IndexTeam/IndexTTS-2 模型进行语音合成。请确保将 $hyucloud_API_KEY 替换为您自己的 API Key。

curl#

bash
curl https://hk.hyucloud.com/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -d '{
    "model": "IndexTeam/IndexTTS-2",
    "input": "你好!欢迎使用 環宇互聯 语音合成服务。",
    "voice": "jack_cheng"
  }' \
  --output speech.wav

python#

python
from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("hyucloud_API_KEY", "<YOUR_hyucloud_API_KEY>"),
    base_url="https://hk.hyucloud.com/v1/",
)

speech_file_path = Path(__file__).parent / "generated-speech.wav"

with client.audio.speech.with_streaming_response.create(
    model="IndexTeam/IndexTTS-2",
    voice="jack_cheng",
    input="你好!欢迎使用 環宇互聯 语音合成服务。",
) as response:
    response.stream_to_file(speech_file_path)

print(f"Audio saved to {speech_file_path}")

使用自定义音色(可选)#

除了使用内置的 voice 名称外,您还可以上传自己的音色(甚至带有特定情绪的样例语音),生成一个专属的 voice_id,在 TTS 请求中通过 voice 字段进行引用。

注意:当前自定义音色资源会在上传 7 天 后自动清理,如需长期使用请注意提前备份或重新上传。(可联系商务团队咨询长期保存需求)

使用方式可以简单理解为 三步

1. 上传音色,获取 voice_id 调用 POST /v1/audio/voice/upload 上传一段符合要求的示例语音,接口会返回一个 id 作为自定义音色 ID。 详细的请求参数与返回结构请参考《自定义音色管理 API 文档》。 2. 在 TTS 请求中使用 voice_id/v1/audio/speech 请求中,把 voice 字段设置为步骤一返回的 id,下文会给出完整示例。 3. 管理已有的自定义音色(可选) 如需查看或删除已有音色,可调用 GET /v1/audio/voice/listPOST /v1/audio/voice/delete。 具体请求/返回格式同样见《自定义音色管理 API 文档》。

提示:自定义音色完全兼容 OpenAI 协议,只是复用了 voice 这个字段,不需要学习新的参数名。

在 TTS 请求中使用自定义 voice_id#

当您已经拿到一个自定义音色 id(例如 uspeech:xxxx)后,只需要在 /v1/audio/speech 请求中把 voice 字段改成该 id 即可。

bash
VOICE_ID="uspeech:xxxx-xxxx-xxxx-xxxx"

curl https://hk.hyucloud.com/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -d "{
    \"model\": \"IndexTeam/IndexTTS-2\",\
    \"input\": \"你好,我是自定义的温柔女声。\",\
    \"voice\": \"$VOICE_ID\"\
  }" \
  --output speech-custom.wav

行为说明:

  • voice 为空:使用默认音色或模型自带的默认配置。
  • voice 为内置名称(如 jack_cheng 等):使用平台内置的预置音色。
  • voice 为形如 uspeech:xxxx 的值:表示使用你上传的自定义音色,平台会根据该 ID 查找并应用对应的音色/情绪素材,无需额外配置。

## 响应格式

API 返回二进制音频文件流。

  • 音频格式:目前仅支持 WAV 格式输出
  • Content-Typeaudio/wav

注意事项#

1. 音频格式:响应的二进制流格式目前仅支持 WAV,暂不支持其他音频格式 2. 文本长度限制:单次请求的文本长度限制因具体模型而异,IndexTeam/IndexTTS-2 模型通常支持 600 字符以内的文本 3. 语音类型:不同的 voice 参数会产生不同音色和风格的语音效果,建议根据实际场景选择合适的语音类型

错误处理#

当请求失败时,API 会返回标准的 JSON 格式错误响应:

json
{
  "error": {
    "message": "错误描述信息",
    "type": "invalid_request_error",
    "code": "error_code",
    "param": "<请求 ID,用于反馈或排查错误原因>"
  }
}

常见问题(FAQ)#

  • Q:我上传的音频有什么要求?

A:必须是 MP3/WAV,单个文件 ≤ 20MB,时长 5–30 秒,采样率至少 16kHz,不符合要求会返回 4xx 错误,并在 error.code 中标明原因。

  • Q:voice 字段应该填什么?

A: - 想直接用平台提供的固定音色:填写内置名称(如 jack_cheng); - 想用自己录制的音色:先调用上传接口拿到 id,然后在 TTS 请求中把 voice 设置为这个 id(例如 uspeech:xxxx)。

  • Q:出现 invalid_voice_id / voice_not_found 等错误怎么办?

A:说明当前账号下找不到这个 voice_id,或者已被删除。可以先调用 /v1/audio/voice/list 确认当前可用的 ID,再在请求里使用正确的值。

  • Q:不同账号之间能共享自定义音色吗?

A:同一组织下所有子账号,自定义音色可以共享。非同一账号下,无法共享。


自定义音色管理 API 文档#

本文仅描述自定义音色相关管理接口(上传 / 列表 / 删除)的 请求与响应格式,适合已有开发基础的用户参考。如何在 /v1/audio/speech 中实际使用自定义音色,请查看《OpenAI TTS API 调用文档》中的「使用自定义音色(可选)」一节。

概述#

  • 域名示例:https://hk.hyucloud.com
  • 认证方式:所有接口都需要在 Header 中携带 Authorization: Bearer <hyucloud_API_KEY>
  • 组织隔离:

- 自定义音色按组织维度隔离;同一组织下所有子账号可以共享该组织内的自定义音色; - 不同组织之间无法共享。

  • 生命周期:自定义音色默认保存 7 天,超期会被后台任务清理;如有长期保存需求,可联系商务团队评估方案。

1. 上传自定义音色#

  • HTTP 方法POST
  • 路径/v1/audio/voice/upload
  • Content-Type

- 推荐:multipart/form-data(直接上传文件) - 也支持:表单字段传 Base64 字符串或远程 URL

1.1 请求参数#

公共字段#

字段类型必填说明
namestring音色名称,用于列表展示,例如「温柔女声」「客服音色A」。
modelstring使用该音色时对应的 TTS 模型名称,例如 IndexTeam/IndexTTS-2。与后续 /v1/audio/speech 请求中的 model 保持一致。

Speaker(音色语料音频,三选一,必填其一)#

字段类型必填说明
speaker_filefile是(三选一必填)本地音频文件(推荐方式),通过 multipart/form-data 上传。
speaker_file_base64string是(三选一必填)speaker_file 的 Base64 字符串,通过普通表单字段传递。
speaker_urlstring是(三选一必填)可访问的公网 URL,指向音色音频文件。

说明:

- speaker_* 三个字段 三选一,至少提供其一

- 若同时提供多个,优先级为:speaker_filespeaker_file_base64speaker_url

- 若三者均未提供,请求会被拒绝(错误码:missing_speaker)。

Emotion(情绪样例音频,三选一,可选)#

字段类型必填说明
emotion_filefile否(三选一可选)情绪样例音频文件,通过 multipart/form-data 上传。
emotion_file_base64string否(三选一可选)emotion_file 的 Base64 字符串,通过普通表单字段传递。
emotion_urlstring否(三选一可选)可访问的公网 URL,指向情绪样例音频文件。

说明:

- emotion_* 字段整体可选,可不提供;

- 若同时提供多个,优先级为:emotion_fileemotion_file_base64emotion_url

- 若完全不传 emotion_*,则只基于 Speaker 构建音色特征。

1.2 音频文件约束#

speaker_*emotion_* 上传的音频均适用以下约束:

  • 格式:仅支持 MP3WAV
  • 大小:单个音频 ≤ 20MB
  • 时长5–30
  • 采样率16kHz 及以上

若不满足上述任一条件,接口会返回 4xx 错误,并在 error.code 中标明具体原因(如 file_too_largeduration_out_of_rangesample_rate_too_low 等)。

1.3 请求示例(推荐:multipart 文件上传)#

bash
curl -X POST "https://hk.hyucloud.com/v1/audio/voice/upload" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F "name=温柔女声" \
  -F "model=IndexTeam/IndexTTS-2" \
  -F "speaker_file=@/path/to/speaker.wav" \
  -F "emotion_file=@/path/to/emotion.wav"

1.4 成功响应示例#

json
{
  "id": "uspeech:xxxx-xxxx-xxxx-xxxx"
}
  • id:自定义音色 ID,后续在 /v1/audio/speech 请求中通过 voice 字段引用(例如:"voice": "uspeech:xxxx-xxxx-xxxx-xxxx")。

1.5 失败响应示例#

所有错误响应都会采用统一格式:

json
{
  "error": {
    "message": "错误描述信息",
    "type": "invalid_request_error",
    "code": "missing_speaker",
    "param": "<请求 ID 或参数名>"
  }
}

常见错误码示例:

  • missing_name:未提供 name 字段;
  • missing_speaker:未提供任意一个 speaker_* 字段;
  • invalid_speaker_base64speaker_file_base64 解码失败;
  • unsupported_audio_format:音频格式不是 MP3/WAV;
  • file_too_large / duration_out_of_range / sample_rate_too_low:音频不符合大小、时长或采样率限制。

2. 查询自定义音色列表#

  • HTTP 方法GET
  • 路径/v1/audio/voice/list

2.1 请求说明#

  • 无请求体,仅需在 Header 中携带鉴权信息。
  • 系统会根据当前 API Key 所属组织(top_org_id)返回该组织下的自定义音色列表。
  • 为保证接口性能,单次调用最多返回 1000 条记录。

2.2 响应示例#

json
{
  "list": [
    { "id": "uspeech:xxxx", "name": "温柔女声" },
    { "id": "uspeech:yyyy", "name": "沉稳男声" }
  ]
}

字段说明:

字段类型说明
listarray自定义音色列表。
list[].idstring自定义音色 ID,可在 /v1/audio/speechvoice 字段中引用。
list[].namestring创建时填写的音色名称,仅用于展示。

3. 删除自定义音色#

  • HTTP 方法POST
  • 路径/v1/audio/voice/delete
  • Content-Typeapplication/json

3.1 请求参数#

字段类型必填说明
idstring要删除的自定义音色 ID,即上传接口返回的 id

3.2 请求示例#

bash
curl -X POST "https://hk.hyucloud.com/v1/audio/voice/delete" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "id": "uspeech:xxxx"
  }'

3.3 成功响应示例#

json
{
  "success": true
}

说明:删除成功后,该 voice_id 将无法继续在 /v1/audio/speech 请求中使用,请在确认业务不再引用后再删除。

3.4 可能的错误码#

  • missing_id:请求体中未提供 id 字段;
  • invalid_voice_id:指定的 id 在当前组织下不存在或已被删除;
  • 其他 server_error:内部错误或对象存储异常,可结合返回的 message 与请求 ID 排查。

通过以上三个接口,可以完成自定义音色的完整生命周期管理:

1. 通过上传接口创建音色并获取 voice_id; 2. 在 TTS 调用中通过 voice 字段引用该 voice_id; 3. 通过列表/删除接口管理已有音色资源,并结合 7 天有效期策略控制存储成本。


IndexTeam/IndexTTS 系列模型扩展参数说明#

本文档为 IndexTeam/IndexTTS 系列 TTS 模型(例如:IndexTeam/IndexTTS-2)的 特供说明,仅适用于在 環宇互聯 平台上通过 /v1/audio/speech 调用这些模型的场景。

- 基础调用方式、路径、认证方式等,请参考《OpenAI TTS API 调用文档》。

- 自定义音色(voice_id)相关内容,请参考《自定义音色管理 API 文档》。

- 本文介绍的部分参数 不属于 OpenAI 官方 TTS 协议的一部分,是 環宇互聯 对 IndexTTS 模型的扩展能力,仅在本平台生效。


一、与 OpenAI 标准协议的关系#

  • /v1/audio/speech基础字段(如 modelinputvoiceresponse_formatspeedinstructions 等)完全兼容 OpenAI 的 TTS 协议,具体含义请参考快速开始文档。
  • 在此基础上,对于 IndexTTS 系列模型,環宇互聯 额外支持一组 扩展字段,用于更细粒度地控制:

- 采样率与音量 - 情绪控制方式与权重 - 情绪向量 / 文本 - 句子划分与静音行为

  • 这些扩展字段:

- 仅在 環宇互聯 上调用 IndexTeam/IndexTTS 系列模型时有效; - 对官方 OpenAI 端点并无含义,也不保证可直接透传; - 不填写时,后台会使用模型侧的默认行为。

建议:如需保持“可以无修改切回官方 OpenAI 端点”的强兼容性,请只使用基础字段;

如希望充分利用 IndexTTS 模型的高级控制能力,可以在 環宇互聯 环境下使用本文描述的扩展字段。


二、IndexTTS 扩展字段一览#

以下字段在请求体 JSON 中与基础字段处于同一层级,例如:

jsonc
{
  "model": "IndexTeam/IndexTTS-2",
  "input": "你好,欢迎使用 環宇互聯 TTS。",
  "voice": "jack_cheng",           // 基础字段

  "sample_rate": 24000,             // 扩展字段
  "gain": 1.0,                      // 扩展字段
  "emo_control_method": 1,          // 扩展字段
  "emo_weight": 0.8,                // 扩展字段
  "emo_text": "愉快",              // 扩展字段
  "interval_silence": true          // 扩展字段
}

注意:所有扩展字段均为 可选,不填写时采用默认设置。

2.1 音频与增益相关#

字段名类型是否必填默认值说明
speedfloat641语音播放速度,范围 0.25-4,不填时使用默认速度。
sample_rateint22050目标音频采样率。由供应商定义支持的具体取值,如 16000、22050、24000 等。不填时使用模型默认采样率。
gainfloat641输出音量增益系数,用于整体放大或减小合成语音的音量。范围建议(0,10],注意0为静音,不填时使用默认音量。

2.2 情绪控制相关#

下列字段配合自定义情绪音频 / 文本提示一起使用,可实现更细粒度的情感控制。具体数值含义由 IndexTTS 供应商定义。

字段名类型是否必填默认值说明
emo_control_methodint0情绪控制方式的标识(枚举/整数),用于指示模型采用哪种情感控制策略。0:无情绪控制,1:基于情绪音频,2:基于情绪向量,3:基于情绪文本。不填时使用默认情绪控制方式。
emo_weightfloat641.0情绪控制权重,指定情感参考音频文件,情感向量,文本情感模式对输出的影响程度。有效范围为 0.0 到 1.0,默认值为 1.0 (100%)。建议在使用文本情感模式时,将 emo_weight 设置为 0.6 左右(或更低),以获得更自然的语音效果。
emo_vecfloat64[][0,0,0,0,0,0,0,0]情绪向量表示,可用于在向量空间中精细控制情绪特征。[高兴,生气,悲伤,害怕,厌恶,忧郁,惊讶,平静],每个维度的值范围为[0,1.2],且所有维度的值相加不能大于1.5。
emo_textstring""以自然语言描述情绪的文本提示,例如“愉快”“平静”“激动”等,由供应商作为情绪控制的文字条件输入。
emo_randomboolfalse是否在情绪控制中引入一定随机性,用于增加多样性或避免每句语音完全一致的情绪表达。具体效果由供应商实现。

2.3 句子划分与静音控制#

字段名类型是否必填默认值说明
interval_silenceint200是否在句子之间插入间隔静音。例如在多句文本合成时,控制句间是否留出停顿。建议设置为200ms,不填时使用模型默认静音策略。
max_text_tokens_per_sentenceint120单句文本切分的最大 token 数 / 长度阈值。用于在长文本场景下控制内部句子划分策略,建议设置为120,不填时使用模型默认切分策略。

三、示例:带扩展参数的 IndexTTS 调用#

下面示例演示如何在保持 OpenAI 调用风格的同时,向 IndexTTS 模型传入扩展参数。

3.1 curl 示例#

bash
curl https://hk.hyucloud.com/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -d '{
    "model": "IndexTeam/IndexTTS-2",
    "input": "你好,这是一段带有愉快情绪的语音示例。",
    "voice": "jack_cheng",

    // 以下为 IndexTTS 扩展参数,仅在本平台上对 IndexTTS 系列模型有效
    "sample_rate": 24000,
    "gain": 1.0,
    "emo_control_method": 1,
    "emo_weight": 0.8,
    "emo_text": "愉快",
    "interval_silence": 200,
    "max_text_tokens_per_sentence": 120
  }' \
  --output speech-indextts.wav

3.2 使用自定义音色 + 扩展参数(示意)#

bash
VOICE_ID="uspeech:xxxx-xxxx-xxxx-xxxx"  # 通过 /v1/audio/voice/upload 获取

curl https://hk.hyucloud.com/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -d '{
    "model": "IndexTeam/IndexTTS-2",
    "input": "你好,我是带情绪的自定义音色示例。",
    "voice": "'$VOICE_ID'",

    // IndexTTS 扩展参数
    "emo_control_method": 2,
    "emo_weight": 0.6,
    "emo_random": true,
    "interval_silence": 200,
    "max_text_tokens_per_sentence": 120
  }' \
  --output speech-indextts-custom.wav

说明:

- 上述示例中的扩展参数值仅为演示用途,实际推荐取值范围与语义,请以供应商提供的文档及试听效果为准。

- 不传扩展字段时,IndexTTS 模型会采用默认推理配置,行为与快速开始文档中的示例一致。


四、与其他文档的关系#

  • 快速开始文档:《OpenAI TTS API 调用文档》适合希望快速接入、只使用标准参数的用户。
  • 自定义音色文档:《自定义音色管理 API 文档》专注描述 voice_id 的上传与管理。
  • 本文档:专门面向需要深度控制 IndexTTS 系列模型行为的用户,说明在 環宇互聯 环境下可用的 非 OpenAI 标准扩展字段,不会影响或污染基础的快速开始文档。

suno#

音乐生成模型

异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处对应suno模型版本:<br/> suno-v4<br/>suno-v4.5<br/>suno-v4.5+<br/>suno-v4.5-all<br/>suno-v5<br/>suno-v5.5
input.promptstring歌词 (自定义模式专用)
input.gpt_description_promptstring灵感模式提示词(灵感模式专用)
parameters.tagsstring风格标签(自定义模式专用)
parameters.titlestring标题(自定义模式专用)
parameters.make_instrumentalbool是否生成纯音乐,true 为生成纯音乐

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

灵感模式#

bash
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
        "model": "suno/chirp-bluejay",
        "input": {
            "gpt_description_prompt": "一首关于乡愁的歌"
        }
    }'

纯音乐灵感模式#

bash
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
        "model": "suno/chirp-bluejay",
        "input": {
            "gpt_description_prompt": "一首关于乡愁的歌"
        },
        "parameters": {
            "make_instrumental": true
        }
    }'

自定义歌词歌名#

bash
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
  "model": "suno/chirp-bluejay",
  "input": {
    "prompt": "[Verse]\n连续的日子一直忙碌\n文件成堆无尽头\n把梦想藏在抽屉深处\n咖啡杯已经冷透\n\n[Verse 2]\n早上八点打卡上班\n疲惫的眼睛没神采\n同事间的闲聊都没意思\n只盼着时间快快跑起来\n\n[Chorus]\n工作工作老板的呼喊\n做完做完这才算平安\n加班加班才有些钱赚\n梦想梦想何时能实现\n\n[Verse 3]\n午餐时间吃个便当\n看窗外阳光正灿烂\n生活离梦想好远\n眼前只有办公桌和椅子\n\n[Bridge]\n老板的脚步声像雷鸣\n心跳随着节奏加速\n桌上的文件一大堆\n抱怨的声音渐渐消失\n\n[Chorus]\n工作工作老板的呼喊\n做完做完这才算平安\n加班加班才有些钱赚\n梦想梦想何时能实现"
  },
  "parameters": {
    "tags": "pop, ballad",
    "title": "归乡"
  }
}'

纯音乐自定义#

bash
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
  "model": "suno/chirp-bluejay",
  "input": {
    "prompt": ""
  },
  "parameters": {
    "tags": "pop, ballad",
    "title": "归乡"
  }
}'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp3"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "request_id": ""
}

suno-cover#

音乐翻唱(cover),可以翻唱上传的音乐,也可以翻唱suno音乐生成的音乐。

翻唱异步提交任务#

接口#

https://hk.hyucloud.com/v1/tasks/submit

输入#

参数类型是否必选描述
modelstring模型名称,此处对应suno模型版本:<br/> suno-v4<br/>suno-v4.5<br/>suno-v4.5+<br/>suno-v4.5-all<br/>suno-v5<br/>suno-v5.5
input.promptstring歌词,如果歌词为空将生成纯音乐。如果有歌词则tags、title必须
parameters.upload_urlstring要上传的可访问的音乐地址
parameters.tagsstring音乐风格标签
parameters.negative_tagsstring要避免的标签
parameters.titlestring音乐提交的标题
parameters.taskstring任务类型,此处填cover

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

bash
curl --location --globoff 'https://hk.hyucloud.com/v1/tasks/submit' \
--header 'Authorization: Bearer <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
  "model": "suno-v4.5+",
  "input": {
    "prompt": "[Verse 1]\n台阶上数着蚂蚁搬家\n凉席上画着歪扭的图画\n电风扇对着西瓜吹了一下午\n外公的摇椅吱呀呀\n\n[Pre-Chorus]\n那时候以为每个问题都有回答\n北斗星下面许的愿会开花\n午睡醒来总有好吃的绿豆沙\n时间慢得像永远长不大\n\n[Chorus]\n那年的蝉 叫了一整个暑假\n我的秘密 藏在枕头底下\n攒了很久的贴纸 贴在铅笔盒上\n以为这样就能留住 那一片晚霞\n\n[Verse 2]\n院子里的石榴树发芽\n水龙头冲走脚丫上的泥巴\n电视剧主题曲学着哼唱\n邻居家小狗叫小花\n\n[Pre-Chorus]\n那时候摔倒了哭一下就好啦\n一颗糖就能换回笑脸啊\n屋顶上看飞机拉出的白线\n猜着它要飞去哪\n\n[Chorus]\n那年的蝉 叫了一整个暑假\n我的愿望 折进星星罐里啦\n攒了很久的硬币 买一根冰棒\n甜了整个夏天 融化了也没怕\n\n[Bridge]\n后来院子拆了 石榴树没啦\n外公不在了 摇椅也搬走啦\n我打开那个星星罐\n纸条上的字 已经看不清啦\n\n[Chorus]\n那年的蝉 后来去了哪\n我的童年 停在那个暑假\n攒了很久的回忆 放在心里最底下\n偶尔拿出来 晒一晒太阳\n\n[Outro]\n蝉声停了\n绿豆沙也凉了"
  },
  "parameters": {
    "upload_url": "https://xxx.xxx.xxx/xxx.mp3",
    "negative_tags":"柔和、静谧",
    "tags": "rock, punk",
    "title": "歌曲名(Cover)",
    "task": "cover"
  }
}'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
request_idstring请求的唯一标识

响应示例#

json
{
  "output": {
    "task_id": "task_id"
  },
  "request_id": "request_id"
}

查询任务状态#

接口#

https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/tasks/status?task_id=<task_id>' \
--header 'Authorization: <YOUR_API_KEY>'

输出#

参数类型描述
output.task_idstring异步任务的唯一标识
output.task_statusstring任务状态:PendingRunningSuccessFailure
output.urlsarray视频结果的 URL 列表
output.submit_timeinteger任务提交时间戳
output.finish_timeinteger任务完成时间戳
output.error_messagestring失败时返回的错误信息
request_idstring请求的唯一标识

响应示例(成功)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Success",
    "urls": ["https://xxxxx/xxxx.mp3"],
    "submit_time": 1756959000,
    "finish_time": 1756959050
  },
  "usage": {
  },
  "request_id": ""
}

响应示例(失败)#

json
{
  "output": {
    "task_id": "task_id",
    "task_status": "Failure",
    "submit_time": 1756959000,
    "finish_time": 1756959019,
    "error_message": "error_message"
  },
  "request_id": ""
}

minimax-speech#

本文介绍minimax语音合成模型 hd 系列调用 API 的输入输出参数,供您使用接口时查阅字段含义。


同步合成#

接口#

https://hk.hyucloud.com/v1/t2a_v2

输入#

参数类型是否必选描述
modelstring请求的模型版本,可选范围:<br/>speech-2.8-hd<br/>speech-2.6-hd<br/>speech-02-hd<br/>speech-2.8-turbo<br/>speech-2.6-turbo<br/>speech-02-turbo
textstring需要合成语音的文本,长度限制小于10000字符,若文本长度大于3000字符,推荐使用流式输出<br/> •段落切换用换行符标记<br/> •停顿控制:支持自定义文本之间的语音时间间隔,以实现自定义文本语音停顿时间的效果。使用方式:在文本中增加<#x#>标记,x 为停顿时长(单位:秒),范围 [0.01, 99.99],最多保留两位小数。文本间隔时间需设置在两个可以语音发音的文本之间,不可连续使用多个停顿标记<br/> •语气词标签:仅当模型选择 speech-2.8-hd,speech-2.8-turbo时,支持在文本中插入语气词标签。支持的语气词:(laughs)(笑声)(chuckle)(轻笑)(coughs)(咳嗽)(clear-throat)(清嗓子)(groans)(呻吟)(breath)(正常换气)(pant)(喘气)(inhale)(吸气)(exhale)(呼气)(gasps)(倒吸气)(sniffs)(吸鼻子)(sighs)(叹气)(snorts)(喷鼻息)(burps)(打嗝)(lip-smacking)(咂嘴)(humming)(哼唱)(hissing)(嘶嘶声)(emm)(嗯)(sneezes)(喷嚏)
streamboolean控制是否流式输出。默认 false,即不开启流式
stream_optionsobjectstream输出控制
stream_options.<br/>exclude_aggregated_audioboolean设置最后一个 chunk 是否包含拼接后的语音 hex 数据。默认值为 False,即最后一个 chunk 中包含拼接后的完整语音 hex 数据
voice_settingobject声音设置
voice_setting.voice_idstring合成音频的音色编号。若需要设置混合音色,请设置 timbre_weights 参数,本参数设置为空值。支持系统音色、复刻音色以及文生音色三种类型,音色ID可查看系统音色列表
voice_setting.speedfloat合成音频的语速,取值越大,语速越快。取值范围 [0.5,2],默认值为1.0
voice_setting.volfloat合成音频的音量,取值越大,音量越高。取值范围 (0,10],默认值为 1.0
voice_setting.pitchint合成音频的语调,取值范围 [-12,12],默认值为 0,其中 0 为原音色输出
voice_setting.emotionenum&lt;string&gt;控制合成语音的情绪,参数范围 ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "calm", "fluent", "whisper"],分别对应 8 种情绪:高兴,悲伤,愤怒,害怕,厌恶,惊讶,中性,生动,低语<br/> 选项 fluent, whisper 仅对 speech-2.6-hd,speech-2.6-turbo 模型生效,speech-2.8-hd,speech-2.8-turbo 模型不支持 whisper
voice_setting.text_normalizationboolean是否启用中文、英语文本规范化,开启后可提升数字阅读场景的性能,但会略微增加延迟,默认值为 false
voice_setting.latex_readboolean控制是否朗读 latex 公式,默认为 false<br/> •仅支持中文,开启该参数后,language_boost 参数会被设置为 Chinese<br/> •请求中的公式需要在公式的首尾加上 $$<br/> •请求中公式若有 "\",需转义成 "\\".
audio_settingobject音频设置
audio_setting.sample_rateint生成音频的采样率。可选范围[8000,16000,22050,24000,32000,44100],默认为 32000
audio_setting.bitrateint生成音频的比特率。可选范围 [32000,64000,128000,256000],默认值为 128000。该参数仅对 mp3 格式的音频生效
audio_setting.formatenum&lt;string&gt;生成音频的格式,默认值:mp3。<br/> •wav 仅在非流式输出下支持。<br/> •可用选项: mp3, pcm, flac, wav
audio_setting.channelint生成音频的声道数。可选范围:[1,2],其中 1 为单声道,2 为双声道,默认值为 1
audio_setting.force_cbrboolean对于音频恒定比特率(cbr)控制,可选 falsetrue。当此参数设置为true,将以恒定比特率方式进行音频编码。<br/>注意:本参数仅当音频设置为流式输出,且音频格式为 mp3 时生效。
pronunciation_dictobject声调
pronunciation_dict.tonestring[]定义需要特殊标注的文字或符号对应的注音或发音替换规则。在中文文本中,声调用数字表示:<br/>一声为 1,二声为 2,三声为 3,四声为 4,轻声为 5<br/> 示例如下:<br/>["燕少飞/(yan4)(shao3)(fei1)", "omg/oh my god"]
timber_weightsobject[]音色比重
timber_weights.voice_idstring合成音频的音色编号,须和weight参数同步填写。支持系统音色、复刻音色以及文生音色三种类型。系统支持的全部音色可查看 系统音色列表
timber_weights.weightint合成音频各音色所占的权重,须与 voice_id 同步填写。可选值范围为[1, 100],最多支持 4 种音色混合,单一音色取值占比越高,合成音色与该音色相似度越高.
language_boostenum&lt;string&gt;是否增强对指定的小语种和方言的识别能力。默认值为 null,可设置为 auto 让模型自主判断。 可用选项: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
voice_modifyobject声音效果器设置,该参数支持的音频格式:<br/>非流式:mp3, wav, flac <br/>流式:mp3
voice_modify.pitchint音高调整(低沉/明亮),范围 [-100,100],数值接近 -100,声音更低沉;接近 100,声音更明亮
voice_modify.intensityint强度调整(力量感/柔和),范围 [-100,100],数值接近 -100,声音更刚劲;接近 100,声音更轻柔
voice_modify.timbreint音色调整(磁性/清脆),范围 [-100,100],数值接近 -100,声音更浑厚;数值接近 100,声音更清脆
voice_modify.sound_effectsenum&lt;string&gt;音效设置,单次仅能选择一种,可选值:<br/> spacious_echo(空旷回音)<br/> auditorium_echo(礼堂广播)<br/> lofi_telephone(电话失真)<br/> robotic(电音)
subtitle_enableboolean控制是否开启字幕服务,默认值为 false。此参数仅在非流式输出场景下有效
output_formatenum&lt;string&gt;控制输出结果形式的参数,可选值范围为[url, hex],默认值为hex 。该参数仅在非流式场景生效,流式场景仅支持返回 hex 形式。返回的 url 有效期为 24 小时
aigc_watermarkbool控制在合成音频的末尾添加音频节奏标识,默认值为 false。该参数仅对非流式合成生效

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

shell
curl --location --globoff 'https://hk.hyucloud.com/v1/t2a_v2' \
--header 'Authorization: Bearer <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
  "model": "speech-2.8-hd",
  "text": "今天是不是很开心呀(laughs),当然了!",
  "stream": false,
  "voice_setting": {
    "voice_id": "male-qn-qingse",
    "speed": 1,
    "vol": 1,
    "pitch": 0,
    "emotion": "happy"
  },
  "audio_setting": {
    "sample_rate": 32000,
    "bitrate": 128000,
    "format": "mp3",
    "channel": 1
  },
  "pronunciation_dict": {
    "tone": [
      "处理/(chu3)(li3)",
      "危险/dangerous"
    ]
  },
  "subtitle_enable": false
}'

输出#

参数类型描述
dataobject返回的合成数据对象,可能为 null,需进行非空判断
data.audiostring合成后的音频数据,采用 hex 编码,格式与请求中指定的输出格式一致
data.subtitle_filestring合成的字幕下载链接。音频文件对应的字幕,精确到句(不超过 50 字),单位为毫秒,格式为 json
data.statusint当前音频流状态:1 表示合成中,2 表示合成结束
trace_idstring本次会话的 id,用于在咨询/反馈时帮助定位问题
extra_infoobject音频的附加信息
extra_info.audio_lengthint音频时长(毫秒)
extra_info.audio_sample_rateint音频采样率
extra_info.audio_sizeint音频文件大小(字节)
extra_info.bitrateint音频比特率
extra_info.audio_formatenum&lt;string&gt;生成音频文件的格式。取值范围 [mp3, pcm, flac]
extra_info.audio_channelint生成音频声道数,1:单声道,2:双声道
extra_info.invisible_character_rationumber非法字符占比.非法字符不超过 10%(包含 10%),音频会正常生成,并返回非法字符占比数据;如超过 10% 将进行报错
extra_info.usage_charactersint计费字符数
extra_info.word_countint已发音的字数统计,包含汉字、数字、字母,不包含标点符号
base_respobject本次请求的状态码和详情
base_resp.status_codeint状态码。<br/>0: 请求结果正常<br/>1000: 未知错误<br/>1001: 超时<br/>1002: 触发限流<br/>1004: 鉴权失败<br/>1039: 触发 TPM 限流<br/>1042: 非法字符超过 10%<br/>2013: 输入参数信息不正常
base_resp.status_msgstring状态详情

响应示例#

json
{
  "data": {
    "audio": "<hex编码的audio>",
    "status": 2
  },
  "extra_info": {
    "audio_length": 9900,
    "audio_sample_rate": 32000,
    "audio_size": 160323,
    "bitrate": 128000,
    "word_count": 52,
    "invisible_character_ratio": 0,
    "usage_characters": 26,
    "audio_format": "mp3",
    "audio_channel": 1
  },
  "trace_id": "01b8bf9bb7433cc75c18eee6cfa8fe21",
  "base_resp": {
    "status_code": 0,
    "status_msg": "success"
  }
}

通义千问 Qwen-TTS#

本文介绍 hyucloud 接入的阿里云通义千问语音合成模型 qwen3-tts-flash 调用 API 的输入输出参数,供您使用接口时查阅字段含义。

该模型提供多种拟人音色,支持多语言及中文方言,并可在同一音色下输出多语言内容,系统可自适应语气、流畅处理复杂文本。

支持的模型#

模型说明
qwen3-tts-flash按字符计费、低延迟,适合导航播报、通知、在线教育课件、短文本高频合成等场景。支持多语种与中文方言。

同步合成#

接口#

https://hk.hyucloud.com/v1/audio/speech

说明:该接口与 OpenAI /v1/audio/speech 路径兼容,但 响应体为阿里云原始 JSON(包含音频 URL),并非 OpenAI 的二进制音频流。请参见下文 响应格式 章节。

请求参数#

参数类型是否必选描述
modelstring要使用的 TTS 模型名称,取值见上文 支持的模型,例如:qwen3-tts-flash
inputstring需要合成语音的文本,支持多语种混合输入,最长 600 字符
voicestring使用的系统音色名称,例如:CherryEthanSerenaChelsie 等。完整音色列表请参见 阿里云官方音色列表
metadata.language_typestring指定合成音频的语种。不传时为 Auto(自动识别,适合无法确定语种或混合语言文本)。文本为单一语种时指定具体语种可显著提升合成质量。可选值:ChineseEnglishGermanItalianPortugueseSpanishJapaneseKoreanFrenchRussianAuto(大小写均可)。值由上游校验,非法值会返回 400 错误并在 message 中列出当前支持的完整语种列表。

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

curl#

bash
curl https://hk.hyucloud.com/v1/audio/speech \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-tts-flash",
    "input": "那我来给大家推荐一款T恤,这款呢真的是超级好看,这个颜色呢很显气质。",
    "voice": "Cherry"
  }'

python#

python
import os
import requests

resp = requests.post(
    "https://hk.hyucloud.com/v1/audio/speech",
    headers={
        "Authorization": f"Bearer {os.getenv('hyucloud_API_KEY')}",
        "Content-Type": "application/json",
    },
    json={
        "model": "qwen3-tts-flash",
        "input": "那我来给大家推荐一款T恤,这款呢真的是超级好看,这个颜色呢很显气质。",
        "voice": "Cherry",
    },
)
data = resp.json()
audio_url = data["output"]["audio"]["url"]
print("audio url:", audio_url)

# 下载音频
audio_bytes = requests.get(audio_url).content
with open("output.wav", "wb") as f:
    f.write(audio_bytes)

指定语种(可选)#

当输入文本为单一语种时,通过 metadata.language_type 显式指定语种可获得更精准的发音和更自然的语调,效果通常优于默认的 Auto

bash
curl https://hk.hyucloud.com/v1/audio/speech \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-tts-flash",
    "input": "今天天气真好,我们去公园散步吧。",
    "voice": "Cherry",
    "metadata": {
      "language_type": "Chinese"
    }
  }'

响应格式#

接口返回 application/json,为阿里云 DashScope 原始响应结构透传。客户端需从 output.audio.url 字段中取到音频 URL 再自行下载(URL 有效期为 24 小时)。

输出#

参数类型描述
request_idstring本次请求的唯一标识,可用于定位和排查问题
codestring业务错误码,成功时为空字符串
messagestring业务错误信息,成功时为空字符串
outputobject模型输出
output.finish_reasonstring结束原因:生成中为 null,正常结束为 stop
output.audioobject合成音频信息
output.audio.urlstring合成音频的完整文件 URL,有效期 24 小时
output.audio.datastring流式输出时的 Base64 音频数据(当前仅同步模式,固定为空字符串)
output.audio.idstring音频信息的 ID
output.audio.expires_atinteger音频 URL 的过期时间戳
usageobject本次请求的用量信息
usage.charactersinteger输入文本字符数,计费依据
usage.input_tokensinteger固定为 0
usage.output_tokensinteger固定为 0

响应示例#

json
{
  "request_id": "5c63c65c-cad8-4bf4-959d-xxxxxxxxxxxx",
  "code": "",
  "message": "",
  "output": {
    "finish_reason": "stop",
    "audio": {
      "data": "",
      "url": "https://dashscope-result-bj.oss-cn-beijing.aliyuncs.com/xx/xxxxxxxx.wav?Expires=1766113409&OSSAccessKeyId=LTAI5xxxxxx&Signature=xxxxxx",
      "id": "audio_5c63c65c-cad8-4bf4-959d-xxxxxxxxxxxx",
      "expires_at": 1766113409
    }
  },
  "usage": {
    "input_tokens": 0,
    "output_tokens": 0,
    "characters": 195
  }
}

错误响应#

当请求失败时,接口会返回标准 JSON 格式错误响应:

json
{
  "error": {
    "message": "错误描述信息",
    "type": "invalid_request_error",
    "code": "error_code",
    "param": "<请求 ID,用于反馈或排查错误原因>"
  }
}

注意事项#

1. 响应不是二进制音频流:与 OpenAI 原生 /v1/audio/speech 不同,本接口返回 JSON 而非音频字节。若您此前已用 OpenAI SDK 对接本接口(例如 with_streaming_response.create(...).stream_to_file(...)),请改为解析 JSON 并二次下载 output.audio.url。 2. 音频 URL 有效期 24 小时:请及时下载或将其落盘到您自己的对象存储。 3. 文本长度限制:最长 600 字符,超长文本请自行切分。 4. 计费方式:按字符数计费,以上游返回的 usage.characters 为准。 5. 音色选择voice 字段需传入阿里云系统音色名称(如 Cherry),完整列表请参见阿里云官方文档。


ElevenLabs Music#

本文介绍 ElevenLabs music-v1 音乐生成模型的调用方式,支持标准生成、流式生成、详细模式和曲谱生成四个端点。

官方文档参考

- Compose music

- Stream music

- Compose music with details

- Create composition plan


音乐生成(同步)官方文档#

接口#

POST https://hk.hyucloud.com/v1/audio/music/generate

输入#

参数类型是否必选描述
modelstring模型名称,固定为 music-v1
inputstring二选一音乐描述提示词,最多 4100 字符。与 composition_plan 不可同时使用
composition_planobject二选一结构化曲谱计划,用于精确控制音乐生成。与 input 不可同时使用
composition_plan.positive_global_stylesarray全局正面风格标签
composition_plan.negative_global_stylesarray全局负面风格标签(不希望出现的风格)
composition_plan.sectionsarray(object)乐章列表
composition_plan.sections.section_namestring乐章名称
composition_plan.sections.positive_local_stylesarray(string)乐章正面风格
composition_plan.sections.negative_local_stylesarray(string)乐章负面风格
composition_plan.sections.duration_msinteger乐章时长(毫秒)
composition_plan.sections.linesarray(string)歌词行
music_length_msinteger音乐时长(毫秒),范围 1-600000
seedinteger随机种子,范围 0-2147483647,用于生成更一致的结果。仅与 composition_plan 配合使用,不可与 input 同时使用
force_instrumentalboolean是否强制生成纯音乐,默认 false。仅与 input 配合使用
output_formatstring输出音频格式,如 mp3_22050_32(mp3,22.05kHz,32kbps)

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/audio/music/generate' \
--header 'Authorization: Bearer <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
  "model": "music-v1",
  "input": "A happy piano melody with soft jazz undertones",
  "music_length_ms": 30000,
  "output_format": "mp3_22050_32"
}' \
--output music.mp3

输出#

直接返回音频二进制流,格式由 output_format 决定,默认为 mp3。

响应头#

参数类型描述
song-idstring生成歌曲的唯一标识

音乐生成(流式)官方文档#

接口#

POST https://hk.hyucloud.com/v1/audio/music/stream

流式端点的请求参数与标准生成完全一致,区别在于响应以流式方式返回音频数据,适用于需要边生成边播放的场景。

输入#

参数与 音乐生成(同步) 相同。

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/audio/music/stream' \
--header 'Authorization: Bearer <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
  "model": "music-v1",
  "input": "A calm guitar piece with nature sounds",
  "music_length_ms": 30000,
  "output_format": "mp3_22050_32"
}' \
--output music_stream.mp3

输出#

以流式方式返回音频二进制数据。


音乐生成(详细模式)官方文档#

接口#

POST https://hk.hyucloud.com/v1/audio/music/detailed

详细模式端点除了返回音频外,还会返回模型生成的曲谱计划和歌曲元数据。

输入#

参数类型是否必选描述
modelstring模型名称,固定为 music-v1
inputstring二选一音乐描述提示词,最多 4100 字符。与 composition_plan 不可同时使用
composition_planobject二选一结构化曲谱计划。与 input 不可同时使用
music_length_msinteger音乐时长(毫秒),范围 1-600000。仅与 input 配合使用
seedinteger随机种子,范围 0-2147483647。仅与 composition_plan 配合使用,不可与 input 同时使用
force_instrumentalboolean是否强制生成纯音乐,默认 false。仅与 input 配合使用
respect_sections_durationsboolean是否严格遵循乐章时长,默认 true。仅与 composition_plan 配合使用
with_timestampsboolean是否返回歌词时间戳,默认 false
output_formatstring输出音频格式

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/audio/music/detailed' \
--header 'Authorization: Bearer <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
  "model": "music-v1",
  "input": "An upbeat jazz tune",
  "music_length_ms": 10000
}' \
--output music_detailed.mp3

输出#

响应为 multipart/mixed 格式,包含两部分:

1. JSON 元数据 — 包含曲谱计划和歌曲元信息 2. 音频二进制数据 — 生成的音频文件

元数据结构#

参数类型描述
composition_planobject模型生成的曲谱计划
composition_plan.positive_global_stylesarray全局正面风格标签
composition_plan.negative_global_stylesarray全局负面风格标签
composition_plan.sectionsarray(object)乐章列表
composition_plan.sections.section_namestring乐章名称
composition_plan.sections.positive_local_stylesarray(string)乐章正面风格
composition_plan.sections.negative_local_stylesarray(string)乐章负面风格
composition_plan.sections.duration_msinteger乐章时长(毫秒)
composition_plan.sections.linesarray(string)歌词行
song_metadataobject歌曲元信息
song_metadata.titlestring歌曲标题
song_metadata.descriptionstring歌曲描述
song_metadata.genresarray音乐流派
song_metadata.languagesarray语言
song_metadata.is_explicitboolean是否包含敏感内容

元数据响应示例#

json
{
  "composition_plan": {
    "positive_global_styles": ["jazz", "upbeat"],
    "negative_global_styles": ["heavy metal", "aggressive"],
    "sections": [
      {
        "section_name": "Intro",
        "positive_local_styles": ["piano", "light percussion"],
        "negative_local_styles": ["vocals", "distortion"],
        "duration_ms": 3000,
        "lines": []
      },
      {
        "section_name": "Verse",
        "positive_local_styles": ["saxophone", "swing rhythm"],
        "negative_local_styles": ["harsh drums"],
        "duration_ms": 7000,
        "lines": ["Swinging through the night..."]
      }
    ]
  },
  "song_metadata": {
    "title": "Jazz Evening",
    "description": "An upbeat jazz composition",
    "genres": ["jazz"],
    "languages": ["en"],
    "is_explicit": false
  }
}

曲谱生成 官方文档#

接口#

POST https://hk.hyucloud.com/v1/audio/music/plan

根据文字描述生成结构化曲谱计划,可用于后续音乐生成。该端点不消耗额度。

输入#

参数类型是否必选描述
modelstring模型名称,固定为 music-v1
promptstring曲谱描述提示词,最多 4100 字符
music_length_msinteger总时长(毫秒),范围 3000-600000。不填则模型自动决定
source_composition_planobject基于已有曲谱生成新曲谱

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/audio/music/plan' \
--header 'Authorization: Bearer <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
  "model": "music-v1",
  "prompt": "A soft lullaby with gentle piano and female vocals",
  "music_length_ms": 30000
}'

输出#

参数类型描述
positive_global_stylesarray全局正面风格标签(建议使用英文)
negative_global_stylesarray全局负面风格标签(建议使用英文)
sectionsarray(object)乐章列表
sections.section_namestring乐章名称
sections.positive_local_stylesarray(string)乐章正面风格
sections.negative_local_stylesarray(string)乐章负面风格
sections.duration_msinteger乐章时长(毫秒)
sections.linesarray(string)歌词行

响应示例#

json
{
  "positive_global_styles": ["lullaby", "soft", "gentle", "calming", "acoustic"],
  "negative_global_styles": ["loud", "heavy drums", "fast tempo", "aggressive"],
  "sections": [
    {
      "section_name": "Verse 1",
      "positive_local_styles": ["soft female vocal", "gentle acoustic guitar", "slow tempo"],
      "negative_local_styles": ["percussion", "bass guitar"],
      "duration_ms": 15000,
      "lines": [
        "Close your eyes and drift away,",
        "Safe and sound until the day."
      ]
    },
    {
      "section_name": "Verse 2",
      "positive_local_styles": ["soft female vocal", "hushed delivery", "dreamy atmosphere"],
      "negative_local_styles": ["strong vocals", "drums"],
      "duration_ms": 15000,
      "lines": [
        "Stars above are shining bright,",
        "Sleep now, darling, sleep so deep."
      ]
    }
  ]
}

提示:生成的 composition_plan 可以直接传入音乐生成接口的 composition_plan 参数,实现基于曲谱的精确音乐生成。


ElevenLabs Text to Sound v2#

本文介绍 ElevenLabs eleven_text_to_sound_v2 音效生成模型的调用方式,支持将文字描述转换为音效音频。

官方文档参考

- Create sound effect


音效生成(同步)#

接口#

POST https://hk.hyucloud.com/v1/audio/sound-generation

将文字描述转换为音效音频,适用于视频、配音或游戏等场景。

输入#

参数类型是否必选描述
modelstring模型名称,固定为 text-to-sound-v2
textstring音效描述文本,描述你想要生成的声音
loopboolean是否生成可循环的音效,默认 false。仅 eleven_text_to_sound_v2 模型支持
duration_secondsdouble音效时长(秒),范围 0.5-30
prompt_influencedouble提示词影响程度,范围 0-1,默认 0.3。值越高生成结果越贴近描述,但多样性降低
output_formatstring输出音频格式,如 mp3_22050_32(mp3,22.05kHz,32kbps)

请求示例#

shell
curl --location 'https://hk.hyucloud.com/v1/audio/sound-generation' \
--header 'Authorization: Bearer <YOUR_API_KEY>' \
--header 'Content-Type: application/json' \
--data '{
  "model": "text-to-sound-v2",
  "text": "Spacious braam suitable for high-impact movie trailer moments",
  "duration_seconds": 5.0,
  "output_format": "mp3_22050_32"
}' \
--output sound_effect.mp3

输出#

直接返回音频二进制流,格式由 output_format 决定,默认为 mp3。

响应头#

参数类型描述
character-coststring本次生成消耗的字符数

GPT-4o mini Transcribe 语音转文字#

本文介绍 hyucloud 接入的 Azure OpenAI gpt-4o-mini-transcribe 语音转文字模型的调用参数,供您使用接口时查阅。

该模型将音频文件转录为文字,相比 Whisper 模型具有更低的词错误率(WER)和更好的多语言识别能力,按 token 计费。

参考官方文档:Azure OpenAI Create Transcription

支持的模型#

模型说明
gpt-4o-mini-transcribe基于 GPT-4o mini 的语音转录模型,支持多语言,按 token 计费,适合高并发转录场景。

接口#

POST https://hk.hyucloud.com/v1/audio/transcriptions

该接口与 OpenAI /v1/audio/transcriptions 兼容。

请求参数#

Content-Type: multipart/form-data

参数类型是否必选默认值描述
modelstring模型名称,固定填 gpt-4o-mini-transcribe
filefile待转录的音频文件。支持格式:flacm4amp3mp4mpgaoggwavwebm。注意:不支持 .oga 扩展名,请使用 .ogg 代替
languagestring音频语言,ISO-639-1 格式(如 zhenja)。显式指定语言可提升准确率和响应速度
promptstring引导模型转录风格的提示词,需与音频语言一致。可用于续接前段音频或统一术语表达
response_formatstringjson输出格式。可选值:jsontextgpt-4o-mini-transcribe 不支持 verbose_jsonvttsrt
temperaturenumber0采样温度,范围 0–1。设为 0 时模型自动调节;较高值使输出更多样,较低值更确定
streambooleanfalse是否以流式(SSE)返回转录结果。设为 true 时,接口返回 text/event-stream,逐 token 增量推送 transcript.text.delta 事件,最后以 transcript.text.done 事件(含完整文本和 usage)和 [DONE] 结束。适合长音频场景,客户端无需等待全部转写完成
include[]array额外返回的信息。可选值:logprobs(返回每个 token 的对数概率,用于评估模型置信度)。仅 response_format=json 时生效。可重复传多个值,如 -F "include[]=logprobs"

请求示例#

⚠️ 如果您使用 Windows 系统,建议使用 Postman 或其他 API 调用工具。

curl#

bash
curl https://hk.hyucloud.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -F "model=gpt-4o-mini-transcribe" \
  -F "file=@/path/to/audio.mp3"

指定语言(提升准确率):

bash
curl https://hk.hyucloud.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -F "model=gpt-4o-mini-transcribe" \
  -F "file=@/path/to/audio.mp3" \
  -F "language=zh"

Python#

python
import os
import requests

with open("/path/to/audio.mp3", "rb") as f:
    resp = requests.post(
        "https://hk.hyucloud.com/v1/audio/transcriptions",
        headers={"Authorization": f"Bearer {os.getenv('hyucloud_API_KEY')}"},
        files={"file": f},
        data={"model": "gpt-4o-mini-transcribe", "language": "zh"},
    )

print(resp.json()["text"])

流式转录(stream=true#

bash
curl -N https://hk.hyucloud.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -F "model=gpt-4o-mini-transcribe" \
  -F "file=@/path/to/audio.mp3" \
  -F "stream=true"

-N 禁用 curl 缓冲,确保实时看到流式输出。

返回 logprobs(include[]=logprobs#

bash
curl https://hk.hyucloud.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $hyucloud_API_KEY" \
  -F "model=gpt-4o-mini-transcribe" \
  -F "file=@/path/to/audio.mp3" \
  -F "include[]=logprobs"

响应格式#

默认(response_format=json#

字段类型描述
textstring转录后的文字
usageobjectToken 用量信息
usage.typestring固定值 tokens
usage.total_tokensinteger总 token 数
usage.input_tokensinteger输入 token 数(含音频)
usage.input_token_details.text_tokensinteger文本输入 token 数
usage.input_token_details.audio_tokensinteger音频输入 token 数
usage.output_tokensinteger输出 token 数
json
{
  "text": "今天天气真好,我们去公园散步吧。",
  "usage": {
    "type": "tokens",
    "total_tokens": 56,
    "input_tokens": 50,
    "input_token_details": {
      "text_tokens": 0,
      "audio_tokens": 50
    },
    "output_tokens": 6
  }
}

详细(response_format=verbose_json#

⚠️ gpt-4o-mini-transcribe 不支持 verbose_json,使用时会返回错误。如需详细格式,请使用 whisper-1 模型。

流式(stream=true#

返回 text/event-stream,逐 token 增量推送,事件格式如下:

事件 type含义
transcript.text.delta增量文本片段,字段 delta 为本次新增的 token
transcript.text.done转写完成,字段 text 为完整文本,usage 为 token 用量
code
data: {"type":"transcript.text.delta","delta":"今天"}

data: {"type":"transcript.text.delta","delta":"天气"}

data: {"type":"transcript.text.done","text":"今天天气真好。","usage":{"type":"tokens","total_tokens":56,"input_tokens":50,"output_tokens":6}}

data: [DONE]

若同时传 include[]=logprobs,每个 deltadone 事件都会额外携带 logprobs 数组。

logprobs(include[]=logprobs#

非流式响应额外返回 logprobs 字段,包含每个输出 token 的对数概率和字节信息:

json
{
  "text": "Is this a test?",
  "logprobs": [
    {"token": "Is", "logprob": -0.81, "bytes": [73, 115]},
    {"token": " this", "logprob": -0.91, "bytes": [32, 116, 104, 105, 115]}
  ],
  "usage": {...}
}

纯文本(response_format=text#

直接返回转录文字字符串,不含 JSON 包装。

错误响应#

json
{
  "error": {
    "message": "错误描述信息",
    "type": "invalid_request_error",
    "code": "error_code",
    "param": "<请求 ID,用于反馈或排查错误原因>"
  }
}

注意事项#

1. 音频格式:支持 mp3wavm4aflacoggflacwebmmpga 等主流格式,文件大小上限 25 MB。不支持 .oga 扩展名(请使用 .ogg 代替),mpeg 格式因编码质量较低可能导致识别不准确。 2. 语言指定:不传 language 时模型自动检测,但显式指定语言通常能获得更准确的结果。 3. 计费方式:按 token 计费,输入(音频)和输出(文字)分别计费,与 Whisper 按分钟计费不同。 4. 响应格式gpt-4o-mini-transcribe 仅支持 jsontext 两种格式;verbose_jsonvttsrt 等格式不被支持,使用时会返回错误。 5. temperature 越界temperature 超过 1 时 Azure 不会报错,但输出可能出现乱码,请确保在 0–1 范围内。 6. 流式响应stream=true 适合长音频场景,客户端可实时展示转写进度。流式和非流式均按 token 计费,用量一致。 7. logprobsinclude[]=logprobs 仅在 response_format=json(默认)时生效,与 stream=true 可同时使用。


常见问题#

如何查看支持的模型列表#

您可以通过 /v1/models 接口获取所有支持的模型:

shell
curl https://hk.hyucloud.com/v1/models \
  -H "Content-Type: application/json"

推荐使用 Cherry Studio 客户端,配置 API 地址后点击管理按钮即可直观查看所有支持的模型。详细配置教程请参考:Cherry Studio 配置教程。

获取模型

GPT-5/o 系列模型参数报错#

官方文档

OpenAI 官方已将 max_tokens 参数标记为废弃(deprecated),GPT-5 系列和 o 系列模型均不再支持该参数。详情请参考 OpenAI 官方文档

如需传入图像文件,请使用 base64 编码,暂不支持 URL 方式。

gpt-5-codex 和 gpt-5.1-codex 系列模型说明#

这两个系列模型仅支持 /v1/response/ 接口。

Gemini 系列模型如何开启/关闭思考过程#

使用 Gemini 协议的 v1beta/models 接口,并配置以下参数。详细文档请参考 Gemini 协议兼容:

json
"generationConfig": {
    "thinkingConfig": {
        "include_thoughts": true,
        "thinkingBudget": 0
    }
}

参数说明:

  • include_thoughts:设置为 true 开启思考过程输出,设置为 false 关闭
  • thinkingBudget:控制思考时间预算

Claude *系列模型说明*#

Claude Sonnet 4.5 仅支持指定 temperaturetop_p 参数中的一个,不能同时使用这两个参数。详见 官方文档说明

Gemini 系列模型安全等级说明#

Gemini API 提供了灵活的安全设置功能,允许您在原型设计和生产环境中根据应用场景调整内容过滤策略。通过配置安全等级,您可以在五个过滤器类别中精确控制内容审核的严格程度。

相关文档:

安全设置配置示例#

以下示例展示如何关闭所有内容过滤(BLOCK_NONE),适用于需要最大灵活性的开发场景:

json
{
  "safetySettings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_CIVIC_INTEGRITY",
      "threshold": "BLOCK_NONE"
    }
  ]
}

可用的过滤类别#

  • HARM_CATEGORY_HATE_SPEECH:仇恨言论
  • HARM_CATEGORY_SEXUALLY_EXPLICIT:色情内容
  • HARM_CATEGORY_DANGEROUS_CONTENT:危险内容
  • HARM_CATEGORY_HARASSMENT:骚扰内容
  • HARM_CATEGORY_CIVIC_INTEGRITY:公民诚信

可用的阈值选项#

阈值(HarmBlockThreshold)用于控制在达到或超过指定有害概率时进行内容屏蔽:

  • HARM_BLOCK_THRESHOLD_UNSPECIFIED:阈值未指定
  • BLOCK_LOW_AND_ABOVE:允许"可忽略"风险的内容,屏蔽"低"及以上风险的内容
  • BLOCK_MEDIUM_AND_ABOVE:允许"可忽略"和"低"风险的内容,屏蔽"中"及以上风险的内容
  • BLOCK_ONLY_HIGH:允许"可忽略"、"低"和"中"风险的内容,仅屏蔽"高"风险内容
  • BLOCK_NONE:允许所有内容,不进行任何屏蔽
  • OFF:关闭安全过滤功能

根据您的应用需求和使用场景选择合适的阈值配置。建议在生产环境中使用更严格的过滤策略以确保内容安全。