音频模型

图标说明

输入: 文本 · 音频 · 输出: 文本 · 音频

语音合成 / TTS

厂商	接口模型ID	模型能力	endpoint	价格（每百万 Tokens）	上线时间	预计下线时间	负载能力	支持访问地区	备注
Azure	turing/tts-1	输入: 输出: Tools: 不支持	`v1/audio/speech`	`$15`	2024-12-16	-	全球	中国区欧洲区北美区	-
Azure	turing/tts-1-hd	输入: 输出: Tools: 不支持	`v1/audio/speech`	`$30`	2024-12-16	-	全球	中国区欧洲区北美区	-

用于会议纪要、录音转文字、说话人分离和专有名词识别。接口采用异步任务模型，先创建转写任务，再轮询结果。

厂商	服务名称	模型能力	endpoint	计费方式	上线时间	预计下线时间	负载能力	支持访问地区	备注
阿里云	`aliyun/tingwu`	输入: 输出: 说话人分离 / 专有名词识别 / 音视频格式转换	`v1/audio/transcriptions/runs`	按音频时长计费	-	-	-	中国区	会议纪要 ASR；使用说明见语音转写 / STT