功能完整的MiniMax AI统一命令行工具,支持所有最新AI功能,包括播客系统、语音克隆、图像/视频/音乐生成等。
# 安装所有依赖
python setup.py
# 或手动安装
pip install -r requirements.txtpython minimax_cli.py --interactive# ========== 智能对话(支持最新 MiniMax-M2.1 系列)==========
# 基础对话(默认使用 MiniMax-M2.1 模型)
python minimax_cli.py -c "你好,MiniMax"
# 高级对话 - 使用 Anthropic API 兼容接口
python minimax_cli.py -c "解释量子计算" --anthropic-api --show-thinking
# 自定义系统提示词和温度
python minimax_cli.py -c "写一首关于春天的诗" \
--chat-model MiniMax-M2.1 \
--system-prompt "你是一位专业的诗人" \
--temperature 0.9 \
--max-tokens 2048
# 使用极速模型
python minimax_cli.py -c "快速回答: 1+1等于几?" --chat-model M2.1-lightning
# ========== 图像生成(支持高级参数)==========
python minimax_cli.py -i "樱花树下的猫" --n 2 --aspect-ratio 16:9
# 高级图像生成(新模型支持)
python minimax_cli.py -i "可爱的卡通人物" --image-model image-01-live --style-type 漫画
# 自定义尺寸生成
python minimax_cli.py -i "风景画" --width 1024 --height 768 --prompt-optimizer
# Base64格式输出
python minimax_cli.py -i "现代艺术" --response-format base64 --n 3
# 添加水印和风格
python minimax_cli.py -i "水彩画风格的山水" --style-type 水彩 --style-weight 0.9 --add-watermark
# 图生图(基于参考图片生成)
python minimax_cli.py -i2i person.jpg "该人物穿着古装,在古代建筑前"
# 图生图与风格化结合
python minimax_cli.py -i2i portrait.jpg "动漫风格的人物" --image-model image-01-live --style-type 漫画
# 高级图生图
python minimax_cli.py -i2i photo.jpg "油画风格的艺术肖像" --n 2 --seed 12345 --add-watermark
# 视频生成(支持运镜控制)
python minimax_cli.py -v "熊猫在竹林中漫步[推进]" --video-model MiniMax-Hailuo-2.3
# 导演模型(专业运镜)
python minimax_cli.py -v "主角[左摇]看夕阳,然后[拉远]显示全景" --video-model T2V-01-Director
# 镜头序列控制
python minimax_cli.py -v "动作场景" --camera-sequence '[{"action":"推进","timing":"开始"},{"action":"晃动","timing":"打斗"}]'
# 高质量长视频
python minimax_cli.py -v "自然风景[上升]俯瞰" --video-duration 10 --video-resolution 1080P --fast-preprocessing
# 图生视频(让静态图片动起来)
python minimax_cli.py -i2v image.jpg "人物开始微笑和眨眼" --i2v-model I2V-01-Director
# 卡通风格增强
python minimax_cli.py -i2v cartoon.png "角色开始跳舞" --i2v-model I2V-01-live
# 高质量图生视频
python minimax_cli.py -i2v photo.jpg "镜头[推进]展示细节" --i2v-model MiniMax-Hailuo-2.3 --i2v-duration 10
# 首尾帧视频生成(图片到图片的过渡动画)
python minimax_cli.py -se start.jpg end.jpg
# 高清首尾帧视频
python minimax_cli.py -se start.jpg end.jpg --se-duration 10 --se-resolution 1080P
# 添加水印和回调
python minimax_cli.py -se before.jpg after.jpg --add-watermark --callback-url https://example.com/callback
# 主体参考视频生成(基于人物图片生成视频)
python minimax_cli.py -s2v person.jpg "一个人跑步并微笑"
# 添加水印的高级生成
python minimax_cli.py -s2v character.jpg "角色走向镜头并眨眼" --add-watermark --no-prompt-optimizer
# 音乐生成(需要歌词)
python minimax_cli.py -m "轻松愉快的背景音乐" --lyrics "[Verse]\n阳光洒落\n[Chorus]\n快乐每一天"
# 高级音乐生成(music-2.0新功能)
python minimax_cli.py -m "独立民谣,忧郁,内省,渴望,独自漫步,咖啡馆" --lyrics "[verse]\n街灯微亮晚风轻抚\n[chorus]\n推开木门香气弥漫" --music-watermark
# 高质量音频输出
python minimax_cli.py -m "摇滚音乐,激情,充满力量" --lyrics "[verse]\n吉他声响起\n[chorus]\n燃烧的青春" --music-format wav --music-bitrate 256000 --music-sample-rate 44100
# 流式传输(hex格式)
python minimax_cli.py -m "电子音乐,未来感,科技" --lyrics "未来世界\n代码与梦想" --music-stream
# 文本转语音(支持6个最新模型)
python minimax_cli.py -t "你好,世界" --tts-model speech-2.6-hd --emotion happy --speed 1.2
# 高级语音合成
python minimax_cli.py -t "你好,世界" --format wav --sample-rate 44100 --channel 2
# 流式语音合成
python minimax_cli.py -t "你好,世界" --stream --output-format hex
# 文本规范化+LaTeX公式
python minimax_cli.py -t "公式:$x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}$" --latex-read --text-normalization
# 使用fluent/whisper情感(仅2.6模型)
python minimax_cli.py -t "生动讲述一个故事" --tts-model speech-2.6-hd --emotion fluent
# AI播客生成
python minimax_cli.py -p "人工智能如何改变未来"
# 查询音色列表
python minimax_cli.py --list-voices| 功能 | 模型 | 描述 |
|---|---|---|
| 智能对话 | MiniMax-M2.1系列 | 最新M2.1/M2.1-lightning,支持Anthropic API,思维链可视化 |
| 图像生成 | image-01系列 | 支持1-9张图片,多种宽高比,风格控制 |
| 图生图 | image-01系列 | 基于参考图片生成,支持人像character类型 |
| 视频生成 | MiniMax-Hailuo-2.3 | 肢体动作、物理表现与指令遵循能力全面升级 |
| 图生视频 | I2V-01系列 | 静态图片转换为动态视频,支持运镜控制 |
| 首尾帧生成 | MiniMax-Hailuo-02 | 起始到结束图片的过渡动画,高清输出 |
| 主体参考生成 | S2V-01 | 基于人物主体图片生成视频,保持面部特征 |
| 音乐创作 | music-2.0 | 自定义歌词,支持流式传输和多种音频格式 |
| 语音合成 | speech-2.6系列 | 支持6个模型,9种情感,文本规范化,LaTeX朗读 |
| AI播客 | 多模型组合 | 多人对话,多音色播客 |
| 语音克隆 | voice_clone | 3秒快速克隆音色 |
所有输出自动保存到:
./output/
├── audio/ # 语音合成文件
├── images/ # 生成图片
├── videos/ # 生成视频
├── music/ # 生成音乐
└── podcasts/ # 播客文件
首次使用自动引导配置:
- API密钥: 保存在
~/.minimax_ai/config.json - 环境变量: 也可设置
MINIMAX_GROUP_ID和MINIMAX_API_KEY
python minimax_cli.py -c "对话内容" \
--chat-model MiniMax-M2.1 \ # 对话模型 [MiniMax-M2.1, MiniMax-M2.1-lightning, MiniMax-M2]
--system-prompt "你是一个助手" \ # 系统提示词
--temperature 0.8 \ # 温度参数 (0.0-1.0],默认1.0
--max-tokens 2048 \ # 最大生成token数,默认1024
--anthropic-api \ # 使用 Anthropic API 兼容接口
--show-thinking # 显示模型思考过程(仅 Anthropic API)
# Anthropic API 兼容模式 - 查看思考过程
python minimax_cli.py -c "解释量子纠缠原理" \
--anthropic-api \
--show-thinking \
--temperature 0.7
# 使用极速模型 M2.1-lightning
python minimax_cli.py -c "快速生成一份代码大纲" \
--chat-model M2.1-lightning \
--max-tokens 4096| 模型 | 速度 | 特点 | 适用场景 |
|---|---|---|---|
| MiniMax-M2.1 | ~60 tps | 强大多语言能力,编程体验全面升级 | 编程、复杂任务 |
| MiniMax-M2.1-lightning | ~100 tps | 极速响应,更敏捷 | 快速对话、实时应用 |
| MiniMax-M2 | 标准 | 为高效编码与Agent工作流而生 | 兼容性需求 |
- 端点:
https://api.minimaxi.com/anthropic - 支持参数: model, messages, max_tokens, stream, system, temperature, tool_choice, tools, top_p, thinking, metadata
- 不支持参数: top_k, stop_sequences, service_tier, mcp_servers, context_management, container
- 消息类型支持: text, tool_use, tool_result, thinking
- 消息类型不支持: image, document
python minimax_cli.py -t "文本内容" \
--tts-model speech-2.6-hd \ # 语音模型 [speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo]
--voice female-chengshu \ # 音色选择(300+系统音色)
--emotion happy \ # 情感控制 [happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper]
# fluent/whisper 仅对 speech-2.6-hd/speech-2.6-turbo 生效
--speed 1.2 \ # 语速 [0.5-2.0]
--vol 1.5 \ # 音量 (0, 10]
--pitch 5 \ # 语调 [-12到12]
--format wav \ # 音频格式 [mp3, pcm, flac, wav],wav仅非流式
--sample-rate 44100 \ # 采样率 [8000,16000,22050,24000,32000,44100]
--bitrate 256000 \ # 比特率 [32000,64000,128000,256000]
--channel 2 \ # 声道数 [1,2]
--stream \ # 流式输出
--language-boost Chinese \ # 语言增强(40种语言)
--subtitle \ # 启用字幕(仅非流式)
--output-format hex \ # 输出格式 [hex, url],流式仅支持hex
--text-normalization \ # 启用文本规范化(提升数字阅读性能)
--latex-read \ # 启用LaTeX公式朗读(公式需用$包裹)
--force-cbr # 使用恒定比特率(仅流式+mp3生效)
# 使用最新模型
python minimax_cli.py -t "你好世界" --tts-model speech-2.6-hd --emotion happy
# 使用fluent情感(生动讲述)
python minimax_cli.py -t "这是一个精彩的故事" --tts-model speech-2.6-hd --emotion fluent
# LaTeX公式朗读
python minimax_cli.py -t "公式是 $x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}$" --latex-read
# 文本规范化(优化数字阅读)
python minimax_cli.py -t "电话号码是13800138000" --text-normalization| 模型 | 特点 | 适用场景 |
|---|---|---|
| speech-2.6-hd | 高质量,支持所有情感包括fluent/whisper | 高质量语音合成、生动讲述 |
| speech-2.6-turbo | 快速,支持fluent/whisper | 实时语音合成、快速对话 |
| speech-02-hd | 高质量标准模型 | 通用高质量语音 |
| speech-02-turbo | 快速标准模型 | 通用快速语音 |
| speech-01-hd | 基础高质量 | 兼容性需求 |
| speech-01-turbo | 基础快速 | 轻量级应用 |
python minimax_cli.py -i "描述" \
--image-model image-01 \ # 图像生成模型 [image-01, image-01-live]
--n 3 \ # 生成3张图片
--aspect-ratio 16:9 \ # 16:9比例 [1:1, 16:9, 4:3, 3:2, 2:3, 3:4, 9:16, 21:9]
--width 1024 --height 768 \ # 自定义尺寸(仅image-01模型,512-2048且8的倍数)
--seed 12345 \ # 固定随机种子
--response-format url \ # 返回格式 [url, base64]
--prompt-optimizer \ # 启用prompt优化
--add-watermark \ # 添加水印
--style-type 漫画 \ # 风格类型(仅image-01-live):[漫画, 元气, 中世纪, 水彩]
--style-weight 0.8 # 风格权重 (0-1]python minimax_cli.py -i2i reference.jpg "描述" \
--image-model image-01 \ # 图像生成模型 [image-01, image-01-live]
--n 2 \ # 生成2张图片
--style-type 漫画 \ # 风格类型(仅image-01-live)
--add-watermark \ # 添加水印
--seed 12345 \ # 固定随机种子
--response-format url # 返回格式 [url, base64]- 参考类型: 当前仅支持 character (人像) 类型
- 图片要求: JPG/JPEG/PNG,小于10MB,建议单人正面照片
- 输入方式: 本地文件路径或公网URL
- 兼容性: 与所有图像生成参数兼容(风格、尺寸、优化等)
- image-01: 基础模型,支持自定义尺寸、prompt优化、水印
- image-01-live: 风格化模型,支持漫画、元气、中世纪、水彩四种风格
python minimax_cli.py -v "描述" \
--video-model MiniMax-Hailuo-2.3 \ # 视频生成模型
--video-duration 6 \ # 视频时长(秒)
--video-resolution auto \ # 分辨率 [auto, 720P, 768P, 1080P]
--first-frame image.jpg \ # 首帧图片
--last-frame end.jpg \ # 尾帧图片
--subject-image character.jpg \ # 主体参考图片
--video-name my_video \ # 视频文件名
--no-prompt-optimizer \ # 禁用prompt优化
--fast-preprocessing \ # 快速预处理
--add-watermark \ # 添加水印
--callback-url https://example.com/callback \ # 回调URL
--camera-sequence '[{"action":"推进","timing":"开始"},{"action":"左摇","timing":"中间"}]' # 镜头序列# 直接在prompt中使用镜头指令
python minimax_cli.py -v "一个人[推进]看书,然后[左摇]看窗外"
# 使用JSON镜头序列
python minimax_cli.py -v "故事场景" \
--camera-sequence '[{"action":"推进","timing":"开始"},{"action":"固定","timing":"对话"}]'
# 支持的运镜指令
[左移] [右移] [左摇] [右摇] [推进] [拉远]
[上升] [下降] [上摇] [下摇] [变焦推近] [变焦拉远]
[晃动] [跟随] [固定]python minimax_cli.py -i2v image.jpg "描述" \
--i2v-model I2V-01-Director \ # 图生视频模型
--i2v-duration 6 \ # 视频时长(秒)
--i2v-resolution auto \ # 分辨率 [auto, 512P, 720P, 768P, 1080P]
--no-prompt-optimizer \ # 禁用prompt优化
--fast-preprocessing \ # 快速预处理
--add-watermark \ # 添加水印
--callback-url https://example.com/callback \ # 回调URLpython minimax_cli.py -se start.jpg end.jpg \
--se-duration 6 \ # 视频时长(秒)[6, 10]
--se-resolution 768P \ # 分辨率 [768P, 1080P]
--no-prompt-optimizer \ # 禁用prompt优化
--add-watermark \ # 添加水印
--callback-url https://example.com/callback # 回调URL- 专用模型: 仅支持 MiniMax-Hailuo-02 模型
- 高分辨率: 仅支持 768P 和 1080P 高清输出(不支持 512P)
- 精确过渡: 起始图片到结束图片的平滑过渡动画
- 时长限制: 支持6秒和10秒两种时长(1080P仅支持6秒)
- 图片尺寸:
⚠️ 生成视频尺寸遵循首帧图片 - 尺寸不一致处理:
⚠️ 当首帧和尾帧尺寸不一致时,模型将参考首帧对尾帧图片进行裁剪 - 图片要求: 与图生视频相同的格式和尺寸要求
python minimax_cli.py -s2v subject.jpg "描述" \
--s2v-prompt-optimizer \ # 启用prompt优化(默认启用)
--no-prompt-optimizer \ # 禁用prompt优化
--add-watermark \ # 添加水印
--callback-url https://example.com/callback # 回调URL- 专用模型: 仅支持 S2V-01 模型
- 主体类型: 当前仅支持 character (人物面部)
- 保持特征: 生成视频时保持人物面部特征
- 图片要求: 与图生视频相同的格式和尺寸要求
- 描述限制: 视频描述最多2000字符
python minimax_cli.py -m "独立民谣,忧郁,内省" \
--lyrics "[verse]\n街灯微亮晚风轻抚\n[chorus]\n推开木门香气弥漫" \
--music-stream \ # 启用流式传输(仅支持hex格式)
--music-format hex \ # 返回格式 [hex, url],默认hex
--music-sample-rate 44100 \ # 采样率 [16000, 24000, 32000, 44100]
--music-bitrate 256000 \ # 比特率 [32000, 64000, 128000, 256000]
--music-encoding mp3 \ # 音频格式 [mp3, wav, pcm]
--music-watermark # 添加音频水印(仅非流式生效)- 最新模型: music-2.0,支持更高音乐质量和更丰富风格
- 长度限制: 描述[10, 2000]字符,歌词[10, 3000]字符
- 结构标签: 支持[Intro][Verse][Chorus][Bridge][Outro]优化音乐结构
- 输出格式: 支持hex和url两种格式,url有效期24小时
- 音频质量: 支持16-44.1kHz采样率,32-256kbps比特率
- 流式传输: 支持实时生成,hex格式输出
- 水印功能: 可选择在音频末尾添加水印
- I2V-01-Director: 导演版,支持15种运镜指令,专业控制
- I2V-01-live: 卡通/漫画风格增强,适合动画内容
- I2V-01: 基础图生视频模型,稳定可靠
- MiniMax-Hailuo系列: 也可用于图生视频,支持更高质量输出
- 支持格式: JPG, JPEG, PNG, WebP
- 文件大小: 小于20MB
- 尺寸要求: 短边像素大于300px,长宽比2:5到5:2之间
- 输入方式: 本地文件路径、公网URL、Base64 Data URL
# 提交视频生成
python minimax_cli.py -v "描述"
# 查询状态
python minimax_cli.py -s 任务ID
# 下载视频
python minimax_cli.py --download-video 文件ID# 查看所有音色
python minimax_cli.py --list-voices
# 过滤音色
python minimax_cli.py --list-voices --filter-voices "中文"
# 刷新音色缓存
python minimax_cli.py --list-voices --refresh-voices# 第一步:上传复刻音频(10秒-5分钟,mp3/m4a/wav,≤20MB)
python minimax_cli.py --upload-file voice_sample.mp3 --file-purpose voice_clone
# 输出:文件ID,例如 123456789
# 第二步:执行音色复刻
python minimax_cli.py --clone my_custom_voice --clone-file-id 123456789
# 使用示例音频增强相似度(可选)
python minimax_cli.py --clone my_custom_voice \
--clone-file-id 123456789 \
--prompt-audio 987654321 \
--prompt-text "This voice sounds natural and pleasant."
# 生成试听音频(可选)
python minimax_cli.py --clone my_custom_voice \
--clone-file-id 123456789 \
--demo-text "欢迎使用这个全新的音色。" \
--demo-model speech-2.6-hd
# 开启音频处理
python minimax_cli.py --clone my_custom_voice \
--clone-file-id 123456789 \
--noise-reduction \
--volume-normalization
# 使用新复刻的音色
python minimax_cli.py -t "你好,这是用新音色合成的语音。" --voice my_custom_voice- --clone: 自定义音色ID(必填)
- 长度范围:[8, 256]
- 首字符必须是英文字母
- 允许数字、字母、-、_
- 末位字符不可为 - 或_
- --clone-file-id: 复刻音频的文件ID(必填)
- --prompt-audio: 示例音频文件ID(可选,用于增强相似度)
- --prompt-text: 示例音频对应的文本(需与prompt_audio同时提供)
- --demo-text: 试听文本(最多1000字符)
- --demo-model: 试听音频模型(默认speech-2.6-hd)
- --clone-language-boost: 语言增强(auto, Chinese, English等)
- --noise-reduction: 开启音频降噪
- --volume-normalization: 开启音量归一化
复刻音频:
- 格式:mp3, m4a, wav
- 时长:10秒 - 5分钟
- 大小:≤20MB
示例音频(可选):
- 格式:mp3, m4a, wav
- 时长:<8秒
- 大小:≤20MB
通过文本描述生成自定义音色,无需提供音频样本。
# 基础音色设计(自动生成音色ID)
python minimax_cli.py \
--design-prompt "声音低沉富有磁性的男播音员" \
--preview-text "大家好,欢迎收听今天的节目"
# 指定音色ID
python minimax_cli.py \
--design my narrator_voice \
--design-prompt "温柔知性的女声,适合讲故事" \
--preview-text "很久很久以前,有一个美丽的童话故事"
# 添加水印
python minimax_cli.py \
--design-prompt "充满活力的年轻男声" \
--preview-text "大家好,我是今天的主持人" \
--add-watermark
# 使用设计的音色
python minimax_cli.py -t "这是用AI设计的音色合成的语音。" --voice my_narrator_voice- --design: 目标音色ID(可选,不提供则自动生成)
- 长度范围:[8, 256]
- 首字符必须是英文字母
- 允许数字、字母、-、_
- 末位字符不可为 - 或_
- --design-prompt: 音色描述(必填)
- 长度范围:[10, 300]
- 描述声音特征,如年龄、性别、音色、风格等
- --preview-text: 试听文本(必填)
- 长度范围:[10, 300]
- 将收取2元/万字符费用
# 男声示例
"声音低沉富有磁性的中年男播音员"
"充满活力的年轻男声,适合体育解说"
"稳重厚重的男声,适合新闻播报"
# 女声示例
"温柔知性的女声,适合讲故事"
"活泼可爱的年轻女声,适合配音"
"清澈甜美的少女音"
# 风格示例
"幽默风趣的脱口秀主持人"
"严肃专业的纪录片旁白"
"亲切温暖的客服声音"from minimax_cli import MiniMaxClient
client = MiniMaxClient()
# ========== 智能对话(支持 MiniMax-M2.1)==========
# 基础对话
response = client.chat("介绍一下人工智能的发展历史")
print(response)
# 使用最新模型
response = client.chat(
"解释量子计算的原理",
model="MiniMax-M2.1",
temperature=0.7,
max_tokens=2048
)
print(response)
# Anthropic API 兼容模式(查看思考过程)
result = client.chat(
"如何证明勾股定理?",
model="MiniMax-M2.1",
use_anthropic_api=True,
show_thinking=True
)
if isinstance(result, dict):
print("思考过程:", result['thinking'])
print("回答:", result['content'])
else:
print(result)
# 极速模式
response = client.chat(
"1+1等于几?",
model="M2.1-lightning"
)
print(response)
# ========== 图像生成(基础)==========
urls = client.image("月光下的猫,水墨画风格", n=2, aspect_ratio="16:9")
for url in urls:
print(url)
# 高级图像生成
漫画风格_urls = client.image(
"可爱的卡通人物",
model="image-01-live",
n=3,
style_type="漫画",
style_weight=0.9,
aigc_watermark=True
)
自定义尺寸_urls = client.image(
"风景画",
model="image-01",
width=1024,
height=768,
prompt_optimizer=True,
seed=12345
)
# 图生图
portrait_urls = client.image(
"该人物穿着古装,在古代建筑前",
model="image-01",
n=2,
reference_image="person.jpg",
aigc_watermark=True
)
# 风格化图生图
漫画风格_urls = client.image(
"动漫风格的人物",
model="image-01-live",
reference_image="portrait.jpg",
style_type="漫画",
style_weight=0.9,
n=3
)
# 生成音乐(基础)
audio = client.music(
"轻松愉悦的背景音乐",
"[Verse]\n阳光洒落大地\n[Chorus]\n快乐每一天"
)
print(f"音乐已生成: {audio}")
# 高级音乐生成(music-2.0新功能)
高质量_audio = client.music(
"独立民谣,忧郁,内省,渴望,独自漫步,咖啡馆",
"[verse]\n街灯微亮晚风轻抚\n[chorus]\n推开木门香气弥漫",
aigc_watermark=True,
sample_rate=44100,
bitrate=256000,
format="wav",
output_format="url"
)
# 流式音乐生成
流式音频 = client.music(
"电子音乐,未来感,科技,节奏感强",
"未来世界正在到来\n代码与梦想交织\n[Chorus]\n创造新纪元",
stream=True,
output_format="hex",
sample_rate=32000,
format="mp3"
)
# 生成播客
podcast = client.podcast("人工智能如何改变未来")
print(f"播客已生成: {podcast}")
# 首尾帧视频生成
task_id = client.start_end_to_video(
first_frame_image="start.jpg",
last_frame_image="end.jpg",
duration=6,
resolution="768P"
)
print(f"首尾帧视频已生成: {task_id}")
# 主体参考视频生成
task_id = client.subject_reference_to_video(
subject_image="person.jpg",
prompt="A girl runs toward the camera and winks with a smile",
prompt_optimizer=True,
aigc_watermark=False
)
print(f"主体参考视频已生成: {task_id}")
# ========== 音色快速复刻 ==========
# 上传复刻音频
upload_result = client.upload_file(
file_path="voice_sample.mp3",
purpose="voice_clone"
)
file_id = upload_result.get('file_id')
print(f"音频已上传,文件ID: {file_id}")
# 执行音色复刻
clone_result = client.voice_clone(
file_id=file_id,
voice_id="my_custom_voice",
demo_text="你好,这是我的自定义音色。",
language_boost="auto",
need_noise_reduction=True,
need_volume_normalization=True
)
voice_id = clone_result.get('voice_id')
print(f"音色复刻成功,音色ID: {voice_id}")
# ========== 音色设计(AI生成音色)==========
# 通过文本描述生成音色
design_result = client.voice_design(
prompt="声音低沉富有磁性的男播音员",
preview_text="大家好,欢迎收听今天的节目",
aigc_watermark=False
)
new_voice_id = design_result.get('voice_id')
trial_audio_hex = design_result.get('trial_audio')
print(f"音色设计成功,音色ID: {new_voice_id}")
print(f"试听音频(hex编码): {len(trial_audio_hex)} 字符")
# 保存试听音频
if trial_audio_hex:
import binascii
audio_data = binascii.unhexlify(trial_audio_hex)
with open("voice_design_trial.mp3", "wb") as f:
f.write(audio_data)
print("试听音频已保存到 voice_design_trial.mp3")
# 使用设计的音色进行语音合成
tts_result = client.tts(
text="这是用AI设计的音色合成的语音。",
voice_id=new_voice_id,
model="speech-2.6-hd"
)
print(f"语音已合成: {tts_result}")- 统一API: 所有功能集成在单个CLI工具
- 智能缓存: 音色列表缓存2小时
- 错误恢复: 自动重试和降级处理
- 日志系统: 详细日志和调试模式
- 文件管理: 自动生成分类目录
- 跨平台: 支持Windows/macOS/Linux
- 响应时间: 5分钟播客 ≤3分钟
- 成功率: ≥95%
- 音频质量: 192kbps MP3, 44.1kHz
- 图像质量: 1080P高清
MiniMax-AI/
├── minimax_cli.py # 主CLI程序
├── setup.py # 一键安装脚本
├── requirements.txt # 依赖列表
├── start.bat # Windows一键启动
├── README.md # 项目说明
├── CLAUDE.md # 开发指导
├── QWEN.md # 产品需求
├── .gitignore # Git忽略规则
├── examples/ # 示例文件
│ ├── tts_story.txt # TTS测试文本
│ └── prompts/ # 提示词示例
├── output/ # 生成文件
│ ├── audio/
│ ├── images/
│ ├── videos/
│ ├── music/
│ └── podcasts/
└── legacy/ # 备份文件
└── *.py
- GitHub Issues: 报告问题和功能请求
- 文档: 详见
CLAUDE.md开发指导 - 示例: 查看
examples/目录
简洁、高效、功能完整的MiniMax AI工具包!