Documents
turing-cli documents 用于把文档转换成 Markdown,方便智能体阅读、总结、检索或入库。
在智能体工作流中,可以配合 SkillHub 上的 Documents skill 使用本页命令;如果转换后的材料涉及用量、费用或 token 排查,可继续搭配 Turing Operations skill 调用 turing-cli operations。也可以按自己使用的智能体或 IDE 规范自行配置自有 skills。
Command
turing-cli documents convert FILE_OR_URL [flags]
Arguments
| 参数 | 必填 | 说明 |
|---|---|---|
FILE_OR_URL | 是 | 本地 PDF / Word / Excel / PowerPoint 文件,或指向这些文件的 http(s) URL |
Flags
| 参数 | 默认值 | 说明 |
|---|---|---|
-o, --output-dir DIR | 空 | 指定输出目录;不存在时自动创建 |
--force | false | 目标 .md 已存在时原地覆盖 |
--extract-figures | false | 提取文档图片到 NAME.figures/,并把 Markdown 中的图片占位符改写成本地相对路径 |
-h, --help | 查看命令帮助 |
示例
转换本地文件:
turing-cli documents convert report.pdf
转换 URL:
turing-cli documents convert https://example.com/report.pdf
输出到指定目录:
turing-cli documents convert report.docx -o ./out
覆盖已有 Markdown:
turing-cli documents convert slides.pptx --force
提取图片:
turing-cli documents convert report.pdf --extract-figures
输入限制
| 限制 | 说明 |
|---|---|
| 扩展名 | .pdf、.docx、.xlsx、.pptx |
| 文件大小 | 最大 100 MB |
| URL 协议 | http、https |
| 不适用输入 | 图片文件、纯文本、Markdown、代码文件 |
输出规则
| 场景 | 输出位置 |
|---|---|
本地文件,未传 -o | 源文件同目录 |
URL,未传 -o | 当前目录 |
传入 -o | 指定目录 |
目标 .md 已存在且未加 --force 时,CLI 不会覆盖原文件,而是用 Markdown 内容的 SHA-256 前 8 位生成文件名:
sample.md -> sample_a1b2c3d4.md
默认情况下,文档里的图片不会落盘,Markdown 中会保留 figure://ID 占位符。开启 --extract-figures 后,图片会写入 Markdown 同级的 NAME.figures/ 目录,占位符会改成本地相对路径。
排错
| 错误 | 处理 |
|---|---|
不支持的扩展名 | 只支持 PDF / DOCX / XLSX / PPTX |
超过 100MB 上限 | 拆分或压缩文件后再转换 |
无法从 URL 确定受支持的文件类型 | 使用带正确扩展名或 Content-Type 的直链 |
转换失败 (status=...) | 文件可能损坏、加密或格式异常;确认文件可正常打开并保留 trace |