跳到主要内容

Documents

turing-cli documents 用于把文档转换成 Markdown,方便智能体阅读、总结、检索或入库。

在智能体工作流中,可以配合 SkillHub 上的 Documents skill 使用本页命令;如果转换后的材料涉及用量、费用或 token 排查,可继续搭配 Turing Operations skill 调用 turing-cli operations。也可以按自己使用的智能体或 IDE 规范自行配置自有 skills。

Command

turing-cli documents convert FILE_OR_URL [flags]

Arguments

参数必填说明
FILE_OR_URL本地 PDF / Word / Excel / PowerPoint 文件,或指向这些文件的 http(s) URL

Flags

参数默认值说明
-o, --output-dir DIR指定输出目录;不存在时自动创建
--forcefalse目标 .md 已存在时原地覆盖
--extract-figuresfalse提取文档图片到 NAME.figures/,并把 Markdown 中的图片占位符改写成本地相对路径
-h, --help查看命令帮助

示例

转换本地文件:

turing-cli documents convert report.pdf

转换 URL:

turing-cli documents convert https://example.com/report.pdf

输出到指定目录:

turing-cli documents convert report.docx -o ./out

覆盖已有 Markdown:

turing-cli documents convert slides.pptx --force

提取图片:

turing-cli documents convert report.pdf --extract-figures

输入限制

限制说明
扩展名.pdf.docx.xlsx.pptx
文件大小最大 100 MB
URL 协议httphttps
不适用输入图片文件、纯文本、Markdown、代码文件

输出规则

场景输出位置
本地文件,未传 -o源文件同目录
URL,未传 -o当前目录
传入 -o指定目录

目标 .md 已存在且未加 --force 时,CLI 不会覆盖原文件,而是用 Markdown 内容的 SHA-256 前 8 位生成文件名:

sample.md -> sample_a1b2c3d4.md

默认情况下,文档里的图片不会落盘,Markdown 中会保留 figure://ID 占位符。开启 --extract-figures 后,图片会写入 Markdown 同级的 NAME.figures/ 目录,占位符会改成本地相对路径。

排错

错误处理
不支持的扩展名只支持 PDF / DOCX / XLSX / PPTX
超过 100MB 上限拆分或压缩文件后再转换
无法从 URL 确定受支持的文件类型使用带正确扩展名或 Content-Type 的直链
转换失败 (status=...)文件可能损坏、加密或格式异常;确认文件可正常打开并保留 trace