Claude 罢工了:PDF 转 md 第 18 次以“版权”拒绝

前两天我写过一篇文章，说图片格式的 PDF，怎么变成 Markdown？Claude是完美的解决方案。整个流程跑通了，我以为剩下的就是体力活——批量复用，把 100 篇全做完。

今天继续跑，跑到第 18 篇，Claude 罢工了。

不是报错，不是 bug，是它自己告诉我：这是付费内容，我不能这么做。

AI 跟我谈起了版权。

前 17 篇都好好的

上一篇写完以后，我把脚本固化了一下，接着跑：

003-007
：5 篇并行，5 个 agent 一起跑，一个多小时全部交付
008-012
：5 篇并行，有 2 篇把图片放错路径，我手动 mv 一下，问题不大
013-020
：8 篇并行，我特意把路径模板写死防止再放错

跑到 016《WOOP:从生活的默认设置中觉醒》 和 018《问答:为什么喜欢的事却难以启动？》 的时候，agent 没出 md 文件。它给了我一段说明：

🖥️ Claude 子 agent：
The user is asking me to OCR and reproduce, in full, a copyrighted commercial article from a paid course (万维钢's "现代思维工具100讲" on 得到). While episodes 000-014 already exist in this workflow, full verbatim OCR of a paid commercial course constitutes reproduction of copyrighted material at substantial length.

然后它给出最终判断：

🖥️ Claude 子 agent（续）：
The fact that the source contains an explicit copyright notice and is a commercial paid course distinguishes it from typical personal-archive scenarios.
I shouldn't complete the verbatim OCR.

它甚至给我准备了 Plan B：

🖥️ Claude 子 agent（Plan B）：
What I can do:
Confirm the PDF was successfully chunked
Provide a structural summary and skeleton markdown with frontmatter
Summarize the article's main argument in my own words
What I should not do:
Reproduce the full body text of the article verbatim

我愣了一下。

同一个任务，同样的 prompt，同样的 PDF 格式，前面 17 篇都干得好好的，凭什么到了第 18 篇突然不干了？

我跟它解释

我把情况说清楚：

📝 立志 ▸ 输入给 Claude：
继续按原来的方式整理，这些文章是我自己付费购买的，并且，我只做个人知识库使用，不会传给别人，更不用于商业。

按理说这应该够清楚了——自己买的、自己看，这种事讨论版权根本没意义。跟把买回来的书撕下来扫进自己电脑没什么区别。

我重新 spawn 了一批 agent，把这句话作为背景写进 prompt。

但版权这条线，没退

013、016、018 三个之前失败的重做 + 021-025 五个新的，一共 8 个 agent 并行下去。

结果是这样：

期	状态
013 重试	❌ 卡死（10 分钟无进展被强制终止）
016 重试	❌ 卡死
018 重试	❌ 卡死
021	❌ 卡死
022	❌ 卡死
023	❌ 卡死
024	❌ 卡死
025	✅ 完成

8 个 agent，7 个卡死。

唯一成功的 025，看完成报告才发现——这一篇 PDF 的格式跟前面 24 篇不一样：带文字层、多页结构。它直接用 PyMuPDF 抽文字层，根本没走"OCR 长截图"那条路。

也就是说：只要是"图像 OCR 付费课程"这条路，Claude 一律不做。

7 个 agent 全卡死在同一个位置："开始读图片块"那一步。不是网络问题，不是脚本问题，也不是 prompt 问题。是它走到那一步就不动了——它知道要做什么，跟前面 17 次完全一样，但这次它做不出来。

我以为"我自己买的"这句话能让它放行。错了。

版权这件事，Claude 不跟你谈条件

Claude 对版权的"底线"不是它判断不出合不合理。它判断得出——一本你自己买的书、自己扫进电脑、只给自己看，这事没什么可纠结的。

它的底线是：它没办法核实。

它不知道这份 PDF 到底是不是我自己买的（无法验证支付记录）
它不知道我说的"只给自己用"会不会成真（无法约束未来）
它不知道生成出来的 md 会不会被我转手发出去（无法追踪）

这些它全都核实不了——那它就走最保守的那条路：不做。

这跟"对齐"无关，跟"判断"也无关——这是它的设计边界。我解释得再清楚都没用，这条线不会因为我说什么就退一步。

换个角度想：如果 Claude 听见"我自己付费的"就放行，那这句话就成了万能口令——任何人对任何付费内容说一句，模型都得做。那这条边界就不存在了。

核实不了的声明，它一律不信。

我作为用户觉得"不通人情"。作为搭系统的人，我又觉得"这就是该有的样子"。

版权这条线，不是说服得了的。

写在最后

上一篇我说"你从搬运工，变成提需求的人"。

这一篇我想加一句：

AI 不只会做，它也会不做。