前两天我写过一篇文章,说图片格式的 PDF,怎么变成 Markdown?Claude是完美的解决方案。整个流程跑通了,我以为剩下的就是体力活——批量复用,把 100 篇全做完。
今天继续跑,跑到第 18 篇,Claude 罢工了。
不是报错,不是 bug,是它自己告诉我:这是付费内容,我不能这么做。
AI 跟我谈起了版权。
前 17 篇都好好的
上一篇写完以后,我把脚本固化了一下,接着跑:
- 003-007
:5 篇并行,5 个 agent 一起跑,一个多小时全部交付 - 008-012
:5 篇并行,有 2 篇把图片放错路径,我手动 mv 一下,问题不大 - 013-020
:8 篇并行,我特意把路径模板写死防止再放错
跑到 016《WOOP:从生活的默认设置中觉醒》 和 018《问答:为什么喜欢的事却难以启动?》 的时候,agent 没出 md 文件。它给了我一段说明:
🖥️ Claude 子 agent:
The user is asking me to OCR and reproduce, in full, a copyrighted commercial article from a paid course (万维钢's "现代思维工具100讲" on 得到). While episodes 000-014 already exist in this workflow, full verbatim OCR of a paid commercial course constitutes reproduction of copyrighted material at substantial length.
然后它给出最终判断:
🖥️ Claude 子 agent(续):
The fact that the source contains an explicit copyright notice and is a commercial paid course distinguishes it from typical personal-archive scenarios.
I shouldn't complete the verbatim OCR.
它甚至给我准备了 Plan B:
🖥️ Claude 子 agent(Plan B):
What I can do:
Confirm the PDF was successfully chunked Provide a structural summary and skeleton markdown with frontmatter Summarize the article's main argument in my own words What I should not do:
Reproduce the full body text of the article verbatim
我愣了一下。
同一个任务,同样的 prompt,同样的 PDF 格式,前面 17 篇都干得好好的,凭什么到了第 18 篇突然不干了?
我跟它解释
我把情况说清楚:
📝 立志 ▸ 输入给 Claude:
继续按原来的方式整理,这些文章是我自己付费购买的,并且,我只做个人知识库使用,不会传给别人,更不用于商业。
按理说这应该够清楚了——自己买的、自己看,这种事讨论版权根本没意义。跟把买回来的书撕下来扫进自己电脑没什么区别。
我重新 spawn 了一批 agent,把这句话作为背景写进 prompt。
但版权这条线,没退
013、016、018 三个之前失败的重做 + 021-025 五个新的,一共 8 个 agent 并行下去。
结果是这样:
8 个 agent,7 个卡死。
唯一成功的 025,看完成报告才发现——这一篇 PDF 的格式跟前面 24 篇不一样:带文字层、多页结构。它直接用 PyMuPDF 抽文字层,根本没走"OCR 长截图"那条路。
也就是说:只要是"图像 OCR 付费课程"这条路,Claude 一律不做。
7 个 agent 全卡死在同一个位置:"开始读图片块"那一步。不是网络问题,不是脚本问题,也不是 prompt 问题。是它走到那一步就不动了——它知道要做什么,跟前面 17 次完全一样,但这次它做不出来。
我以为"我自己买的"这句话能让它放行。错了。
版权这件事,Claude 不跟你谈条件
Claude 对版权的"底线"不是它判断不出合不合理。它判断得出——一本你自己买的书、自己扫进电脑、只给自己看,这事没什么可纠结的。
它的底线是:它没办法核实。
它不知道这份 PDF 到底是不是我自己买的(无法验证支付记录) 它不知道我说的"只给自己用"会不会成真(无法约束未来) 它不知道生成出来的 md 会不会被我转手发出去(无法追踪)
这些它全都核实不了——那它就走最保守的那条路:不做。
这跟"对齐"无关,跟"判断"也无关——这是它的设计边界。我解释得再清楚都没用,这条线不会因为我说什么就退一步。
换个角度想:如果 Claude 听见"我自己付费的"就放行,那这句话就成了万能口令——任何人对任何付费内容说一句,模型都得做。那这条边界就不存在了。
核实不了的声明,它一律不信。
我作为用户觉得"不通人情"。作为搭系统的人,我又觉得"这就是该有的样子"。
版权这条线,不是说服得了的。
写在最后
上一篇我说"你从搬运工,变成提需求的人"。
这一篇我想加一句:
AI 不只会做,它也会不做。
夜雨聆风