乐于分享
好东西不私藏

Word 里搜不到化学结构?我给它装了个结构雷达

Word 里搜不到化学结构?我给它装了个结构雷达

先说个很熟的场景。
审查意见来了。审查员丢过来一篇对比文件,说权利要求太宽,创造性也悬,建议缩范围。
你和发明人一合计,方向其实很清楚:活性最好的几个系列留下,没数据撑腰的先砍。方案定了,心里刚松一口气。
然后打开 Word。
完了。
说明书加权利要求,几十上百个化合物结构,全是 ChemDraw 对象。要留下的那批到底含哪个母核?散在哪些实施例里?你得先把它们找齐,才能谈修改。
下意识地,你想按下 `Ctrl+F`,但手指也仅是停留在按键上面了,因为你知道,这是结构,不是文字。Word 看它们就像看一堆对象、一张张图片。母核也好,楔形键也好,它都不认识。
接下来就是熟悉的体力活:滚轮往下,一页页瞪;手边开个表,边看边记;盘完一遍不放心,再倒回去核一遍。最烦的不是慢,是你永远担心自己漏了一个。
我写了个小工具,专门干一件事:让 Word 里的化学结构,也能被查找、定位、替换。
它不是看图片,是读结构
你可以画一个结构,也可以贴 SMILES;可以从 ChemDraw 复制,也可以直接点“用当前 ChemDraw”。
工具会打开你选的 Word 文档,把里面的 ChemDraw 对象一个个拆开,去读原子、键、立体信息。它不是拿图片比像素,所以结构藏在文档里、路线图里,都有机会被抓出来。
搜完之后,它会列一张结果清单:命中在哪个文件、第几个对象、第几页、第几行。双击一条,Word 会自己跳过去,把对应结构选中。
这就很解气。
因为专利稿里真正折磨人的,往往不是“有没有这个化合物”,而是“它到底躲在哪”。有些结构不是单独画在实施例下面,而是塞在合成路线里,做一个小中间体。以前靠眼睛翻,最容易漏的就是这种。
现在丢进去一个母核,选亚结构检索,几秒钟,所有带这块骨架的结构就排出来了。该留的、该删的、该回去问发明人的,终于能摆到台面上说话。

三种找法,够专利人较真

化学结构的“一样”,有时候一点都不简单。
精确匹配适合回答最直接的问题:这个化合物到底在不在文里?它出现了几次?电荷、同位素、立体信息都算进去,一模一样才认。
亚结构检索更适合缩范围。你给它一个母核或片段,只要这个片段长在更大的分子里,就算命中。想圈出“含某骨架”的全部化合物,或者看某个核心结构在目标专利里铺了多广,这个最常用。
立体异构体匹配则处理那些更要命的细节:同骨架、不同构型,到底是完全一样、对映体、非对映体,还是压根没标手性。遇到“换了个构型还算不算落进权利要求”这种问题,先把同骨架的候选都翻出来,后面的判断才有底。
工具不能替你做法律结论,也不应该替你做。它做的是那件最烦、最耗眼睛的前置工作:把该看的结构找齐。

## 给化合物查“出生证明”

专利里还有一个很值钱的问题:某个化合物,最早出现在哪一份优先权文件里?
这不是文字游戏。
能不能拿到那个最早的优先权日,可能直接影响它能不能顶住后面的对比文件。真到了无效、侵权或者 FTO 分析里,早一天晚一天,局面就不一样。
麻烦在于,越早的优先权文件,结构往往画得越草率。可能就是往那儿一放,没有编号,没有实施例,也没有数据。可只要结构画出来了,就可能涉及公开和支持的问题。
以前怎么查?优先权一、优先权二、PCT,一份份打开,一处处对。化合物又长得像,看到后面人都麻了。
现在可以把这一摞文件一次性放进去,丢一个结构,搜。
结果按文件分组:
> 优先权一:命中 1 处
> 优先权二:未命中
> PCT:命中 3 处
一眼就知道它最早在哪一版露面。
更重要的是,它认的是结构本身。哪怕早期文件里只是孤零零画了一个结构,旁边什么字都没有,它也能把它找出来。偏偏这种“只画没写”的地方,正是 `Ctrl+F` 完全失灵、人工翻文件最容易看漏的地方。

找到之后,改的时候更要稳

找齐只是第一步。真到改稿,有时还得批量动结构。
比如把某个基团画法统一;或者按答复方案,删除某个或某些化合物;再或者申请稿、答复稿、修改稿、同族文本里都要同步检查。
这时候最怕什么?不是慢,是改错。
所以替换功能我做得比较保守。换之前先自动备份原文件;每一处替换都可以加批注,写清楚从什么换成了什么;改完还能导出 Excel 报告,列出查了什么、命中在哪、原结构和新结构分别是什么。
说白了,就是让每一次修改都有痕迹。
结构替换不是普通的文字查找替换。一个原子、一个手性标记、一个位置错了,后面都可能出事。工具可以帮你省时间,但不能让修改变得随便。它应该让人更敢核,而不是更敢糊弄。
我测试了一份两千多个结构对象的大稿。建索引大约二十秒,后面换不同结构去搜,基本都是秒出。那一刻我非常确定:它好像真的Work了。
我还丢了5份优先权进去,每份优先权有200页以上,每个优先权里至少有500个以上的Chemdraw对象,要命的是很多结构因为篇幅原因两个结构放在一排,之前肉眼找了一篇以为是最早的优先权,这次机器找,愕然发现其实这个重点化合物首次出现在更早优先权的列表化合物中!!!

## 还有个意外用法:顺手看构效关系

这个工具一开始只是为了改专利稿。
后来我发现,它还能帮忙做一点内部分析。
很多研发资料是这样的:Word 里放着 ChemDraw 结构,结构旁边跟着活性数据。你看到一个化合物,想知道“跟它长得像的那批,活性怎么样”。以前就是人肉挑同骨架,再一个个看数据。
现在可以丢一个亚结构进去,先把同骨架的化合物全部找出来,再顺着结果跳过去看旁边的数据。
判断构效关系还是你来。工具只负责把东西找齐。

## 说点实在的

FindReplaceStructure 是一个 Windows 桌面小工具。电脑上需要装 Word 和 ChemDraw,因为它要借 ChemDraw 的能力来读取结构。
它不神秘,也没想替代专业判断。它只是把一件很烦的事变简单:在 Word 里找化学结构,找得到,跳得过去,改得有记录。
如果你长期和化学专利稿打交道,你大概懂这种快乐:今晚少瞪一小时屏幕。
PS:这个工具应该不只可以出来小分子专利,但凡涉及到化学结构的应该都可以,例如ADC专利中的Payload, Linker,Linker-Payload(我试了试那种结构复杂的Linker-Payload也可以Work), siRNA中的靶向基团(这个我还没试)也应该可以。