熬夜对着50篇论文的表格抄数据?Excel里一个个复制粘贴到手酸?这个开源skills,让你3分钟完成过去一周的工作。
上周,课题组在进行一项研究中,需要阅读大量文献,并将文献中提到的相关指标全部整理出来,便于后续归纳分析。听起来不难?但实际上,每篇论文都有3-5个图表,每个表格有几十个指标,每个指标包括"类别→维度→指标名→含义"好多维度的信息,而且有些指标是以图片并非表格的形式呈现。
然后,我开始读第1篇论文,并用Excel一行行手抄了下来,并记录文献出处……
。4小时后,已经阅读了第18篇。手酸、眼累、腰疼、颈椎难受....
科研工作中最耗时的事情,很多时候不是思考,而是重复劳动。
下面的场景,你可能并不陌生:
做文献综述:80篇文献,每篇3个指标表格,全部手动整理;梳理指标体系:从各篇文献中提取评价指标,汇总多位学者提出的关键指标及其含义;构建评价模型:从文献搜集现有指标,作为模型构建基础。
无论是专利分析、人才评价、政策研究,还是技术创新领域,提取文献中结构化指标数据这件事,方法很明确,但过程极其繁琐。
基于这个痛点,我们开发了一个doc_extractor_skills:它的核心思路很简单:文献里的所有指标数据(不管是表格里的还是正文里的),让AI自动提取出来,按层级结构整理成Excel。
你只需要告诉它:
文献存在哪个文件夹 是哪个领域(专利?人才?政策?技术?) 用什么AI模型
剩下的,全部交给工具。
它能做什么?
这个skills的核心能力有三个:
不限领域,通吃所有表格: 不管是专利评价指标(被引证次数、同族专利数、权利要求数、IPC分类号……),还是人才评价指标(H指数、论文数、项目数、人才称号、合作情况……),或者是政策分析指标(政策名称、发布机构、发布日期、核心条款……),只要是出现在文献表格中的「指标」型数据,它都能提取。
输出即用型Excel:7个工作表,一步到位。
有木有跃跃欲试?下面这个链接分享给你:
https://github.com/Gqiang-Liang/indicator_extractor_skills
说明:文中内容部分由OpenClaw根据使用说明书生成,并经过作者审阅修订。
夜雨聆风