


太长不看版:
浙大研究团队向准备论文开题答辩的同学提前两周发放免费百晓智能账号,通过比对实际用量和最终开题结果,发现MPA学生使用AI的频率与开题报告的优良率存在显著正相关。进一步的访谈和调研表明,使用AI的确可以帮助学生更好地完成学业和写作,但也取决于用什么,怎么用。
图片版:
请拉到文末!


生成式人工智能(GenAI)到底能不能辅助研究者提升论文研究品质?关于这一问题,学术界和工业界仍然是众说纷纭。支持者认为,AI可以帮助加快信息检索与知识整合,扩大研究者的知识边界,帮助他们更好地分析问题、组织语言、表达思想。同时,也有反对者称,大模型有幻觉、不可靠,且生成内容肤浅,套路化,过度依赖甚至可能会降低论文质量。
不论支持与反对,AI日益深入我们的日常学习研究工作的确是不争的事实。网上用AI日产万篇的小作文(鬼故事)遍地都是,许多高校和企业也推出了自动生成论文的工作流,大有要把现有的学术生产体系整个推倒重来之势。但是这些AI参与生产创作的论文是否真的能够通过真实世界严格、专业的评审,仍然没有确定的答案。
最近,浙江大学数字政府研究团队开展了一项新颖的研究。研究团队向即将参加开题答辩的MPA学生发放了免费的“百晓智能”人文社科领域垂直大模型账号,并系统性地收集学生在毕业论文写作过程的AI使用情况和最终答辩结果数据。研究发现,在控制个人特质和努力程度后,使用“百晓智能”的同学,相比于没有使用的群体,其开题报告被答辩委员会评为“优良”的概率显著提升!研究团队还结合教育学认知理论和面向师生的深度访谈,提出了“让AI为我所用”的实现机制。
百晓智能是由浙江大学数字政府研究团队与杭州通见百晓科技有限公司联合开发(https://www.know-pa.cn)的一款专为人文社科领域打造的一站式AI学术研究平台。百晓智能依托真实文献和各级政府政策文本,围绕公共管理、政策研究、法学、教育等学科构建专业知识库,并提供灵犀搜索、锚点问答、千章测评等功能模块,覆盖"选题—文献—写作—审稿"研究全链路。目前,全国已有500余所高校和研究机构的师生在使用。也正因为它“懂学科”,研究团队选择它作为本次实证研究的AI干预工具。
核心发现:
用比不用好、用多比用少好!
研究团队向参加2025年秋季开题答辩的部分同学提供了百晓智能的访问账号,在取得知情同意后追踪了这些同学在开题前(2周)和模型的交互频次。开题结束后,研究团队面向全部开题同学发放了调查问卷,获得了由开题答辩委员会给出的成绩评定(独立第三方评价,不知晓研究)。在汇总多个来源的真实学习信息后,研究团队发现,使用了百晓智能辅助的同学,确实比没有使用的同学取得了更为优异的开题成绩。
1. 用比不用好:使用组的表现显著优于未使用组(+17.5%)。
2. 用多比用少好:交互强度越高,论文质量提升越明显。
3. 在研究期间与百晓智能交互提问超过30次的学生,开题报告获评优良的可能性显著提升(+40.9%),迎来“质的飞跃”!

问题数量对开题获评优良概率的边际效应
怎么做到的?
对你有什么启示?
使用AI为何有这等奇效,常用百晓智能的同学做对了什么?文章给出了三个解释,强调了“人在回路”(human-in-the-loop)的重要性。理解了这些机制,对我们如何使用AI提高工作质量有新的启发。
机制一:给大脑减负、对抗时间贫困——把苦力活交给AI
古人云“书山有路勤为径”,但在大数据时代,“勤”更要讲究方法。
MPA同学一边上班一边读书,时间本就紧张,在论文写作初期却要首先花费大量时间查找资料,十分耗费心神。通用AI看起来也能提供资料,但编造内容的情况相当普遍——看起来好像帮忙了,结果还得花费更多时间逐一核对。
那么,得“优良”的同学,是怎么用百晓智能的呢?研究团队访谈了不少同学,发现百晓智能的第一个关键功能就是“减负”。她的真实知识库(也支持你上传资料构建个人专属知识库)加上搜索优化算法,能快速帮助使用者从浩瀚文献中定位最相关的知识,还可以一键导出符合格式要求的参考文献。在39名使用者中,25人认为它擅长 “选取理论基础”,19人用它“辅助文献综述”,17人用来“思考研究选题”,17人用于“建构分析框架”。通过把百晓智能当成超级检索员、文献小助手,使用者就能极大降低知识查找、记忆中的“认知负荷”。
这种“减负”之所以靠谱,关键在于百晓智能是真正懂学科的。同学们对比后的答案是:"百晓生相比于通用模型的优势就是贴近学科,通用模型的思路更偏向于大众化"(访谈记录:20251026-B05)。一位来自企业的同学还发现,通用模型在判断选题适合哪个理论的时候经常跑偏,而百晓智能则能够精确地使用政府注意力、街头官僚等学科理论,帮她重新审视原本熟悉的工作问题。
百晓智能解决的另一个更现实的问题是:导师普遍工作繁忙。“写完论文发给导师审核,在写作过程中几乎没有过程性的指引”(访谈记录:20251026-A04),“有时候其实是给导师发消息,可能要过两三天,甚至一星期才能回复”(访谈记录:20251026-A07)。在导师不在身边的关键节点,一个懂行的垂直领域AI,就成了各位同学的及时雨。
机制二:从“试一下”到“离不开”的门槛效应
“用多比用少好"——为什么会有这么明显的拐点?访谈揭示了一个有意思的量变到质变的过程:
在第一次接触时,同学普遍有挫败感。比如有同学吐槽,文献模式下反复生成时,“不同角度的文献上下文反复重复”,需要“一遍一遍看几十个条目”,但“得到的帮助不如第一遍高”(访谈记录:20251026-B02)。这个阶段,AI还像一个时灵时不灵的搜索引擎,很难真正提升成绩。
然而,当提问次数累积、使用进入高频后,情况就发生了变化。有同学按提示语模板“全程一步步跟着用”,认为效果“还挺好用”(访谈记录:20251026-A01);也有同学反复试错后,学会把个人背景、数据资源、研究对象交代清楚,再通过多轮追问反复修改框架与方法。这时,百晓智能不再是一次性碰运气的文字老虎机,而是深度参与到选题打磨、理论筛选、方法细化的全过程学术伙伴。
换句话说,学会提问,能够和AI共同设计,共同探索,才是开题报告优良率从+17.5%跃升到+40.9%背后的关键转变。
机制三:认清边界,AI不是万能解药
最后一个机制,是要对百晓智能的效果边界有清醒认识。研究发现,百晓智能的赋能效果受到三类因素约束:
一是议题覆盖的边界:一位同学坦言,“我的议题较为小众敏感,百晓生在相关文献和案例上给出的内容不多”(访谈记录:20251026-A02)。虽然百晓智能在实验结束后又多次扩展了文献库的规模,但在冷门或敏感议题上,传统研究手段和资料来源仍不可替代。
二是技术功能的边界。有学生指出,当时的百晓生不能分析超过3000字的文本(现在可以了!),这一定程度上限制了在深度分析环节的应用。
三是技术素养的边界,具备计算机基础的同学能熟练运用提示语技巧,把工具输出与自身研究条件有机结合;而数字素养不足的同学,往往停留在基础功能层面,难以释放工具的全部能力。
这几条边界共同提醒我们:AI也并非万灵药,技术的效果,最终在于使用她的人。技术不会替代思考,但善用技术的人将替代不善用的人。
在这个节奏日益加速的时代,我们的时间和注意力都很珍贵。AI真正的价值,是让我们不用再浪费大量时间去处理文献查找、整理、要点概括等低阶认知任务,而是能将宝贵的精力集中在理论突破,研究设计、分析框架搭建等高阶分析上。而这,才是决定论文深度的关键!
从今天开始,试着向百晓智能提出你的第1个问题,坚持交互30次,见证开题报告和毕业论文的华丽蜕变!

夜雨聆风