难度从上往下递增。今天聊聊最让我头疼的——诊断智能体。一开始,我想得特别天真。Neo4j嘛,图数据库,天生为”逻辑关系”而生。我的想法很简单:把专家经验喂进去,用Cypher写几条查询,它自动就能织成一张完美的知识网,直接用就完了。我甚至已经想好了技术路线:专家经验→LLM抽取三元组→批量导入Neo4j→Agent查询推理→输出诊断结论。多优雅,多丝滑。结果呢?现实给了我一记闷棍。那些专家沉淀了十几年的教育诊断经验,全是非结构化的文字、笔记、口述记录。我试过直接用GPT-4做三元组抽取,结果惨不忍睹——同一个”亲子冲突”,它一会儿抽成实体,一会儿抽成关系;”焦虑”和”焦虑情绪”被识别成两个不同节点;更离谱的是,”妈妈过度控制”和”母亲管教过严”明明是一回事,图谱里硬生生变成了两条孤立的路径。没有结构化的底层数据,知识图谱就是一团乱麻。 再牛的工具,喂进去的是垃圾,吐出来的还是垃圾。这就是经典的GIGO——Garbage In, Garbage Out。没有捷径,只能开启苦行僧模式。分表,分列,分模块,手动做第一批底层数据。