前面的章节解决的是环境、平台和模型接入问题。这一篇开始,目标转向应用层:把已经可用的模型能力,封装成一个别人可以直接使用的助手。
第一个 AI 助手不要追求功能全,而要优先追求场景边界清楚、效果可测、价值易验证。
一、先选一个边界明确的场景
第一版助手最适合满足三个条件:
问题范围清楚、资料(数据)来源、回答对错容易判断。
问题范围清楚:是什么业务的助手,该助手是解决什么问题,在解决问题方面一定要聚焦。资料来源稳定:回答对错容易判断:
资料(数据)来源:助手业务的质量是除了大模型加持外,最重要是基础数据,资料的来源一定要准确,有些说做AI知识库,需要先治理知识库数据,这句话一点也不假。
回答对错容易判断:怎么判断回答的问题是否正确时,需要有出处,需要有来源,如果回答问题不准确,助手肯定是用不起来的。
做什么业务助手?
可以做内部知识问答、固定业务话术助手、FAQ 助手、培训资料助手,这个都是单一的业务助手,比较聚焦。这些业务助手比“做一个全能 AI”更适合,全能AI一般企业没有能力做,架构太复杂了。
场景边界越清楚,后面的提示词、知识库和测试集就越容易收敛。
这次咱们做的是“A股年报分析助手"。
为了便于测试,咱们这次只选择2025年部分软件的年报数据。
二、收集知识库的资料数据
收集年报数据,我使用workbuddy,创建工作区后,直接发送指令就可以了,下载的是上市公司的PDF版本(关于workbuddy的使用,咱们有空再详细讲一下。workbuddy是现阶段windows平台下比较好用的Agent工具)
1)给workbuddy下指令



三、创建AI助手-A股年报分析助手
回到Dify中,我们来创建咱们的A股年报分析助手。
1)创建应用,咱们这次使用模板,点击“从应用模板创建”,


创建后直接来到这个页面,需要配置知识库和LLM









四、修改算力为本地算力,使用ollama+xinference
咱们之前介绍过,我本地有两个4090的卡,运行着ollama,ollama可以运行LLM的模型和embedding,但是不能运行不能使用Rerank,需要部署xinference工具加载rerank模型(xinference安装就不用细说了,DeepSeek查询一下就可以,很简单)。
1)先运行一下对外提供的服务
xinference-local --host 0.0.0.0 --port 9997
2)运行加载rerank模型的命令
xinference launch --model-name bge-reranker-large --model-type rerank --model_path /home/user/soft/xinference_models/bge-reranker-large --model-uid bge-reranker-large --gpu-idx 1
3)测试一下是否可以用,用大模型可以帮着生成测试命令
~$ curl -X 'POST' \> 'http://localhost:9997/v1/rerank' \> -H 'accept: application/json' \> -H 'Content-Type: application/json' \> -d '{> "model": "bge-reranker-large",> "query": "什么是机器学习?",> "documents": [> "机器学习是人工智能的一个分支。",> "今天天气很好,适合出去散步。",> "深度学习是机器学习的一个子领域。",> "我喜欢吃披萨。"> ]> }'{"id":"81ee4378-67f1-11f1-9743-c4cbe1aefb3a","results":[{"index":0,"relevance_score":0.9994064569473267,"document":null},{"index":2,"relevance_score":0.2259484976530075,"document":null},{"index":1,"relevance_score":0.00007631722110090777,"document":null},{"index":3,"relevance_score":0.00007630384061485529,"document":null}],"meta":{"api_version":null,"billed_units":null,"tokens":null,"warnings":null}}
测试是成功的,咱们就可以使用这个模型服务了。
4)在higress里面增加AI服务提供者
先看一下higress现有的配置

增加一下xinference的配置:http://ip地址:端口/v1/rerank

5)在higress中配置路由,将llm、embedding、rerank指向本地
Dify中llm的参数不需要修改,higress中需要做模型映射,具体看上一篇的介绍(挂羊头卖狗肉)。(当然也可以直接修改Dify的配置,我主要是想着测试Higress)
Dify中embedding的参数需要修改一下,之前没有添加/v1/embeddings的地址,如果不增加就匹配不到embedding的路由,也就转发不到ollama的服务中。咱们之前使用云服务是没有问题,因为他是匹配了/v1的路由,直接上云端服务了。

Dify中rerank的参数也需要修改一下,因为Dify中使用higress组件,再选择rerank协议只有一个阿里云百炼文本排序,这个排序的API与正常的不太一样,测试半天一直不成功。所以使用通用的组件,直接对接Higress。














咱们下一篇讲Dify的Workflow,是否可以通过Workflow的设定,将知识库的检索成功率提升一下呢,让 AI 从回答问题升级到执行流程,才算真正开始接近业务系统。
夜雨聆风