1. 基于我的需求,搜寻现有的官方skill。
2. 提供完整的配置步骤。
3. 发现配置步骤的问题,提出疑问。
-ps:这里,我还只是想尝试部署已有的skill
4. 了解三个配置文件的内容,并评估安全隐患。
5. 我想让DeepSeek综合三个skill的能力,写一个符合我需要的skill。
-ps:经过2天,耗时6小时折腾,我最终没能搞到符合预期的skill
6. 代码我看不懂,DeepSeek你帮我测试下,版本1.0测试。
7. 既然测试发现问题,那么修复下吧
8. 版本1.1测试.
9. 突然想到一些优化点,重新整改,版本2.0
10. 版本2.0测试
11. 修复问题继续发版,版本2.1
12. 版本2.1测试
13. 既然是命令部署,继续让DeepSeek生成批处理脚本,一键部署更方便
14. 既然测试都通过了,我就安装部署试试看,希望别坑我
-ps:到这里,一个skill包已经创建完成,DeepSeek也给我搞了一个一键部署的批处理脚本,双击就完成部署。
-ps:经过多次尝试,可能技术能力有限,我未能通过163、126的安全验证,导致openclaw无法访问在线邮箱读取邮件内容.故我采用读取本地邮件文件的方案,我是Outlook,故读取的是pst文件
15. 重新开发本地pst文件读取方案
16. 版本parental-leave-extractor-pst v1.0测试
17. 哎,开发的东西难免有问题,继续修复
18. 版本parental-leave-extractor-pst v1.1测试
19. 让DeepSeek生成一键部署脚本
7. 既然测试发现问题,那么修复下吧,版本1.1.0
7.1. Prompt:
现在你是SKILL的编写者,根据测试结论,进行优化,提供最新的skill和配置步骤
7.2. DeepSeek:
# 优化后的技能包:parental-leave-extractor,修复内容反馈不再赘述。
8. 版本1.1测试
8.1. Prompt
现在你作为测试专家,重新验证最新版本的skill,用词严谨,不要误导用语
8.2. DeepSeek
# 技能测试报告:parental-leave-extractor(优化版),测试内容反馈不再赘述。
9. 突然想到一些优化点,重新整改,版本2.0.0
9.1. Prompt:
育儿假的信息,可能是源自邮件中的图片、附件;多份邮件可能育儿假信息重复,需要去重;多次执行希望可以减少token消耗
9.1. DeepSeek:
# 技能增强方案:parental-leave-extractor(优化版v2)
基于用户新增需求,我们对技能进行二次增强,主要解决以下问题:
1. **解析附件内容**:支持图片(OCR识别)、Word/Excel/PDF等附件中的育儿假信息提取。
2. **去重处理**:同一申请可能来自多封邮件(如审批流程),需根据关键字段(姓名+天数+日期)去重,避免重复记录。
3. **增量执行**:记录已处理邮件ID,下次执行仅处理新邮件,减少扫描量,降低AI对话中的Token消耗(实际是减少技能执行耗时和资源占用)。
以下是增强版的设计说明与实现要点。
---
## 一、附件内容解析
### 1.1 支持的文件类型及依赖
| 文件类型 | 解析方式 | 依赖库 |
|----------|----------|--------|
| 图片(JPG/PNG等) | OCR文字识别 | `pytesseract` + Tesseract-OCR引擎 |
| Word(.doc/.docx) | 提取文本 | `python-docx` |
| Excel(.xls/.xlsx) | 读取单元格内容 | `openpyxl`(已有),`xlrd`(支持旧版) |
| PDF | 提取文本 | `PyPDF2` 或 `pdfplumber` |
| 纯文本(.txt) | 直接读取 | 内置 |
### 1.2 实现思路
在 `process_mail` 函数中增加附件遍历逻辑:
```python
def extract_attachments_content(msg: email.message.Message) -> str:
"""提取邮件附件中的文本内容"""
content = ""
for part in msg.walk():
content_disposition = str(part.get("Content-Disposition"))
if "attachment" in content_disposition:
filename = part.get_filename()
if not filename:
continue
payload = part.get_payload(decode=True)
ext = os.path.splitext(filename)[1].lower()
if ext in ['.jpg', '.jpeg', '.png', '.bmp']:
# OCR识别
content += ocr_image(payload) + "\n"
elif ext in ['.docx']:
# 解析Word
content += parse_docx(payload) + "\n"
elif ext in ['.xlsx', '.xls']:
content += parse_excel(payload) + "\n"
elif ext in ['.pdf']:
content += parse_pdf(payload) + "\n"
elif ext in ['.txt']:
content += payload.decode('utf-8', errors='ignore') + "\n"
return content
```
**注意**:OCR识别需要额外安装Tesseract引擎,且性能开销较大。建议作为可选功能,在配置中开启。
### 1.3 安全性考虑
- 所有附件解析均在本地完成,无网络传输。
- OCR和文档解析可能消耗较多CPU,但属于正常范围。
---
## 二、去重机制
### 2.1 去重键设计
为避免重复记录,采用以下字段组合生成唯一标识:
- **姓名**(必填)
- **育儿假天数**(必填)
- **开始日期**(可选,若缺失则用邮件日期代替)
- **结算日期**(可选)
实现方式:在内存中维护一个已处理记录的哈希集合,每次提取新记录时检查是否已存在。
### 2.2 持久化已处理记录
为了使去重效果跨多次执行持续有效,需将已处理记录保存到本地文件(如 `processed_records.json`),下次执行时加载。
```python
class RecordTracker:
def __init__(self, storage_path: Path):
self.storage_path = storage_path
self.records = self._load()
def _load(self) -> set:
if self.storage_path.exists():
with open(self.storage_path, 'r') as f:
return set(json.load(f))
return set()
def _save(self):
with open(self.storage_path, 'w') as f:
json.dump(list(self.records), f)
def add(self, record: dict) -> bool:
"""添加记录,返回是否为新记录(未去重)"""
key = self._make_key(record)
if key in self.records:
return False
self.records.add(key)
self._save()
return True
@staticmethod
def _make_key(record: dict) -> str:
return f"{record['name']}|{record['days']}|{record['start_date']}|{record['end_date']}"
```
### 2.3 集成到提取流程
```python
tracker = RecordTracker(output_dir / "processed_records.json")
for record in new_records:
if tracker.add(record):
final_records.append(record)
```
---
## 三、增量执行(减少扫描)
### 3.1 记录已处理邮件ID
每次执行后,将处理过的邮件UID(或Message-ID)保存到本地文件,下次仅搜索UID大于上次最大UID的邮件(需使用IMAP的UID搜索)。
**注意**:IMAP UID是每个邮箱会话唯一且递增的,适合增量扫描。
### 3.2 实现方式
1. 首次执行时,不限制搜索范围。
2. 执行后记录本次扫描到的最大UID(或所有已处理邮件UID)。
3. 下次执行时,使用 `UID SEARCH UID <last_uid>:*` 仅获取新邮件。
修改 `search_mails` 方法,增加增量逻辑:
```python
def search_mails(self, conn, last_uid: int = None) -> List[bytes]:
criteria = ['ALL']
if last_uid:
criteria = [f'UID {last_uid+1}:*']
# 可选日期限制
if self.since_date:
criteria.append(f'SINCE "{self.since_date}"')
if self.before_date:
criteria.append(f'BEFORE "{self.before_date}"')
search_criteria = ' '.join(criteria)
_, data = conn.uid('SEARCH', None, search_criteria) # 使用UID SEARCH
return data[0].split()
```
然后处理邮件时使用 `uid` 而非序列号,方便记录。
### 3.3 存储已处理UID
```python
class UIDTracker:
def __init__(self, storage_path: Path):
self.path = storage_path
self.last_uid = self._load()
def _load(self) -> int:
if self.path.exists():
return int(self.path.read_text().strip())
return 0
def _save(self, uid: int):
self.path.write_text(str(uid))
def update(self, uid: int):
if uid > self.last_uid:
self.last_uid = uid
self._save(uid)
```
在 `extract_all` 中,每处理完一封邮件,调用 `uid_tracker.update(uid)`。
### 3.4 结合去重与增量
增量扫描能大幅减少需要检查的邮件数量,降低执行时间,间接减少AI对话中的等待时间。但Token消耗主要来自AI对技能输出的处理,技能本身的执行不消耗Token。
---
## 四、配置扩展
在 `config.yaml` 中增加新选项:
```yaml
# 附件解析
attachments:
enable_ocr: false # 是否启用OCR(需安装tesseract)
max_attachment_size: 10485760 # 最大处理附件大小(字节),默认10MB
# 去重与增量
deduplication:
enabled: true # 是否启用去重
storage_dir: "~/.parental_leave_cache" # 存储去重记录和UID的目录
incremental:
enabled: true # 是否启用增量扫描(仅处理新邮件)
```
---
## 五、安全性与性能权衡
| 功能 | 风险 | 缓解措施 |
|------|------|----------|
| OCR | 需调用外部Tesseract进程,可能被利用 | 限制图片尺寸、超时控制、仅处理本地文件 |
| 附件解析 | 恶意附件可能利用解析库漏洞 | 使用成熟库,及时更新;限制附件大小;默认关闭OCR |
| 去重记录存储 | 本地文件记录可能被篡改 | 无敏感信息,仅存储哈希键;不存储邮件内容 |
| 增量UID存储 | 仅存储数字,无安全风险 | - |
**性能优化**:
- 增量扫描可大幅减少每次执行的邮件处理量。
- 附件解析按需开启,默认关闭以减少开销。
- 去重记录采用集合+JSON存储,性能良好。
---
## 六、实现优先级
1. **必做**:去重 + 增量扫描(核心改进,显著提升体验)
2. **选做**:附件解析(复杂依赖,可后续扩展)
如果用户时间紧急,建议先实现去重与增量,附件解析作为后续版本。
---
## 七、最终交付物
我们将提供:
1. 更新后的 `extract_parental_leave.py`(包含增量、去重、可选附件解析)
2. 更新的 `config.yaml`(含新配置项)
3. 更新的 `README.md`(说明新功能配置)
4. 依赖清单(增加 `pytesseract`、`python-docx`、`PyPDF2` 等,标注可选)
用户可根据实际需求选择启用哪些功能。
---
以上方案已充分考虑安全、性能和可维护性。如需进一步细化代码实现,我们可以继续提供关键模块的完整代码。
夜雨聆风