我想给openclaw写个SKILL,实现读取邮箱内容汇总到excel-7、8、9

#prompt，#AI，#Skill

紧接上文

1. 基于我的需求，搜寻现有的官方skill。

2. 提供完整的配置步骤。

3. 发现配置步骤的问题，提出疑问。

-ps：这里，我还只是想尝试部署已有的skill

4. 了解三个配置文件的内容，并评估安全隐患。

5. 我想让DeepSeek综合三个skill的能力，写一个符合我需要的skill。

-ps：经过2天，耗时6小时折腾，我最终没能搞到符合预期的skill

6. 代码我看不懂，DeepSeek你帮我测试下，版本1.0测试。

7. 既然测试发现问题，那么修复下吧

8. 版本1.1测试.

9. 突然想到一些优化点，重新整改，版本2.0

10. 版本2.0测试

11. 修复问题继续发版，版本2.1

12. 版本2.1测试

13. 既然是命令部署，继续让DeepSeek生成批处理脚本，一键部署更方便

14. 既然测试都通过了，我就安装部署试试看，希望别坑我

-ps：到这里，一个skill包已经创建完成，DeepSeek也给我搞了一个一键部署的批处理脚本，双击就完成部署。

-ps:经过多次尝试，可能技术能力有限，我未能通过163、126的安全验证，导致openclaw无法访问在线邮箱读取邮件内容.故我采用读取本地邮件文件的方案，我是Outlook，故读取的是pst文件

15. 重新开发本地pst文件读取方案

16. 版本parental-leave-extractor-pst v1.0测试

17. 哎，开发的东西难免有问题，继续修复

18. 版本parental-leave-extractor-pst v1.1测试

19. 让DeepSeek生成一键部署脚本

7. 既然测试发现问题，那么修复下吧，版本1.1.0

7.1. Prompt：

现在你是SKILL的编写者，根据测试结论，进行优化，提供最新的skill和配置步骤

7.2. DeepSeek：

# 优化后的技能包：parental-leave-extractor,修复内容反馈不再赘述。

8. 版本1.1测试

8.1. Prompt

现在你作为测试专家，重新验证最新版本的skill，用词严谨，不要误导用语

8.2. DeepSeek

# 技能测试报告：parental-leave-extractor（优化版）,测试内容反馈不再赘述。

9. 突然想到一些优化点，重新整改，版本2.0.0

9.1. Prompt：

育儿假的信息，可能是源自邮件中的图片、附件；多份邮件可能育儿假信息重复，需要去重；多次执行希望可以减少token消耗

9.1. DeepSeek：

# 技能增强方案：parental-leave-extractor（优化版v2）

基于用户新增需求，我们对技能进行二次增强，主要解决以下问题：

1. **解析附件内容**：支持图片（OCR识别）、Word/Excel/PDF等附件中的育儿假信息提取。

2. **去重处理**：同一申请可能来自多封邮件（如审批流程），需根据关键字段（姓名+天数+日期）去重，避免重复记录。

3. **增量执行**：记录已处理邮件ID，下次执行仅处理新邮件，减少扫描量，降低AI对话中的Token消耗（实际是减少技能执行耗时和资源占用）。

以下是增强版的设计说明与实现要点。

---

## 一、附件内容解析

### 1.1 支持的文件类型及依赖

| 文件类型 | 解析方式 | 依赖库 |

|----------|----------|--------|

| 图片（JPG/PNG等） | OCR文字识别 | `pytesseract` + Tesseract-OCR引擎 |

| Word（.doc/.docx） | 提取文本 | `python-docx` |

| Excel（.xls/.xlsx） | 读取单元格内容 | `openpyxl`（已有），`xlrd`（支持旧版） |

| PDF | 提取文本 | `PyPDF2` 或 `pdfplumber` |

| 纯文本（.txt） | 直接读取 | 内置 |

### 1.2 实现思路

在 `process_mail` 函数中增加附件遍历逻辑：

```python

def extract_attachments_content(msg: email.message.Message) -> str:

"""提取邮件附件中的文本内容"""

content = ""

for part in msg.walk():

content_disposition = str(part.get("Content-Disposition"))

if "attachment" in content_disposition:

filename = part.get_filename()

if not filename:

continue

payload = part.get_payload(decode=True)

ext = os.path.splitext(filename)[1].lower()

if ext in ['.jpg', '.jpeg', '.png', '.bmp']:

# OCR识别

content += ocr_image(payload) + "\n"

elif ext in ['.docx']:

# 解析Word

content += parse_docx(payload) + "\n"

elif ext in ['.xlsx', '.xls']:

content += parse_excel(payload) + "\n"

elif ext in ['.pdf']:

content += parse_pdf(payload) + "\n"

elif ext in ['.txt']:

content += payload.decode('utf-8', errors='ignore') + "\n"

return content

```

**注意**：OCR识别需要额外安装Tesseract引擎，且性能开销较大。建议作为可选功能，在配置中开启。

### 1.3 安全性考虑

- 所有附件解析均在本地完成，无网络传输。

- OCR和文档解析可能消耗较多CPU，但属于正常范围。

---

## 二、去重机制

### 2.1 去重键设计

为避免重复记录，采用以下字段组合生成唯一标识：

- **姓名**（必填）

- **育儿假天数**（必填）

- **开始日期**（可选，若缺失则用邮件日期代替）

- **结算日期**（可选）

实现方式：在内存中维护一个已处理记录的哈希集合，每次提取新记录时检查是否已存在。

### 2.2 持久化已处理记录

为了使去重效果跨多次执行持续有效，需将已处理记录保存到本地文件（如 `processed_records.json`），下次执行时加载。

```python

class RecordTracker:

def __init__(self, storage_path: Path):

self.storage_path = storage_path

self.records = self._load()

def _load(self) -> set:

if self.storage_path.exists():

with open(self.storage_path, 'r') as f:

return set(json.load(f))

return set()

def _save(self):

with open(self.storage_path, 'w') as f:

json.dump(list(self.records), f)

def add(self, record: dict) -> bool:

"""添加记录，返回是否为新记录（未去重）"""

key = self._make_key(record)

if key in self.records:

return False

self.records.add(key)

self._save()

return True

@staticmethod

def _make_key(record: dict) -> str:

return f"{record['name']}|{record['days']}|{record['start_date']}|{record['end_date']}"

```

### 2.3 集成到提取流程

```python

tracker = RecordTracker(output_dir / "processed_records.json")

for record in new_records:

if tracker.add(record):

final_records.append(record)

```

---

## 三、增量执行（减少扫描）

### 3.1 记录已处理邮件ID

每次执行后，将处理过的邮件UID（或Message-ID）保存到本地文件，下次仅搜索UID大于上次最大UID的邮件（需使用IMAP的UID搜索）。

**注意**：IMAP UID是每个邮箱会话唯一且递增的，适合增量扫描。

### 3.2 实现方式

1. 首次执行时，不限制搜索范围。

2. 执行后记录本次扫描到的最大UID（或所有已处理邮件UID）。

3. 下次执行时，使用 `UID SEARCH UID <last_uid>:*` 仅获取新邮件。

修改 `search_mails` 方法，增加增量逻辑：

```python

def search_mails(self, conn, last_uid: int = None) -> List[bytes]:

criteria = ['ALL']

if last_uid:

criteria = [f'UID {last_uid+1}:*']

# 可选日期限制

if self.since_date:

criteria.append(f'SINCE "{self.since_date}"')

if self.before_date:

criteria.append(f'BEFORE "{self.before_date}"')

search_criteria = ' '.join(criteria)

_, data = conn.uid('SEARCH', None, search_criteria) # 使用UID SEARCH

return data[0].split()

```

然后处理邮件时使用 `uid` 而非序列号，方便记录。

### 3.3 存储已处理UID

```python

class UIDTracker:

def __init__(self, storage_path: Path):

self.path = storage_path

self.last_uid = self._load()

def _load(self) -> int:

if self.path.exists():

return int(self.path.read_text().strip())

return 0

def _save(self, uid: int):

self.path.write_text(str(uid))

def update(self, uid: int):

if uid > self.last_uid:

self.last_uid = uid

self._save(uid)

```

在 `extract_all` 中，每处理完一封邮件，调用 `uid_tracker.update(uid)`。

### 3.4 结合去重与增量

增量扫描能大幅减少需要检查的邮件数量，降低执行时间，间接减少AI对话中的等待时间。但Token消耗主要来自AI对技能输出的处理，技能本身的执行不消耗Token。

---

## 四、配置扩展

在 `config.yaml` 中增加新选项：

```yaml

# 附件解析

attachments:

enable_ocr: false # 是否启用OCR（需安装tesseract）

max_attachment_size: 10485760 # 最大处理附件大小（字节），默认10MB

# 去重与增量

deduplication:

enabled: true # 是否启用去重

storage_dir: "~/.parental_leave_cache" # 存储去重记录和UID的目录

incremental:

enabled: true # 是否启用增量扫描（仅处理新邮件）

```

---

## 五、安全性与性能权衡

| 功能 | 风险 | 缓解措施 |

|------|------|----------|

| OCR | 需调用外部Tesseract进程，可能被利用 | 限制图片尺寸、超时控制、仅处理本地文件 |

| 附件解析 | 恶意附件可能利用解析库漏洞 | 使用成熟库，及时更新；限制附件大小；默认关闭OCR |

| 去重记录存储 | 本地文件记录可能被篡改 | 无敏感信息，仅存储哈希键；不存储邮件内容 |

| 增量UID存储 | 仅存储数字，无安全风险 | - |

**性能优化**：

- 增量扫描可大幅减少每次执行的邮件处理量。

- 附件解析按需开启，默认关闭以减少开销。

- 去重记录采用集合+JSON存储，性能良好。

---

## 六、实现优先级

1. **必做**：去重 + 增量扫描（核心改进，显著提升体验）

2. **选做**：附件解析（复杂依赖，可后续扩展）

如果用户时间紧急，建议先实现去重与增量，附件解析作为后续版本。

---

## 七、最终交付物

我们将提供：

1. 更新后的 `extract_parental_leave.py`（包含增量、去重、可选附件解析）

2. 更新的 `config.yaml`（含新配置项）

3. 更新的 `README.md`（说明新功能配置）

4. 依赖清单（增加 `pytesseract`、`python-docx`、`PyPDF2` 等，标注可选）

用户可根据实际需求选择启用哪些功能。

---

以上方案已充分考虑安全、性能和可维护性。如需进一步细化代码实现，我们可以继续提供关键模块的完整代码。