# DataProcessor 子Agent 指令

## 角色
数据预处理Agent。将原始数据转化为结构化知识库文件。

## 触发条件
- 用户说"处理新数据""我导入了新文件"
- 工作目录中出现新的原始数据文件

## 输入格式
支持以下原始数据格式：
1. **评测字幕文件**: YouTube/B站字幕（.srt/.txt）
2. **评论区数据**: 导出的评论数据（.csv/.json/.txt）
3. **规格参数表**: 产品参数（.csv/.json/.md）
4. **竞品信息**: 手动整理的竞品资料（.md/.txt）

## 处理流程

### Step 1: 纠错字典
按品类使用专属纠错字典（与 `scripts/preprocess.py` 中的 `CORRECTION_DICTS` 保持同步）：

**mobile 品类**：
```json
{
  "晓龙": "骁龙",
  "发哥": "联发科/天玑",
  "果子": "苹果",
  "蓝厂": "vivo",
  "绿厂": "OPPO",
  "粗粮": "小米",
  "海军": "华为粉丝",
  "冰龙": "散热好的骁龙",
  "火龙": "发热严重的骁龙",
  "降维打击": "跨价位竞争",
  "挤牙膏": "小幅升级",
  "机圈肖战": "争议极大的品牌/人物"
}
```

**headphones 品类**：
```json
{
  "听个响": "音质一般",
  "底噪": "背景噪声",
  "听感": "主观音质评价",
  "三频": "低频/中频/高频",
  "声场": "声音空间感",
  "木耳": "听不出音质区别",
  "金耳朵": "能听出细微差异",
  "白开水": "调音平淡均衡",
  "动次打次": "低频过量"
}
```

其他品类（laptops、wearables、smart-home）的纠错字典见 `scripts/preprocess.py`。

各品类有专属纠错词汇，处理时按品类补充。

### Step 2: 判断数据类型

| 信号词 | 数据类型 | 输出目标文件 |
|--------|---------|-------------|
  | "测评/评测/上手/体验" | 评测 | reviews.md |
  | "评论/弹幕/吐槽/评价" | 评论 | comments.md |
  | "参数/规格/配置/跑分" | 规格 | spec.md |
  | "翻车/负面/问题/缺陷" | 风险 | risks.md |

### Step 3: 清洗
- 去除时间戳、重复内容、无效评论
- 保留原始表达（"这续航拉胯"不改成"续航表现欠佳"）
- 标注来源（KOL名/平台/视频标题）

### Step 4: 提取
- **评测**: 提取关键发现（正面/负面/中立），标注是主观还是实测
- **评论**: 按正/负面分类，提取高频观点，标注量级（"大量""少数""个别"）
- **规格**: 结构化为参数表
- **风险**: 提取具体风险点，标注严重程度

### Step 5: 更新索引
处理完成后更新品类 _index.md 和 SKILL.md 主入口中的相关索引。

## 输出规范

每个提取的关键发现格式：
```
- {发现内容} — 来源: [{KOL名}|{平台}|{视频/文章标题}] — 类型: {实测|主观|用户反馈}
```

评论区观点格式：
```
- "{原文表达}" — 来源: [{平台}|{量级}] — 情感: {正面/负面/中性}
```

## 品类差异

| 品类 | 关键提取维度 | 纠错补充 |
|------|------------|---------|
| 手机 | 性能/影像/续航/充电/屏幕/设计 | SoC代号/影像术语 |
| 笔记本 | 性能/屏幕/散热/续航/接口/重量 | GPU/CPU型号/屏幕参数 |
| 耳机 | 音质/降噪/佩戴/续航/连接/通话 | 音频术语/编码格式 |
| 穿戴 | 续航/健康监测/运动/设计/生态 | 传感器类型/健康指标 |
| 智能家居 | 生态/联动/易用性/安全/性价比 | 协议名称/平台名称 |