PIPELINE / 11 STEPS

审查
流水线

一份稿件进入系统后，不会被一次性丢给大模型，而是被解析、分块、分配给多个独立技能，并经过治理、评分、风险评估和追溯后输出。

SPEC.PIPE.001

11 STEPS

16 SKILLS

525 TESTS

VER. SPRINT 15

01 完整流程图 FIG.01 — FULL PIPELINE

02 分段讲解 STAGE BREAKDOWN

STEP 1—2 INPUT LAYER

解析与分块

系统使用 python-docx 解析 DOCX，PyMuPDF + pdfplumber 解析 PDF，TXT 直接读取。解析后产出 ParsedDocument，包含标题、正文、段落列表、字数、页数、图表信息。

随后 chunker 以 CHUNK_SIZE=40 段落/块、CHUNK_OVERLAP=10 段落的滑动窗口进行分块。重叠窗口防止跨段问题遗漏。

MODULE document_parser.py · chunker.py

STEP 3 · CORE PARALLEL REVIEW

多技能并行审稿

ThreadPoolExecutor 并发执行多个审查技能，MAX_CONCURRENT_AGENTS=3，故障隔离——单技能失败不影响整体流程。

STEP 3.5 GOVERNANCE

Finding 治理

多个技能可以同时发现问题，但最终进入报告前必须经过统一的去重、严重度规范化、类别映射和建议合并。这是保证报告质量的关键环节。

重复检测严重度规范化建议合并类别注册表一致性评分

MODULE finding_governance.py

STEP 4—7 DECISION LAYER

评分、风险、建议、摘要

评分采用 100 分扣分制，6 条一票否决规则。风险评估覆盖 16 个维度，生成风险画像。建议引擎输出 4 级决策建议，摘要引擎生成中文摘要。

SCORING 100 分扣分制 · 6 条一票否决

RISK 16 维风险画像

RECOMMEND 4 级决策建议

SUMMARY 中文摘要生成

STEP 8 OUTPUT + TRACE

报告生成 + 决策追溯 + 知识提取

生成 HTML 初审报告（评分仪表盘/风险/发现/建议/追溯/治理面板/知识洞察）和 editor_explanation.html 决策追溯视图。Finding→Rule→Risk→Decision 追溯链完整记录每条发现的来龙去脉。

MODULE report.py · explainability/ · knowledge_intelligence/

STEP 9—11 ANNOTATION EXPORT

DOCX/PDF 标注导出

初审标注 DOCX：边栏批注 + 行内高亮（critical 红 / major 黄）+ 文末清单。结构化审阅 DOCX：编辑批注格式，逐条修改建议。PDF 标注：PyMuPDF 高亮 + 便签批注 + 汇总页。

STEP 9 初审标注 DOCX

STEP 10 结构化审阅 DOCX

STEP 11 PDF 标注导出

03 设计重点 DESIGN PRINCIPLE

多个技能可以同时发现问题，但最终进入报告前必须经过统一的去重、严重度规范化、类别映射和建议合并。

并行但可治理——这是 AiPreView 区别于"一次丢给大模型"的核心设计。