SPEC.ARCH.004 · 2026.07 · SCALE 1:1

技术架构

给技术同行完整理解系统设计——模块边界、规则引擎、LLM 调用策略、数据结构与版本管理。

PYTHON 3.14 · DEEPSEEK V4 PRO · 7 LAYERS

04.01

技术栈总览

运行时 Python 3.14

LLM DeepSeek V4 Pro / OpenAI 兼容 API

文档解析 python-docx · PyMuPDF · pdfplumber

并发 ThreadPoolExecutor · MAX_AGENTS=3

存储 JSON 文件存储 · CheckpointManager

测试 pytest + unittest · 525 passed

04.02

模块结构图 · 7 层架构

L1 输入层 DOCX · PDF · TXT

L2 解析层 document_parser + chunker

L3 审查层代码技能 (10) + LLM 技能 (5)

L4 治理层 finding_governance

L5 决策层 scorer + risk + recommendation + summary

L6 解释层 decision_trace + score_explainer + veto_explainer

L7 输出层 report + docx_annotator + pdf_annotator + knowledge_store

04.03

Finding Schema · 核心数据结构

每条审查发现都遵循统一的 JSON Schema，确保可追踪、可治理、可解释。

finding.schema.json SCHEMA.001

{
  "severity": "critical | major | minor",
  "category": "问题类别",
  "location": {
    "paragraph_index": "P6"
  },
  "evidence": {
    "original_text": "原文片段"
  },
  "problem_description": "问题描述",
  "suggestion": "处理建议",
  "rule_reference": {
    "source": "规则来源"
  }
}

04.04

LLM 调用策略

代码优先，LLM 兜底。确定性问题不调用 LLM，语义判断才交给 LLM。

已有代码技能不调用 LLM

格式、结构、编号等确定性检查完全由代码规则处理

LLM 技能读取 skill.md + checklist.md

每个 LLM 技能有独立的技能描述和检查清单

分块调用，合并结果

长文档按 chunk 分段送入 LLM，结果再合并去重

Schema 校验与容错解析

LLM 输出必须通过 JSON Schema 校验，容错解析处理格式异常

无 API Key 时自动跳过

系统检测到无 API Key 时自动跳过 LLM 技能，不影响代码技能运行

04.05

规则与版本管理

规则包和 Prompt 均支持版本快照与回滚，确保审查结果可复现。

RULES v2026_1 初版规则包 · 基础格式 + 学术规范

RULES v2026_2 当前版本 · 增加地缘敏感性 + 地图合规

⟷ 规则差异对比

⟷ 规则变更报告

⟷ Prompt 版本快照

⟷ 版本回滚