SPEC.ARCH.004 · 2026.07 · SCALE 1:1

技术架构

给技术同行完整理解系统设计——模块边界、规则引擎、LLM 调用策略、数据结构与版本管理。

PYTHON 3.14 · DEEPSEEK V4 PRO · 7 LAYERS
04.01

技术栈总览

运行时 Python 3.14
LLM DeepSeek V4 Pro / OpenAI 兼容 API
文档解析 python-docx · PyMuPDF · pdfplumber
并发 ThreadPoolExecutor · MAX_AGENTS=3
存储 JSON 文件存储 · CheckpointManager
测试 pytest + unittest · 525 passed
04.02

模块结构图 · 7 层架构

七层架构堆叠图
L1 输入层 DOCX · PDF · TXT
L2 解析层 document_parser + chunker
L3 审查层 代码技能 (10) + LLM 技能 (5)
L4 治理层 finding_governance
L5 决策层 scorer + risk + recommendation + summary
L6 解释层 decision_trace + score_explainer + veto_explainer
L7 输出层 report + docx_annotator + pdf_annotator + knowledge_store
04.03

Finding Schema · 核心数据结构

每条审查发现都遵循统一的 JSON Schema,确保可追踪、可治理、可解释。

finding.schema.json SCHEMA.001
{
  "severity": "critical | major | minor",
  "category": "问题类别",
  "location": {
    "paragraph_index": "P6"
  },
  "evidence": {
    "original_text": "原文片段"
  },
  "problem_description": "问题描述",
  "suggestion": "处理建议",
  "rule_reference": {
    "source": "规则来源"
  }
}
04.04

LLM 调用策略

代码优先,LLM 兜底。确定性问题不调用 LLM,语义判断才交给 LLM。

01

已有代码技能不调用 LLM

格式、结构、编号等确定性检查完全由代码规则处理

02

LLM 技能读取 skill.md + checklist.md

每个 LLM 技能有独立的技能描述和检查清单

03

分块调用,合并结果

长文档按 chunk 分段送入 LLM,结果再合并去重

04

Schema 校验与容错解析

LLM 输出必须通过 JSON Schema 校验,容错解析处理格式异常

05

无 API Key 时自动跳过

系统检测到无 API Key 时自动跳过 LLM 技能,不影响代码技能运行

04.05

规则与版本管理

规则包和 Prompt 均支持版本快照与回滚,确保审查结果可复现。

RULES v2026_1 初版规则包 · 基础格式 + 学术规范
RULES v2026_2 当前版本 · 增加地缘敏感性 + 地图合规
规则差异对比
规则变更报告
Prompt 版本快照
版本回滚