SPEC.ARCH.004 · 2026.07 · SCALE 1:1
技术架构
给技术同行完整理解系统设计——模块边界、规则引擎、LLM 调用策略、数据结构与版本管理。
04.01
技术栈总览
运行时
Python 3.14
LLM
DeepSeek V4 Pro / OpenAI 兼容 API
文档解析
python-docx · PyMuPDF · pdfplumber
并发
ThreadPoolExecutor · MAX_AGENTS=3
存储
JSON 文件存储 · CheckpointManager
测试
pytest + unittest · 525 passed
04.02
模块结构图 · 7 层架构
L1
输入层
DOCX · PDF · TXT
L2
解析层
document_parser + chunker
L3
审查层
代码技能 (10) + LLM 技能 (5)
L4
治理层
finding_governance
L5
决策层
scorer + risk + recommendation + summary
L6
解释层
decision_trace + score_explainer + veto_explainer
L7
输出层
report + docx_annotator + pdf_annotator + knowledge_store
04.03
Finding Schema · 核心数据结构
每条审查发现都遵循统一的 JSON Schema,确保可追踪、可治理、可解释。
finding.schema.json
SCHEMA.001
{
"severity": "critical | major | minor",
"category": "问题类别",
"location": {
"paragraph_index": "P6"
},
"evidence": {
"original_text": "原文片段"
},
"problem_description": "问题描述",
"suggestion": "处理建议",
"rule_reference": {
"source": "规则来源"
}
}
04.04
LLM 调用策略
代码优先,LLM 兜底。确定性问题不调用 LLM,语义判断才交给 LLM。
01
已有代码技能不调用 LLM
格式、结构、编号等确定性检查完全由代码规则处理
02
LLM 技能读取 skill.md + checklist.md
每个 LLM 技能有独立的技能描述和检查清单
03
分块调用,合并结果
长文档按 chunk 分段送入 LLM,结果再合并去重
04
Schema 校验与容错解析
LLM 输出必须通过 JSON Schema 校验,容错解析处理格式异常
05
无 API Key 时自动跳过
系统检测到无 API Key 时自动跳过 LLM 技能,不影响代码技能运行
04.05
规则与版本管理
规则包和 Prompt 均支持版本快照与回滚,确保审查结果可复现。
RULES
v2026_1
初版规则包 · 基础格式 + 学术规范
RULES
v2026_2
当前版本 · 增加地缘敏感性 + 地图合规
⟷
规则差异对比
⟷
规则变更报告
⟷
Prompt 版本快照
⟷
版本回滚