BOUNDARIES & ROADMAP

边界与路线图

诚实说明系统能做什么、不能做什么，以及它如何从一个 Sprint 演进到下一个。

SPEC.LIMIT.001

VER. SPRINT 15

2026.07

能做什么

系统的核心能力边界。

自动解析稿件

支持 DOCX / PDF / TXT 格式，提取标题、正文、段落、图表和表格结构。

多技能并行审稿

16 个审查技能并行执行，代码技能处理确定性问题，LLM 技能处理语义判断。

评分与风险评估

100 分扣分制评分，16 维风险画像，6 条一票否决规则。

生成报告与标注稿

HTML 初审报告、editor_explanation.html 决策追溯、标注 DOCX / PDF。

决策追溯

每条 Finding 可追踪到规则、风险和最终建议，形成完整证据链。

知识积累

审查发现沉淀为知识库，高频问题统计、违反规则排行、修改建议复用。

断点续跑

CheckpointManager 记录执行进度，中断后可从断点恢复，无需重跑。

规则版本管理

rules/v2026_1、v2026_2 规则包，支持差异对比和版本回滚。

不能做什么

明确的能力边界，不夸大、不隐瞒。

不能替代编辑判断

系统是编辑辅助工具，最终决策权始终在编辑手中。所有建议都需要编辑审阅和确认。

不能验证科学内容是否正确

系统检查格式、合规、一致性，但不判断科学发现的学术价值和正确性。

不能理解图片中的图像内容

当前仅处理文本，无法识别图表中的数据内容或图片中的视觉信息。

不能自动修改原稿

系统只生成标注和建议，不会修改作者的原稿正文。所有修改需人工操作。

不能保证 100% 准确

LLM 判断存在不确定性，代码规则覆盖范围有限。系统追求高召回率和可解释性，不追求零误报。

目前不提供在线服务

系统为本地命令行工具，需要 Python 环境和 API Key 配置。Web 界面是未来方向。

Sprint 路线图

从基础架构到 Prompt 版本管理，15 个 Sprint 的完整演进历程。

SPRINT 1-2

基础架构

文档解析、分块、基础工作流框架搭建。

SPRINT 3

质量引擎

评分系统、严重度分级、Finding 结构化。

SPRINT 4

可靠性

故障隔离、断点续跑、错误恢复机制。

SPRINT 5

编辑合规

期刊范围匹配、地缘敏感性、合规检查。

SPRINT 6

编辑审查

学术逻辑、数据一致性、术语规范审查技能。

SPRINT 6.5

Schema 治理

Finding Schema 标准化、字段校验、容错解析。

SPRINT 7

规则引擎

代码规则体系、规则注册表、规则优先级管理。

SPRINT 8

Benchmark

金标准数据集、Precision / Recall / F1 评估、skill_scorecard。

SPRINT 9

验证

525 个测试用例，覆盖规则、治理、追溯、导出等模块。

SPRINT 10

标注导出

DOCX 边栏批注、行内高亮、PDF 高亮便签、文末清单。

SPRINT 11A

知识管理

知识库持久化、问题模式聚类、修改建议复用。

SPRINT 11B

版本管理

规则包版本、差异对比、变更报告、回滚机制。

SPRINT 12

决策追溯

Finding → Rule → Risk → Decision 追溯链、editor_explanation.html。

SPRINT 13

知识智能

17 类问题模式聚类、高频问题统计、违反规则排行。

SPRINT 14

Finding 治理

重复检测、严重度规范化、建议合并、类别注册表、一致性评分。

SPRINT 15 · 当前

Prompt 版本管理

Prompt 版本快照、回滚、A/B 对比、版本差异追踪。

未来方向

规划中的扩展方向，尚未实现。

PLANNED

Web 界面

从命令行工具扩展为可交互的 Web 应用，降低编辑部使用门槛。

PLANNED

多期刊配置

支持不同期刊的审查规则集和格式规范，可切换审查配置。

PLANNED

图像内容识别

识别图表中的数据内容，检查图表与正文数据的一致性。

PLANNED

编辑反馈闭环

编辑对 Finding 的采纳 / 驳回记录反馈到系统，优化规则和 Prompt。

PLANNED

多模型评估

支持多种 LLM 后端，对比不同模型在审查任务上的表现差异。

PLANNED

审稿历史统计面板

可视化展示历史审稿数据，发现期刊稿件的共性问题和发展趋势。