BOUNDARIES & ROADMAP
边界与路线图
诚实说明系统能做什么、不能做什么,以及它如何从一个 Sprint 演进到下一个。
能做什么
系统的核心能力边界。
自动解析稿件
支持 DOCX / PDF / TXT 格式,提取标题、正文、段落、图表和表格结构。
多技能并行审稿
16 个审查技能并行执行,代码技能处理确定性问题,LLM 技能处理语义判断。
评分与风险评估
100 分扣分制评分,16 维风险画像,6 条一票否决规则。
生成报告与标注稿
HTML 初审报告、editor_explanation.html 决策追溯、标注 DOCX / PDF。
决策追溯
每条 Finding 可追踪到规则、风险和最终建议,形成完整证据链。
知识积累
审查发现沉淀为知识库,高频问题统计、违反规则排行、修改建议复用。
断点续跑
CheckpointManager 记录执行进度,中断后可从断点恢复,无需重跑。
规则版本管理
rules/v2026_1、v2026_2 规则包,支持差异对比和版本回滚。
不能做什么
明确的能力边界,不夸大、不隐瞒。
不能替代编辑判断
系统是编辑辅助工具,最终决策权始终在编辑手中。所有建议都需要编辑审阅和确认。
不能验证科学内容是否正确
系统检查格式、合规、一致性,但不判断科学发现的学术价值和正确性。
不能理解图片中的图像内容
当前仅处理文本,无法识别图表中的数据内容或图片中的视觉信息。
不能自动修改原稿
系统只生成标注和建议,不会修改作者的原稿正文。所有修改需人工操作。
不能保证 100% 准确
LLM 判断存在不确定性,代码规则覆盖范围有限。系统追求高召回率和可解释性,不追求零误报。
目前不提供在线服务
系统为本地命令行工具,需要 Python 环境和 API Key 配置。Web 界面是未来方向。
Sprint 路线图
从基础架构到 Prompt 版本管理,15 个 Sprint 的完整演进历程。
基础架构
文档解析、分块、基础工作流框架搭建。
质量引擎
评分系统、严重度分级、Finding 结构化。
可靠性
故障隔离、断点续跑、错误恢复机制。
编辑合规
期刊范围匹配、地缘敏感性、合规检查。
编辑审查
学术逻辑、数据一致性、术语规范审查技能。
Schema 治理
Finding Schema 标准化、字段校验、容错解析。
规则引擎
代码规则体系、规则注册表、规则优先级管理。
Benchmark
金标准数据集、Precision / Recall / F1 评估、skill_scorecard。
验证
525 个测试用例,覆盖规则、治理、追溯、导出等模块。
标注导出
DOCX 边栏批注、行内高亮、PDF 高亮便签、文末清单。
知识管理
知识库持久化、问题模式聚类、修改建议复用。
版本管理
规则包版本、差异对比、变更报告、回滚机制。
决策追溯
Finding → Rule → Risk → Decision 追溯链、editor_explanation.html。
知识智能
17 类问题模式聚类、高频问题统计、违反规则排行。
Finding 治理
重复检测、严重度规范化、建议合并、类别注册表、一致性评分。
Prompt 版本管理
Prompt 版本快照、回滚、A/B 对比、版本差异追踪。
未来方向
规划中的扩展方向,尚未实现。
Web 界面
从命令行工具扩展为可交互的 Web 应用,降低编辑部使用门槛。
多期刊配置
支持不同期刊的审查规则集和格式规范,可切换审查配置。
图像内容识别
识别图表中的数据内容,检查图表与正文数据的一致性。
编辑反馈闭环
编辑对 Finding 的采纳 / 驳回记录反馈到系统,优化规则和 Prompt。
多模型评估
支持多种 LLM 后端,对比不同模型在审查任务上的表现差异。
审稿历史统计面板
可视化展示历史审稿数据,发现期刊稿件的共性问题和发展趋势。