TRUST & GOVERNANCE

可信治理

可信不来自一句"AI 很强",
而来自每个环节都能被检查

SPEC.TRUST.001

MODULE : finding_governance

TRACE  : decision_trace

TEST   : 525 PASSED

VETO   : 6 RULES

BENCH  : GOLD STANDARD

VER    : SPRINT 15

01

Finding 治理

多个技能可以同时发现问题,但最终进入报告前必须经过统一的去重、严重度规范化、类别映射和建议合并。

Finding 治理流程总览图
01

重复检测

不同技能可能报告同一段落中的同一问题。治理层检测内容重叠、位置重叠和语义重复,合并为单条 Finding,避免编辑看到重复结论。

DEDUP
02

严重度规范化

代码技能和 LLM 技能使用不同严重度标尺。治理层将所有 Finding 映射到统一的 critical / major / minor 三级,确保评分可比。

SEVERITY
03

类别映射

通过类别注册表(Category Registry)将异构技能的输出统一到 17 类问题模式,使报告中的问题归类一致、可统计。

CATEGORY
04

建议合并

针对同一问题的多条建议被合并为一条最优建议,避免冲突建议。合并策略保留来源标注,编辑可追溯建议来源。

MERGE
05

一致性评分

对治理后的 Finding 集合做一致性检查,检测矛盾结论(如一个技能说格式正确、另一个说格式错误),输出一致性分。

CONSISTENCY
06

类别注册表

维护可版本化的类别注册表,记录每类问题的定义、适用范围和处理优先级,随规则包版本一起管理。

REGISTRY
02

决策追溯

每条 Finding 都可追踪到规则、风险和最终建议。编辑看到的不是一段泛泛评价,而是一条完整的证据链。

决策追溯链可视化
FINDING 问题发现
原文片段 + 问题描述
RULE 规则依据
规则来源 + 扣分逻辑
RISK 风险评估
16 维风险维度
SCORE 评分影响
100 分扣分制
DECISION 最终建议
4 级决策输出

追溯链示例

FINDING P6 段落:参考文献编号 [3] 在正文中未被引用
RULE rules/v2026_2 / ref_consistency.py · 扣 3 分
RISK 学术规范风险 · 维度 08 · 等级 minor
SCORE 97 / 100 · 扣分项:参考文献一致性
DECISION 修改后送审 · 建议补充正文引用或删除该参考文献
03

一票否决

6 条一票否决规则覆盖最高风险场景。触发任意一条,系统直接给出"不建议送审"建议,不进入正常评分流程。

VETO.01

学科范围不匹配

稿件主题明显不属于《地震地质》期刊学科范围,如纯计算机科学、纯化学等。

CRITICAL
VETO.02

重大数据矛盾

摘要、正文、图表中的核心数据存在不可调和的矛盾,如地震震级在摘要和正文中不一致。

CRITICAL
VETO.03

地缘 / 地图合规高风险

地图表述涉及领土争议区域、使用不规范地图、或地缘敏感措辞,存在出版合规风险。

CRITICAL
VETO.04

学术不端信号

检测到高度疑似抄袭、自引异常、数据造假信号等问题,需要编辑进一步核查。

CRITICAL
VETO.05

稿件结构严重缺失

缺少摘要、关键词、参考文献等核心结构要素,且缺失比例超过阈值。

MAJOR
VETO.06

语言质量不达标

全文语言质量评分低于阈值,存在大量语法错误、表述不清,影响学术内容判断。

MAJOR
04

测试与 Benchmark

525 个测试用例覆盖规则、治理、追溯、导出等模块。Benchmark 金标准数据用于衡量技能的 Precision / Recall / F1。

525 PASSED pytest + unittest
16 SKILLS CODE + LLM
17 CATEGORIES 问题模式聚类
6 VETO 一票否决规则

金标准数据

人工标注的稿件集,包含已知问题和预期 Finding,用于验证技能准确性。

Precision Recall F1

skill_scorecard

每个技能独立打分卡,记录在金标准数据上的表现,支持版本对比和回归检测。

Per-Skill Versioned Regression

覆盖范围

测试覆盖规则引擎、Finding 治理、决策追溯、报告生成、标注导出、知识管理等全部模块。

Rules Governance Export
05

知识智能

系统将审查发现沉淀为可复用的知识:高频问题统计、违反规则排行、修改建议复用、17 类问题模式聚类。

01

高频问题统计

跨稿件统计高频出现的问题类型,帮助编辑部发现共性问题,制定针对性审稿指南。

02

违反规则排行

统计被违反频率最高的规则,为规则引擎优化和作者投稿指南提供数据支撑。

03

修改建议复用

积累高质量修改建议,在相似问题出现时推荐历史最优建议,提升建议一致性。

04

17 类问题模式聚类

将 Finding 按 17 类问题模式聚类,形成结构化的问题知识库,支持检索和统计分析。