TRUST & GOVERNANCE
可信治理
可信不来自一句"AI 很强",
而来自每个环节都能被检查
SPEC.TRUST.001
MODULE : finding_governance
TRACE : decision_trace
TEST : 525 PASSED
VETO : 6 RULES
BENCH : GOLD STANDARD
VER : SPRINT 15
Finding 治理
多个技能可以同时发现问题,但最终进入报告前必须经过统一的去重、严重度规范化、类别映射和建议合并。
重复检测
不同技能可能报告同一段落中的同一问题。治理层检测内容重叠、位置重叠和语义重复,合并为单条 Finding,避免编辑看到重复结论。
DEDUP严重度规范化
代码技能和 LLM 技能使用不同严重度标尺。治理层将所有 Finding 映射到统一的 critical / major / minor 三级,确保评分可比。
SEVERITY类别映射
通过类别注册表(Category Registry)将异构技能的输出统一到 17 类问题模式,使报告中的问题归类一致、可统计。
CATEGORY建议合并
针对同一问题的多条建议被合并为一条最优建议,避免冲突建议。合并策略保留来源标注,编辑可追溯建议来源。
MERGE一致性评分
对治理后的 Finding 集合做一致性检查,检测矛盾结论(如一个技能说格式正确、另一个说格式错误),输出一致性分。
CONSISTENCY类别注册表
维护可版本化的类别注册表,记录每类问题的定义、适用范围和处理优先级,随规则包版本一起管理。
REGISTRY决策追溯
每条 Finding 都可追踪到规则、风险和最终建议。编辑看到的不是一段泛泛评价,而是一条完整的证据链。
原文片段 + 问题描述
规则来源 + 扣分逻辑
16 维风险维度
100 分扣分制
4 级决策输出
追溯链示例
一票否决
6 条一票否决规则覆盖最高风险场景。触发任意一条,系统直接给出"不建议送审"建议,不进入正常评分流程。
学科范围不匹配
稿件主题明显不属于《地震地质》期刊学科范围,如纯计算机科学、纯化学等。
重大数据矛盾
摘要、正文、图表中的核心数据存在不可调和的矛盾,如地震震级在摘要和正文中不一致。
地缘 / 地图合规高风险
地图表述涉及领土争议区域、使用不规范地图、或地缘敏感措辞,存在出版合规风险。
学术不端信号
检测到高度疑似抄袭、自引异常、数据造假信号等问题,需要编辑进一步核查。
稿件结构严重缺失
缺少摘要、关键词、参考文献等核心结构要素,且缺失比例超过阈值。
语言质量不达标
全文语言质量评分低于阈值,存在大量语法错误、表述不清,影响学术内容判断。
测试与 Benchmark
525 个测试用例覆盖规则、治理、追溯、导出等模块。Benchmark 金标准数据用于衡量技能的 Precision / Recall / F1。
金标准数据
人工标注的稿件集,包含已知问题和预期 Finding,用于验证技能准确性。
skill_scorecard
每个技能独立打分卡,记录在金标准数据上的表现,支持版本对比和回归检测。
覆盖范围
测试覆盖规则引擎、Finding 治理、决策追溯、报告生成、标注导出、知识管理等全部模块。
知识智能
系统将审查发现沉淀为可复用的知识:高频问题统计、违反规则排行、修改建议复用、17 类问题模式聚类。
高频问题统计
跨稿件统计高频出现的问题类型,帮助编辑部发现共性问题,制定针对性审稿指南。
违反规则排行
统计被违反频率最高的规则,为规则引擎优化和作者投稿指南提供数据支撑。
修改建议复用
积累高质量修改建议,在相似问题出现时推荐历史最优建议,提升建议一致性。
17 类问题模式聚类
将 Finding 按 17 类问题模式聚类,形成结构化的问题知识库,支持检索和统计分析。