///complete-solution-dossier.md

06-deliverables/complete-solution-dossier.md

非遗数据标准化：项目编号清洗与去重完整解题档案

站内文件视图直接读取仓库内容，Markdown 使用文档排版渲染，其余文本文件保持原始排版，方便校对训练证据链。

文件类型Markdown

10-cases/s1-jh-03-heritage-data-standard/06-deliverables/complete-solution-dossier.md

档案概况

项目	内容
Case ID	s1-jh-03-heritage-data-standard
文化赛道	Scene 01 / 非遗文化
组别	初中组
判题方式	精确输出
语言范围	python
赛项页码	8
仓库总览	s1-jh-03-heritage-data-standard/README.md

题目、题干与输入输出

正式题面

源文件：official-prompt.md

规则来源

赛项说明页码：8
训练题主题：非遗数据标准化：项目编号清洗与去重
所属赛道：非遗文化赛道

题目背景

非遗项目调研表来自不同学校和社团，地区码的大小写、批次编号和项目序号并不统一。归档前需要先完成格式清洗、合法性校验和去重。

任务描述

读取原始地区码、批次编号和项目编号。
把合法记录标准化为 REGION-xxx-yyyy 形式。
统计有效唯一记录数量、重复记录数量和无效记录数量。
按字典序输出所有唯一有效编号。

输入格式

第一行输入整数 n，表示原始记录数。
接下来 n 行，每行输入 region batch item。
region 为长度应为 2 的字母串，batch 和 item 为整数。

输出格式

第一行输出 valid_unique=数量。
第二行输出 duplicate=数量。
第三行输出 invalid=数量。
第四行输出 ids= 后接所有唯一有效编号，使用英文逗号连接；若为空则输出 ids=NONE。

数据范围与说明

1 <= n <= 500。
地区码合法条件：长度为 2，且两个字符都为英文字母。
1 <= batch <= 999。
1 <= item <= 9999。
标准化时地区码统一转为大写，批次补足 3 位，项目编号补足 4 位。

样例输入

6
hn 3 12
HB 17 9
Hn 3 12
x1 8 2
GS 1000 1
sx 20 300

样例输出

valid_unique=3
duplicate=1
invalid=2
ids=HB-017-0009,HN-003-0012,SX-020-0300

样例解释

hn 3 12 与 Hn 3 12 标准化后都变成 HN-003-0012，第二条属于重复记录。
x1 8 2 的地区码含数字，GS 1000 1 的批次超范围，因此都是无效记录。
最终唯一有效编号共有 3 个，按字典序输出。

知识点清单

字符串合法性判断。
大小写统一和编号补零。
集合去重与重复统计。
字典序排序。
数据清洗中的格式校验。

约束拆解

源文件：parsed-constraints.md

显式约束

1 <= n <= 500。
地区码合法条件：长度为 2，且两个字符都为英文字母。
1 <= batch <= 999。
1 <= item <= 9999。
标准化时地区码统一转为大写，批次补足 3 位，项目编号补足 4 位。

建模拆解

先明确输入的实体和字段，再把它们翻译成字符串校验 + 集合去重需要的数据结构。
把输出中每一项指标都和中间变量对应起来，避免最后临时拼装。
先用样例手推一次，再确认边界条件是否都能走到正确分支。

易错边界

地区码中含有数字或长度不为 2 时属于无效记录。
同一条合法记录多次出现时，只能第一次计入唯一编号。
没有任何合法记录时要输出 ids=NONE。

计分模型

源文件：scoring-model.md

判题方式

主判题方式：exact
主算法：字符串校验 + 集合去重

判题重点

重点校验公式、排序规则和格式化输出是否完全一致。
隐藏数据会覆盖边界值、重复值和最小规模输入。

公开样例建议

至少准备 1 组题面样例、2 组边界样例和 2 组自定义回归样例。
多输出题必须验证所有字段都来自同一套方案。

隐藏数据建议

验证全部记录都无效的情况。
验证同一条合法记录连续出现多次的情况。
验证地区码大小写混用但语义相同的情况。

验收清单

源文件：acceptance-checklist.md

正式题面、约束拆解、评分说明均已补齐
样例输入输出已定义并通过主实现校验
python 主实现已提供并与样例输出对齐
调试记录、决策记录、验证计划已补齐
可由 20-tools/assemble_case_dossiers.py 汇总为完整解题档案

样例输入输出

样例输入：sample.in

6
hn 3 12
HB 17 9
Hn 3 12
x1 8 2
GS 1000 1
sx 20 300

样例输出：sample.out

valid_unique=3
duplicate=1
invalid=2
ids=HB-017-0009,HN-003-0012,SX-020-0300

题解、建模与最终解法

自动整理的解题流程

题目主题：非遗数据标准化：项目编号清洗与去重
题目摘要：把原始项目编号标准化为统一格式，统计有效唯一编号、重复记录和无效记录。
判题提示：该题以精确输出为主，最终程序需要重点保证公式、顺序和格式完全一致。
把原始记录转成统一结构后再做合法性校验、去重、编码还原或标准化输出。
优先定义好字段映射和异常输入处理策略。

解题思路

源文件：solution-rationale.md

1. 问题重述

把原始项目编号标准化为统一格式，统计有效唯一编号、重复记录和无效记录。

2. 数据结构与建模

主算法：字符串校验 + 集合去重
输入拆解后对应的数据结构要和输出项一一对应。
需要重点维护的状态包括：题目实体、核心指标、中间结果和最终答案。

3. 算法步骤

逐条读取记录，先验证地区码、批次和项目编号是否合法。
对合法记录执行大写转换和补零格式化。
使用集合判断是否重复，并分别累计有效、重复、无效数量。
将唯一有效编号排序后统一输出。

4. 正确性说明

每一步都严格对应题面给出的规则或约束。
所有输出字段都来自同一份计算过程，不会出现“各算各的”的不一致情况。
边界情况通过单独分支或统一规则处理，保证程序在最小规模和重复值情况下也稳定。

5. 复杂度分析

复杂度取决于输入规模和主算法，但整体设计保持在初中组可讲解、可验证的范围内。
只保留必要状态，不引入超出题意的数据结构。

6. 易错点

地区码中含有数字或长度不为 2 时属于无效记录。
同一条合法记录多次出现时，只能第一次计入唯一编号。
没有任何合法记录时要输出 ids=NONE。

7. 知识点清单

字符串合法性判断。
大小写统一和编号补零。
集合去重与重复统计。
字典序排序。
数据清洗中的格式校验。

设计决策记录

源文件：decision-log.md

选择 字符串校验 + 集合去重 作为主算法，因为它能直接覆盖题目的核心约束。
合法性校验应该先于标准化输出，否则容易把非法数据带进结果。
集合判重是这道题最直接、最稳妥的选择。
Python 与 C++ 版本统一输出格式，便于双语训练和证据采集。

验证计划

源文件：validation-plan.md

先验证题面公开样例，确保基础流程无误。
验证全部记录都无效的情况。
验证同一条合法记录连续出现多次的情况。
验证地区码大小写混用但语义相同的情况。
最后再补 1 组手工构造的极小数据，确认程序不会依赖特殊输入规模。

备选方案

源文件：alternatives.md

方案	时间复杂度 / 代价	实现难度	说明
集合去重	O(n log n)	低	实现直接，适合编号清洗。
排序后线性去重	O(n log n)	中	也可行，但需要先缓存全部合法编号。
哈希字典统计次数	O(n)	中	适合扩展统计功能，但主题目不需要完整频次。

最终代码与实现

Python 主实现

源文件：main.py

实现状态：当前已有可执行实现

import sys


def is_valid_region(region: str) -> bool:
    return len(region) == 2 and region.isalpha()


def solve(data: str) -> str:
    tokens = data.split()
    if not tokens:
        return ""
    it = iter(tokens)
    n = int(next(it))
    unique_ids = set()
    duplicate = 0
    invalid = 0
    for _ in range(n):
        region = next(it)
        batch = int(next(it))
        item = int(next(it))
        if not is_valid_region(region) or not (1 <= batch <= 999) or not (1 <= item <= 9999):
            invalid += 1
            continue
        code = f"{region.upper()}-{batch:03d}-{item:04d}"
        if code in unique_ids:
            duplicate += 1
        else:
            unique_ids.add(code)
    ordered = sorted(unique_ids)
    ids = ",".join(ordered) if ordered else "NONE"
    return "\n".join(
        [
            f"valid_unique={len(ordered)}",
            f"duplicate={duplicate}",
            f"invalid={invalid}",
            f"ids={ids}",
        ]
    )


if __name__ == "__main__":
    sys.stdout.write(solve(sys.stdin.read()).strip())
    sys.stdout.write("\n")

代码执行与运行结果

PY 运行输出摘录

valid_unique=3
duplicate=1
invalid=2
ids=HB-017-0009,HN-003-0012,SX-020-0300

全部运行记录索引

Run ID	语言	时间	编译	运行	耗时(秒)	输出	终端记录
run-001	py	2026-03-30T21:42:19.526859+08:00	0	0	0.035606	output	transcript

调试、修正与流程留痕

调试日志

源文件：debug-journal.md

症状	假设	实验	结果	下一步
样例输出与手算不一致	地区码中含有数字或长度不为 2 时属于无效记录。	逐步打印关键中间变量并对照题目公式	确认中间量与题面一致后再整理最终输出	将该类检查加入回归样例
边界输入触发错误分支	同一条合法记录多次出现时，只能第一次计入唯一编号。	构造最小规模或重复值数据进行单测	补齐分支判断顺序	把临界值加入验证计划
输出字段顺序或格式错误	多项输出题容易在最后阶段拼接出错	固定输出模板并逐项对照题面	格式化输出统一稳定	保留样例输出作为最终比对依据

失败案例目录

源文件：failure-catalog.md

编号	风险点	预防措施
1	地区码中含有数字或长度不为 2 时属于无效记录。	补充边界样例并在实现中显式处理
2	同一条合法记录多次出现时，只能第一次计入唯一编号。	补充边界样例并在实现中显式处理
3	没有任何合法记录时要输出 `ids=NONE`。	补充边界样例并在实现中显式处理

编码过程记录

源文件：implementation-journal.md

阶段	改动	原因
阶段 1	需求整理	把题目输入、输出和评分重点整理成结构化规格
阶段 2	建模	将题目翻译为字符串校验 + 集合去重所需的数据结构
阶段 3	实现	分别完成 Python 主实现和需要的 C++ 对照实现
阶段 4	校验	用样例和边界数据核对输出，再汇总到完整档案

全流程文件导航

题目总览：s1-jh-03-heritage-data-standard/README.md
题面与约束：official-prompt.md、parsed-constraints.md、scoring-model.md、acceptance-checklist.md
代码与样例：10-cases/s1-jh-03-heritage-data-standard/02-solution
运行证据：10-cases/s1-jh-03-heritage-data-standard/03-execution
调试过程：debug-journal.md、failure-catalog.md、implementation-journal.md
解法说明：solution-rationale.md、decision-log.md、validation-plan.md、alternatives.md
交付档案：final-report.md、appendix-code.md、appendix-runs.md、evidence-pack.md

非遗数据标准化：项目编号清洗与去重 完整解题档案