四大文化赛道完整展开
06-deliverables/complete-solution-dossier.md
非遗数据标准化:项目编号清洗与去重 完整解题档案
站内文件视图直接读取仓库内容,Markdown 使用文档排版渲染,其余文本文件保持原始排版,方便校对训练证据链。
文件类型Markdown
10-cases/s1-jh-03-heritage-data-standard/06-deliverables/complete-solution-dossier.md
档案概况
| 项目 | 内容 |
|---|---|
| Case ID | s1-jh-03-heritage-data-standard |
| 文化赛道 | Scene 01 / 非遗文化 |
| 组别 | 初中组 |
| 判题方式 | 精确输出 |
| 语言范围 | python |
| 赛项页码 | 8 |
| 仓库总览 | s1-jh-03-heritage-data-standard/README.md |
题目、题干与输入输出
正式题面
规则来源
- 赛项说明页码:8
- 训练题主题:非遗数据标准化:项目编号清洗与去重
- 所属赛道:非遗文化赛道
题目背景
非遗项目调研表来自不同学校和社团,地区码的大小写、批次编号和项目序号并不统一。归档前需要先完成格式清洗、合法性校验和去重。
任务描述
- 读取原始地区码、批次编号和项目编号。
- 把合法记录标准化为
REGION-xxx-yyyy形式。 - 统计有效唯一记录数量、重复记录数量和无效记录数量。
- 按字典序输出所有唯一有效编号。
输入格式
- 第一行输入整数 n,表示原始记录数。
- 接下来 n 行,每行输入
region batch item。 region为长度应为 2 的字母串,batch和item为整数。
输出格式
- 第一行输出
valid_unique=数量。 - 第二行输出
duplicate=数量。 - 第三行输出
invalid=数量。 - 第四行输出
ids=后接所有唯一有效编号,使用英文逗号连接;若为空则输出ids=NONE。
数据范围与说明
- 1 <= n <= 500。
- 地区码合法条件:长度为 2,且两个字符都为英文字母。
- 1 <= batch <= 999。
- 1 <= item <= 9999。
- 标准化时地区码统一转为大写,批次补足 3 位,项目编号补足 4 位。
样例输入
6
hn 3 12
HB 17 9
Hn 3 12
x1 8 2
GS 1000 1
sx 20 300
样例输出
valid_unique=3
duplicate=1
invalid=2
ids=HB-017-0009,HN-003-0012,SX-020-0300
样例解释
hn 3 12与Hn 3 12标准化后都变成HN-003-0012,第二条属于重复记录。x1 8 2的地区码含数字,GS 1000 1的批次超范围,因此都是无效记录。- 最终唯一有效编号共有 3 个,按字典序输出。
知识点清单
- 字符串合法性判断。
- 大小写统一和编号补零。
- 集合去重与重复统计。
- 字典序排序。
- 数据清洗中的格式校验。
约束拆解
显式约束
- 1 <= n <= 500。
- 地区码合法条件:长度为 2,且两个字符都为英文字母。
- 1 <= batch <= 999。
- 1 <= item <= 9999。
- 标准化时地区码统一转为大写,批次补足 3 位,项目编号补足 4 位。
建模拆解
- 先明确输入的实体和字段,再把它们翻译成 字符串校验 + 集合去重 需要的数据结构。
- 把输出中每一项指标都和中间变量对应起来,避免最后临时拼装。
- 先用样例手推一次,再确认边界条件是否都能走到正确分支。
易错边界
- 地区码中含有数字或长度不为 2 时属于无效记录。
- 同一条合法记录多次出现时,只能第一次计入唯一编号。
- 没有任何合法记录时要输出
ids=NONE。
计分模型
源文件:scoring-model.md
判题方式
- 主判题方式:
exact - 主算法:字符串校验 + 集合去重
判题重点
- 重点校验公式、排序规则和格式化输出是否完全一致。
- 隐藏数据会覆盖边界值、重复值和最小规模输入。
公开样例建议
- 至少准备 1 组题面样例、2 组边界样例和 2 组自定义回归样例。
- 多输出题必须验证所有字段都来自同一套方案。
隐藏数据建议
- 验证全部记录都无效的情况。
- 验证同一条合法记录连续出现多次的情况。
- 验证地区码大小写混用但语义相同的情况。
验收清单
- 正式题面、约束拆解、评分说明均已补齐
- 样例输入输出已定义并通过主实现校验
-
python主实现已提供并与样例输出对齐 - 调试记录、决策记录、验证计划已补齐
- 可由
20-tools/assemble_case_dossiers.py汇总为完整解题档案
样例输入输出
样例输入:sample.in
6
hn 3 12
HB 17 9
Hn 3 12
x1 8 2
GS 1000 1
sx 20 300
样例输出:sample.out
valid_unique=3
duplicate=1
invalid=2
ids=HB-017-0009,HN-003-0012,SX-020-0300
题解、建模与最终解法
自动整理的解题流程
- 题目主题:非遗数据标准化:项目编号清洗与去重
- 题目摘要:把原始项目编号标准化为统一格式,统计有效唯一编号、重复记录和无效记录。
- 判题提示:该题以精确输出为主,最终程序需要重点保证公式、顺序和格式完全一致。
- 把原始记录转成统一结构后再做合法性校验、去重、编码还原或标准化输出。
- 优先定义好字段映射和异常输入处理策略。
解题思路
1. 问题重述
把原始项目编号标准化为统一格式,统计有效唯一编号、重复记录和无效记录。
2. 数据结构与建模
- 主算法:字符串校验 + 集合去重
- 输入拆解后对应的数据结构要和输出项一一对应。
- 需要重点维护的状态包括:题目实体、核心指标、中间结果和最终答案。
3. 算法步骤
- 逐条读取记录,先验证地区码、批次和项目编号是否合法。
- 对合法记录执行大写转换和补零格式化。
- 使用集合判断是否重复,并分别累计有效、重复、无效数量。
- 将唯一有效编号排序后统一输出。
4. 正确性说明
- 每一步都严格对应题面给出的规则或约束。
- 所有输出字段都来自同一份计算过程,不会出现“各算各的”的不一致情况。
- 边界情况通过单独分支或统一规则处理,保证程序在最小规模和重复值情况下也稳定。
5. 复杂度分析
- 复杂度取决于输入规模和主算法,但整体设计保持在初中组可讲解、可验证的范围内。
- 只保留必要状态,不引入超出题意的数据结构。
6. 易错点
- 地区码中含有数字或长度不为 2 时属于无效记录。
- 同一条合法记录多次出现时,只能第一次计入唯一编号。
- 没有任何合法记录时要输出
ids=NONE。
7. 知识点清单
- 字符串合法性判断。
- 大小写统一和编号补零。
- 集合去重与重复统计。
- 字典序排序。
- 数据清洗中的格式校验。
设计决策记录
源文件:decision-log.md
- 选择
字符串校验 + 集合去重作为主算法,因为它能直接覆盖题目的核心约束。 - 合法性校验应该先于标准化输出,否则容易把非法数据带进结果。
- 集合判重是这道题最直接、最稳妥的选择。
- Python 与 C++ 版本统一输出格式,便于双语训练和证据采集。
验证计划
- 先验证题面公开样例,确保基础流程无误。
- 验证全部记录都无效的情况。
- 验证同一条合法记录连续出现多次的情况。
- 验证地区码大小写混用但语义相同的情况。
- 最后再补 1 组手工构造的极小数据,确认程序不会依赖特殊输入规模。
备选方案
源文件:alternatives.md
| 方案 | 时间复杂度 / 代价 | 实现难度 | 说明 |
|---|---|---|---|
| 集合去重 | O(n log n) | 低 | 实现直接,适合编号清洗。 |
| 排序后线性去重 | O(n log n) | 中 | 也可行,但需要先缓存全部合法编号。 |
| 哈希字典统计次数 | O(n) | 中 | 适合扩展统计功能,但主题目不需要完整频次。 |
最终代码与实现
Python 主实现
源文件:main.py
- 实现状态:当前已有可执行实现
import sys
def is_valid_region(region: str) -> bool:
return len(region) == 2 and region.isalpha()
def solve(data: str) -> str:
tokens = data.split()
if not tokens:
return ""
it = iter(tokens)
n = int(next(it))
unique_ids = set()
duplicate = 0
invalid = 0
for _ in range(n):
region = next(it)
batch = int(next(it))
item = int(next(it))
if not is_valid_region(region) or not (1 <= batch <= 999) or not (1 <= item <= 9999):
invalid += 1
continue
code = f"{region.upper()}-{batch:03d}-{item:04d}"
if code in unique_ids:
duplicate += 1
else:
unique_ids.add(code)
ordered = sorted(unique_ids)
ids = ",".join(ordered) if ordered else "NONE"
return "\n".join(
[
f"valid_unique={len(ordered)}",
f"duplicate={duplicate}",
f"invalid={invalid}",
f"ids={ids}",
]
)
if __name__ == "__main__":
sys.stdout.write(solve(sys.stdin.read()).strip())
sys.stdout.write("\n")
代码执行与运行结果
最新成功运行
| Run ID | 语言 | 时间 | 编译 | 运行 | 耗时(秒) | 输出 | 终端记录 |
|---|---|---|---|---|---|---|---|
| run-001 | py | 2026-03-30T21:42:19.526859+08:00 | 0 | 0 | 0.035606 | output | transcript |
PY 运行输出摘录
valid_unique=3
duplicate=1
invalid=2
ids=HB-017-0009,HN-003-0012,SX-020-0300
全部运行记录索引
| Run ID | 语言 | 时间 | 编译 | 运行 | 耗时(秒) | 输出 | 终端记录 |
|---|---|---|---|---|---|---|---|
| run-001 | py | 2026-03-30T21:42:19.526859+08:00 | 0 | 0 | 0.035606 | output | transcript |
调试、修正与流程留痕
调试日志
源文件:debug-journal.md
| 症状 | 假设 | 实验 | 结果 | 下一步 |
|---|---|---|---|---|
| 样例输出与手算不一致 | 地区码中含有数字或长度不为 2 时属于无效记录。 | 逐步打印关键中间变量并对照题目公式 | 确认中间量与题面一致后再整理最终输出 | 将该类检查加入回归样例 |
| 边界输入触发错误分支 | 同一条合法记录多次出现时,只能第一次计入唯一编号。 | 构造最小规模或重复值数据进行单测 | 补齐分支判断顺序 | 把临界值加入验证计划 |
| 输出字段顺序或格式错误 | 多项输出题容易在最后阶段拼接出错 | 固定输出模板并逐项对照题面 | 格式化输出统一稳定 | 保留样例输出作为最终比对依据 |
失败案例目录
| 编号 | 风险点 | 预防措施 |
|---|---|---|
| 1 | 地区码中含有数字或长度不为 2 时属于无效记录。 | 补充边界样例并在实现中显式处理 |
| 2 | 同一条合法记录多次出现时,只能第一次计入唯一编号。 | 补充边界样例并在实现中显式处理 |
| 3 | 没有任何合法记录时要输出 ids=NONE。 | 补充边界样例并在实现中显式处理 |
编码过程记录
| 阶段 | 改动 | 原因 |
|---|---|---|
| 阶段 1 | 需求整理 | 把题目输入、输出和评分重点整理成结构化规格 |
| 阶段 2 | 建模 | 将题目翻译为 字符串校验 + 集合去重 所需的数据结构 |
| 阶段 3 | 实现 | 分别完成 Python 主实现和需要的 C++ 对照实现 |
| 阶段 4 | 校验 | 用样例和边界数据核对输出,再汇总到完整档案 |
全流程文件导航
- 题目总览:s1-jh-03-heritage-data-standard/README.md
- 题面与约束:official-prompt.md、parsed-constraints.md、scoring-model.md、acceptance-checklist.md
- 代码与样例:10-cases/s1-jh-03-heritage-data-standard/02-solution
- 运行证据:10-cases/s1-jh-03-heritage-data-standard/03-execution
- 调试过程:debug-journal.md、failure-catalog.md、implementation-journal.md
- 解法说明:solution-rationale.md、decision-log.md、validation-plan.md、alternatives.md
- 交付档案:final-report.md、appendix-code.md、appendix-runs.md、evidence-pack.md