World Robot Contest2025-2026Algorithm Application ThemeJunior Highwrc.hao.work
WRC
Contest Archive / Structured Dossiers青少年算法应用训练档案馆

把训练题、知识点、执行证据和最终解题档案统一归档成可直接浏览的竞赛资料库。

Archive30 Cases

四大文化赛道完整展开

AccessHTTPS

完整题面 / 题解 / 运行证据

No Rounded CornersTailwind FirstDossier Ready
06-deliverables/complete-solution-dossier.md

非遗数据标准化:项目编号清洗与去重 完整解题档案

站内文件视图直接读取仓库内容,Markdown 使用文档排版渲染,其余文本文件保持原始排版,方便校对训练证据链。

文件类型Markdown

10-cases/s1-jh-03-heritage-data-standard/06-deliverables/complete-solution-dossier.md

档案概况

项目内容
Case IDs1-jh-03-heritage-data-standard
文化赛道Scene 01 / 非遗文化
组别初中组
判题方式精确输出
语言范围python
赛项页码8
仓库总览s1-jh-03-heritage-data-standard/README.md

题目、题干与输入输出

正式题面

源文件:official-prompt.md

规则来源

  • 赛项说明页码:8
  • 训练题主题:非遗数据标准化:项目编号清洗与去重
  • 所属赛道:非遗文化赛道

题目背景

非遗项目调研表来自不同学校和社团,地区码的大小写、批次编号和项目序号并不统一。归档前需要先完成格式清洗、合法性校验和去重。

任务描述

  • 读取原始地区码、批次编号和项目编号。
  • 把合法记录标准化为 REGION-xxx-yyyy 形式。
  • 统计有效唯一记录数量、重复记录数量和无效记录数量。
  • 按字典序输出所有唯一有效编号。

输入格式

  1. 第一行输入整数 n,表示原始记录数。
  2. 接下来 n 行,每行输入 region batch item
  3. region 为长度应为 2 的字母串,batchitem 为整数。

输出格式

  1. 第一行输出 valid_unique=数量
  2. 第二行输出 duplicate=数量
  3. 第三行输出 invalid=数量
  4. 第四行输出 ids= 后接所有唯一有效编号,使用英文逗号连接;若为空则输出 ids=NONE

数据范围与说明

  • 1 <= n <= 500。
  • 地区码合法条件:长度为 2,且两个字符都为英文字母。
  • 1 <= batch <= 999。
  • 1 <= item <= 9999。
  • 标准化时地区码统一转为大写,批次补足 3 位,项目编号补足 4 位。

样例输入

6
hn 3 12
HB 17 9
Hn 3 12
x1 8 2
GS 1000 1
sx 20 300

样例输出

valid_unique=3
duplicate=1
invalid=2
ids=HB-017-0009,HN-003-0012,SX-020-0300

样例解释

  • hn 3 12Hn 3 12 标准化后都变成 HN-003-0012,第二条属于重复记录。
  • x1 8 2 的地区码含数字,GS 1000 1 的批次超范围,因此都是无效记录。
  • 最终唯一有效编号共有 3 个,按字典序输出。

知识点清单

  • 字符串合法性判断。
  • 大小写统一和编号补零。
  • 集合去重与重复统计。
  • 字典序排序。
  • 数据清洗中的格式校验。

约束拆解

源文件:parsed-constraints.md

显式约束

  • 1 <= n <= 500。
  • 地区码合法条件:长度为 2,且两个字符都为英文字母。
  • 1 <= batch <= 999。
  • 1 <= item <= 9999。
  • 标准化时地区码统一转为大写,批次补足 3 位,项目编号补足 4 位。

建模拆解

  • 先明确输入的实体和字段,再把它们翻译成 字符串校验 + 集合去重 需要的数据结构。
  • 把输出中每一项指标都和中间变量对应起来,避免最后临时拼装。
  • 先用样例手推一次,再确认边界条件是否都能走到正确分支。

易错边界

  • 地区码中含有数字或长度不为 2 时属于无效记录。
  • 同一条合法记录多次出现时,只能第一次计入唯一编号。
  • 没有任何合法记录时要输出 ids=NONE

计分模型

源文件:scoring-model.md

判题方式

  • 主判题方式:exact
  • 主算法:字符串校验 + 集合去重

判题重点

  • 重点校验公式、排序规则和格式化输出是否完全一致。
  • 隐藏数据会覆盖边界值、重复值和最小规模输入。

公开样例建议

  • 至少准备 1 组题面样例、2 组边界样例和 2 组自定义回归样例。
  • 多输出题必须验证所有字段都来自同一套方案。

隐藏数据建议

  • 验证全部记录都无效的情况。
  • 验证同一条合法记录连续出现多次的情况。
  • 验证地区码大小写混用但语义相同的情况。

验收清单

源文件:acceptance-checklist.md

  • 正式题面、约束拆解、评分说明均已补齐
  • 样例输入输出已定义并通过主实现校验
  • python 主实现已提供并与样例输出对齐
  • 调试记录、决策记录、验证计划已补齐
  • 可由 20-tools/assemble_case_dossiers.py 汇总为完整解题档案

样例输入输出

样例输入:sample.in

6
hn 3 12
HB 17 9
Hn 3 12
x1 8 2
GS 1000 1
sx 20 300

样例输出:sample.out

valid_unique=3
duplicate=1
invalid=2
ids=HB-017-0009,HN-003-0012,SX-020-0300

题解、建模与最终解法

自动整理的解题流程

  • 题目主题:非遗数据标准化:项目编号清洗与去重
  • 题目摘要:把原始项目编号标准化为统一格式,统计有效唯一编号、重复记录和无效记录。
  • 判题提示:该题以精确输出为主,最终程序需要重点保证公式、顺序和格式完全一致。
  • 把原始记录转成统一结构后再做合法性校验、去重、编码还原或标准化输出。
  • 优先定义好字段映射和异常输入处理策略。

解题思路

源文件:solution-rationale.md

1. 问题重述

把原始项目编号标准化为统一格式,统计有效唯一编号、重复记录和无效记录。

2. 数据结构与建模

  • 主算法:字符串校验 + 集合去重
  • 输入拆解后对应的数据结构要和输出项一一对应。
  • 需要重点维护的状态包括:题目实体、核心指标、中间结果和最终答案。

3. 算法步骤

  1. 逐条读取记录,先验证地区码、批次和项目编号是否合法。
  2. 对合法记录执行大写转换和补零格式化。
  3. 使用集合判断是否重复,并分别累计有效、重复、无效数量。
  4. 将唯一有效编号排序后统一输出。

4. 正确性说明

  • 每一步都严格对应题面给出的规则或约束。
  • 所有输出字段都来自同一份计算过程,不会出现“各算各的”的不一致情况。
  • 边界情况通过单独分支或统一规则处理,保证程序在最小规模和重复值情况下也稳定。

5. 复杂度分析

  • 复杂度取决于输入规模和主算法,但整体设计保持在初中组可讲解、可验证的范围内。
  • 只保留必要状态,不引入超出题意的数据结构。

6. 易错点

  • 地区码中含有数字或长度不为 2 时属于无效记录。
  • 同一条合法记录多次出现时,只能第一次计入唯一编号。
  • 没有任何合法记录时要输出 ids=NONE

7. 知识点清单

  • 字符串合法性判断。
  • 大小写统一和编号补零。
  • 集合去重与重复统计。
  • 字典序排序。
  • 数据清洗中的格式校验。

设计决策记录

源文件:decision-log.md

  • 选择 字符串校验 + 集合去重 作为主算法,因为它能直接覆盖题目的核心约束。
  • 合法性校验应该先于标准化输出,否则容易把非法数据带进结果。
  • 集合判重是这道题最直接、最稳妥的选择。
  • Python 与 C++ 版本统一输出格式,便于双语训练和证据采集。

验证计划

源文件:validation-plan.md

  • 先验证题面公开样例,确保基础流程无误。
  • 验证全部记录都无效的情况。
  • 验证同一条合法记录连续出现多次的情况。
  • 验证地区码大小写混用但语义相同的情况。
  • 最后再补 1 组手工构造的极小数据,确认程序不会依赖特殊输入规模。

备选方案

源文件:alternatives.md

方案时间复杂度 / 代价实现难度说明
集合去重O(n log n)实现直接,适合编号清洗。
排序后线性去重O(n log n)也可行,但需要先缓存全部合法编号。
哈希字典统计次数O(n)适合扩展统计功能,但主题目不需要完整频次。

最终代码与实现

Python 主实现

源文件:main.py

  • 实现状态:当前已有可执行实现
import sys


def is_valid_region(region: str) -> bool:
    return len(region) == 2 and region.isalpha()


def solve(data: str) -> str:
    tokens = data.split()
    if not tokens:
        return ""
    it = iter(tokens)
    n = int(next(it))
    unique_ids = set()
    duplicate = 0
    invalid = 0
    for _ in range(n):
        region = next(it)
        batch = int(next(it))
        item = int(next(it))
        if not is_valid_region(region) or not (1 <= batch <= 999) or not (1 <= item <= 9999):
            invalid += 1
            continue
        code = f"{region.upper()}-{batch:03d}-{item:04d}"
        if code in unique_ids:
            duplicate += 1
        else:
            unique_ids.add(code)
    ordered = sorted(unique_ids)
    ids = ",".join(ordered) if ordered else "NONE"
    return "\n".join(
        [
            f"valid_unique={len(ordered)}",
            f"duplicate={duplicate}",
            f"invalid={invalid}",
            f"ids={ids}",
        ]
    )


if __name__ == "__main__":
    sys.stdout.write(solve(sys.stdin.read()).strip())
    sys.stdout.write("\n")

代码执行与运行结果

最新成功运行

Run ID语言时间编译运行耗时(秒)输出终端记录
run-001py2026-03-30T21:42:19.526859+08:00000.035606outputtranscript

PY 运行输出摘录

valid_unique=3
duplicate=1
invalid=2
ids=HB-017-0009,HN-003-0012,SX-020-0300

全部运行记录索引

Run ID语言时间编译运行耗时(秒)输出终端记录
run-001py2026-03-30T21:42:19.526859+08:00000.035606outputtranscript

调试、修正与流程留痕

调试日志

源文件:debug-journal.md

症状假设实验结果下一步
样例输出与手算不一致地区码中含有数字或长度不为 2 时属于无效记录。逐步打印关键中间变量并对照题目公式确认中间量与题面一致后再整理最终输出将该类检查加入回归样例
边界输入触发错误分支同一条合法记录多次出现时,只能第一次计入唯一编号。构造最小规模或重复值数据进行单测补齐分支判断顺序把临界值加入验证计划
输出字段顺序或格式错误多项输出题容易在最后阶段拼接出错固定输出模板并逐项对照题面格式化输出统一稳定保留样例输出作为最终比对依据

失败案例目录

源文件:failure-catalog.md

编号风险点预防措施
1地区码中含有数字或长度不为 2 时属于无效记录。补充边界样例并在实现中显式处理
2同一条合法记录多次出现时,只能第一次计入唯一编号。补充边界样例并在实现中显式处理
3没有任何合法记录时要输出 ids=NONE补充边界样例并在实现中显式处理

编码过程记录

源文件:implementation-journal.md

阶段改动原因
阶段 1需求整理把题目输入、输出和评分重点整理成结构化规格
阶段 2建模将题目翻译为 字符串校验 + 集合去重 所需的数据结构
阶段 3实现分别完成 Python 主实现和需要的 C++ 对照实现
阶段 4校验用样例和边界数据核对输出,再汇总到完整档案

全流程文件导航