腾讯混元、SSV数字文化实验室和SSV技术架构部联合安阳师范学院甲骨文信息处理重点实验室、中科院信工所、南开大学,正式推出 Chronicles-OCR——业界首个覆盖"七体之变"完整演化轨迹的中国古文字感知评测基准。
数据来源全部来自顶级机构与古文字学专家:
- 甲骨文 → 安阳师范学院甲骨文信息处理重点实验室
- 金文、篆书 → 古文字学博士与研究生团队人工整理
- 隶、楷、行、草 → 故宫博物院文物手写体识别测试数据集
整个数据集由领域专家多层级交叉标注,包含 2,800 张严格平衡的高质量图像(每种字体 400 张)。

不同时代的汉字"难"在不同的地方,所以评测方式必须分阶段定制。项目团队为不同字体设计了两套标注体系:
1. 古早字体(甲骨、金文、篆书):字符级精细标注
由于古早字体形态高度不稳定、布局无约束、载体噪声严重,其提供:
- 单字级 bounding box
- 现代汉字映射(字一对一翻译到现代汉字)
- 对学界至今未释读的字符,统一标记为 [UNK]
- 段落级阅读顺序
2. 成熟字体(隶、楷、行、草):序列级转写
由于成熟字体已具备相对稳定的版式与高字间区分度(尤其草书是连笔的,强行框字反而错),我们采用:
四大核心任务
基于上述标注设计了四个层层递进的任务,严格地把"视觉感知"和"语义推理"解耦开来:
|
任务
|
适用字体
|
评测指标
|
考察能力
|
|
Cross-period Character Spotting 跨时代字符检测
|
甲骨/金文/篆书
|
H-mean (IoU>0.75 + 字符正确)
|
端到端定位 + 释读
|
|
Fine-grained Archaic Character Recognition 细粒度古字识别
|
甲骨/金文/篆书
|
Exact Match
|
用 visual referring 隔离纯字形映射
|
|
Ancient Text Parsing 古文转写
|
全部七体
|
NED(归一化编辑距离)
|
阅读顺序 + 整段释读
|
|
Script Classification 字体分类
|
全部七体
|
Accuracy
|
宏观字体风格判别
|
在对 GPT-5、Gemini3.1Pro、Claude Opus4.7 等 28 个主流的开源与闭源多模态大语言模型进行评测发现:在古早字体上,端到端检测任务由于缺乏现代版式先验而导致主流模型全军覆没;在细粒度识别中,最高准确率仅为27.1%;在字体分类任务中,模型倾向于识别载体纹理而非微观笔画。值得注意的是,实验表明开启推理(Reasoning)模式反而会放大感知不确定性,导致表现下降。
一个真正全能的 AI, 不仅要能识别屏幕上跳动的代码, 也要能看懂一片三千年前龟甲上的刻痕。
汉字之所以是汉字,是因为它从未停止演化。从殷墟的甲骨到此刻你手机屏幕上的这段文字,每一笔每一画都承载着这个文明的连续性。让 AI 看懂这条连续性,是技术问题,更是文化课题。
Chronicles-OCR 揭示了一个不容回避的现实:今天最顶尖的视觉大模型,还远远没有真正读懂我们的祖先。但正因为差距清晰可见,下一步的方向也才足够明确。
我们希望 Chronicles-OCR 能成为推动这一方向的一块基石——让模型从识字开始,最终学会读史。