全国人大代表周迪建议建立档案AI联合实验室破解人工智能大模型“语料荒”-武汉市档案馆

行业动态

全国人大代表周迪建议建立档案AI联合实验室破解人工智能大模型“语料荒”

发布时间：2026-03-09 11:10 来源：中国档案报

作为一名在智能物联领域深耕20余年的科技工作者，浙江宇视科技有限公司研究院院长、杭州电子科技大学教授周迪自担任全国人大代表以来，脑海里便装下了一个又一个科技“金点子”。在数字浪潮奔涌而至的当下，他对新技术如何赋能千行百业思考得更深入了。

“档案部门作为国家基础性、战略性信息资源的保管者，不仅是AI（人工智能）技术的应用者，更应当是AI治理的参与者和示范者。”周迪在今年全国两会期间接受本报记者专访时表示。

近年来，随着全球人工智能领域竞争的日趋激烈，语料库的规模和质量越来越成为牵动人工智能大模型发展的“牛鼻子”。由于中文互联网起步较晚，缺乏深厚、优质的内容积淀，大大制约了我国人工智能大模型的技术创新和国际竞争力提升。破局的关键点在哪？周迪将目光瞄向了档案。

国家档案局公布的最新数据显示，全国各级综合档案馆馆藏档案13.8亿卷（件）、纸质馆藏资料4513.2万册、馆藏电子档案2812.7TB。如此宏大的体量，加之原始记录的真实属性和凭证价值的信用背书，档案部门无疑是人工智能大模型所需的高质量语料的天然产地。

周迪表示，档案部门想做好“语料供应方”，既要练好内功，又要搞好外联。他敏锐地发现，很多档案资料为手写体、繁体字或扫描件，属于典型的非结构化数据，机器难以直接读取。他提出，要利用OCR（光学字符识别）、NLP（自然语言处理）等技术，开展大规模的档案全文识别与语义分析，深挖档案中的实体、关系与事件，并将图像数据转化为文本数据，把“沉睡的图片”转化为“可计算的语料”。同时，针对文书、图纸、音像等不同类型的档案，建立多模态语料标准，确保供给的语料“机器可读、算法可用”。此外，应主动对接国家公共数据开放平台，将经过脱敏、可公开的婚姻、学籍、工龄等民生档案转化为标准化的AI训练数据，并在参与公共数据开放时，对符合条件的档案数字资源进行授权运营，以实现数据价值最大化。

在周迪看来，AI技术的落地除了依托高质量的数据，还需要统一的接口。“我们在调研中发现，目前各地、各行业档案数字化程度和标准并不统一，如扫描件分辨率、元数据著录规则、档案数据要素分析颗粒度等，这直接影响了AI识别和训练的准确率。”为此，他建议，制定档案管理系统与AI算法平台之间的通用接口标准，打破“数据孤岛”，避免各地重复建设不兼容的系统，实现跨馆、跨地区档案数据的互联互通。针对不同的应用场景，如手写体OCR、音视频字幕生成、知识图谱构建、敏感词过滤等，制定具体的技术参数要求和准确率验收标准。

AI的应用既是发展的助推器，也是风险的集聚场。如何筑牢档案安全的“铜墙铁壁”？怎样规避数据伦理中的价值偏见？习惯于用技术理性逻辑分析问题的周迪给出了他的解决方案——

划定数据红线，明确规定哪些档案数据可以用于公有云大模型训练，哪些只能在本地进行私有化部署。建立“人机协同”审核机制，对AI生成的资政辅政决策建议、开放档案划控鉴定、辅助编研成果等内容，明确档案员在AI应用中的最终责任。加强算法安全管理，对应用于档案行业的AI算法进行安全评估和备案，杜绝算法被恶意攻击导致数据泄露或档案篡改。防止算法偏见，在训练数据的选择上，保证档案样本的多样性，避免因历史数据的不平衡导致AI在档案鉴定或开放过程中产生伦理偏见或歧视。

“从相加到相融，档案与AI要想默契地携手共舞，还需要很长的一段磨合期。”周迪的话语中透着理性和务实。他建议，档案部门与高校、科研机构、头部AI企业共建档案AI联合实验室。针对档案手写体识别、档案历史文献修复辅助、多语种翻译等“卡脖子”技术开展攻关，深度探索档案富矿，为人工智能大模型筑基。同时，在科研阶段就植入“伦理审查”和“安全设计”，确保技术产出即合规。此外，还需依托行业学会，积极参与国家层面的AI伦理规范制定。特别是在AIGC（人工智能生成内容）领域，对于AI生成的“虚拟档案”或“编研内容”，如何打上不可篡改的AI生成标签，防范语料污染、防止历史虚无主义。这既是档案部门的使命所在，也是发挥优势贡献智慧的重要课题。

原载于《中国档案报》2026年3月9日总第4411期第一版

上一篇：对标政府工作报告档案工作与国家战略“双向奔赴”

下一篇：全国政协委员双传学建议让红色档案在与群众“握手”中焕发新生

首页

资讯中心

资讯中心

档案服务

档案服务

档案文化

档案文化

馆务公开

馆务公开

网上互动

网上互动

机关建设

机关建设

专题专栏

专题专栏