作为一名在智能物联领域深耕20余年的科技工作者,浙江宇视科技有限公司研究院院长、杭州电子科技大学教授周迪自担任全国人大代表以来,脑海里便装下了一个又一个科技“金点子”。在数字浪潮奔涌而至的当下,他对新技术如何赋能千行百业思考得更深入了。
“档案部门作为国家基础性、战略性信息资源的保管者,不仅是AI(人工智能)技术的应用者,更应当是AI治理的参与者和示范者。”周迪在今年全国两会期间接受本报记者专访时表示。
近年来,随着全球人工智能领域竞争的日趋激烈,语料库的规模和质量越来越成为牵动人工智能大模型发展的“牛鼻子”。由于中文互联网起步较晚,缺乏深厚、优质的内容积淀,大大制约了我国人工智能大模型的技术创新和国际竞争力提升。破局的关键点在哪?周迪将目光瞄向了档案。
国家档案局公布的最新数据显示,全国各级综合档案馆馆藏档案13.8亿卷(件)、纸质馆藏资料4513.2万册、馆藏电子档案2812.7TB。如此宏大的体量,加之原始记录的真实属性和凭证价值的信用背书,档案部门无疑是人工智能大模型所需的高质量语料的天然产地。
周迪表示,档案部门想做好“语料供应方”,既要练好内功,又要搞好外联。他敏锐地发现,很多档案资料为手写体、繁体字或扫描件,属于典型的非结构化数据,机器难以直接读取。他提出,要利用OCR(光学字符识别)、NLP(自然语言处理)等技术,开展大规模的档案全文识别与语义分析,深挖档案中的实体、关系与事件,并将图像数据转化为文本数据,把“沉睡的图片”转化为“可计算的语料”。同时,针对文书、图纸、音像等不同类型的档案,建立多模态语料标准,确保供给的语料“机器可读、算法可用”。此外,应主动对接国家公共数据开放平台,将经过脱敏、可公开的婚姻、学籍、工龄等民生档案转化为标准化的AI训练数据,并在参与公共数据开放时,对符合条件的档案数字资源进行授权运营,以实现数据价值最大化。
在周迪看来,AI技术的落地除了依托高质量的数据,还需要统一的接口。“我们在调研中发现,目前各地、各行业档案数字化程度和标准并不统一,如扫描件分辨率、元数据著录规则、档案数据要素分析颗粒度等,这直接影响了AI识别和训练的准确率。”为此,他建议,制定档案管理系统与AI算法平台之间的通用接口标准,打破“数据孤岛”,避免各地重复建设不兼容的系统,实现跨馆、跨地区档案数据的互联互通。针对不同的应用场景,如手写体OCR、音视频字幕生成、知识图谱构建、敏感词过滤等,制定具体的技术参数要求和准确率验收标准。
AI的应用既是发展的助推器,也是风险的集聚场。如何筑牢档案安全的“铜墙铁壁”?怎样规避数据伦理中的价值偏见?习惯于用技术理性逻辑分析问题的周迪给出了他的解决方案——
划定数据红线,明确规定哪些档案数据可以用于公有云大模型训练,哪些只能在本地进行私有化部署。建立“人机协同”审核机制,对AI生成的资政辅政决策建议、开放档案划控鉴定、辅助编研成果等内容,明确档案员在AI应用中的最终责任。加强算法安全管理,对应用于档案行业的AI算法进行安全评估和备案,杜绝算法被恶意攻击导致数据泄露或档案篡改。防止算法偏见,在训练数据的选择上,保证档案样本的多样性,避免因历史数据的不平衡导致AI在档案鉴定或开放过程中产生伦理偏见或歧视。
“从相加到相融,档案与AI要想默契地携手共舞,还需要很长的一段磨合期。”周迪的话语中透着理性和务实。他建议,档案部门与高校、科研机构、头部AI企业共建档案AI联合实验室。针对档案手写体识别、档案历史文献修复辅助、多语种翻译等“卡脖子”技术开展攻关,深度探索档案富矿,为人工智能大模型筑基。同时,在科研阶段就植入“伦理审查”和“安全设计”,确保技术产出即合规。此外,还需依托行业学会,积极参与国家层面的AI伦理规范制定。特别是在AIGC(人工智能生成内容)领域,对于AI生成的“虚拟档案”或“编研内容”,如何打上不可篡改的AI生成标签,防范语料污染、防止历史虚无主义。这既是档案部门的使命所在,也是发挥优势贡献智慧的重要课题。
原载于《中国档案报》2026年3月9日 总第4411期 第一版
办公室及展览预约电话:027-82812716
值班电话:027-82834953(夜间、节假日)
档案馆查阅咨询电话:027-82812709
档案征集咨询电话:027-82464201
Copyright © 2020 武汉市档案馆 版权所有 湖北省武汉江岸区怡和路59号
鄂ICP备19019621号-1
鄂公网安备 42010202002201号
读档
武汉档案