本月主题为“融合出版:从数字化到数智化”
赋能古籍新生·助力研学传承——尚古汇典·古籍技术产品
“尚古汇典·古籍数字服务平台”依托我社丰富优质的古籍资源,融合前沿古籍专项AI模型和OCR框架,深耕古籍整理全业务场景,打通数字化完整工作链路,研发了古籍OCR系统和古籍深度学习平台两大核心古籍技术产品。经古籍数字化项目落地验证,产品运行稳定高效,能够高质量协作完成古籍全流程数字化任务。
• 新注册“尚古汇典”用户可获得200页免费OCR识别额度。
• 已注册“尚古汇典”用户将自动发放100页免费OCR识别额度。
古籍OCR系统
“尚古汇典·古籍OCR系统”由我社自主研发,基于社内丰富的古籍资源与古籍数字化项目的实践经验,进行了专业化、精细化的产品打磨,实现了传统古籍整理核心环节的优化,适应新时代古籍数字化的发展。为古籍整理人员、文史专业研究者,提供便捷、高效的操作体验;为课题组、大型古籍项目搭建便于统筹管理、适配个性化项目流程、数据安全可靠的线上协同系统。
目前“尚古汇典·古籍OCR系统”根据用户的不同使用场景,开发了个人版和机构版两大版本。个人版满足个人研究者零散单篇的古籍识别处理需求,操作门槛低,获取方式便捷,能帮助个人用户快速完成古籍文字识别与校正工作。机构版则面向高校院系、科研院所、图书馆等专业机构的古籍整理项目,可根据具体项目规模、整理需求提供定制化的功能配置与部署方案,支持多人在线协同整理,适配机构长期、大规模的古籍数字化工作需求,能为机构用户搭建专属的古籍数字化整理工作流程,切实解决不同主体在古籍整理中的个性化痛点。
• 版式文字识别精准
“尚古汇典·古籍OCR系统”建立在高质量、大规模的古籍标注数据基础上,该系统适配古籍常见的刻本、抄本,支持行识别与字识别,通过对古籍数据不断地针对性训练,目前对常规刻本、抄本的版式和文字识别准确率已突破99%。
• 操作流程简易顺畅
通过图片上传识别——识别结果校正——文本导出三大核心环节,高效完成古籍数字化加工工作。
图片上传识别功能可自动裁切古籍常见的双栏、三栏版式图片,同时支持图片批量上传、识别与导出。
识别结果校正,支持版式校正、切字校正和文字校正。版式校正可适配正文、注释、标题、眉批、夹注、表格、插图等多种古籍版面;切字校正支持单字识别框的新增、删除调整;文字校正可实现页对页、列对列逐字校正,还可自定义识别可信度阈值,将低置信度文字高亮标注。选中单字时,系统会按置信度高低依次展示备选文字,方便校正人员参考。
完成校正工作后,用户可直接导出文本文件,方便开展后续的古籍整理研究工作。
系统配置方正超大字库,兼容Unicode15.0字符集,收录约10万汉字,妥善解决古籍中生僻字录入难题。整套系统操作简单易用,可切实提升古籍文字识别的处理效率与识别准确度。
以下功能仅对机构用户开放
• 项目管理高效简洁
在延续个人版OCR全部功能的基础上,机构版深度贴合古籍整理项目的管理需求,配置了高效简洁的项目管理后台,可适配各类差异化项目场景;同时为机构用户提供功能更完备、运行更高效的文字识别服务。
易错字提醒,用户可根据自身项目需求自定义易错字库,系统将在识别页面自动高亮标记库内设定的易错文字,便于校对核查。
字聚类功能,用户选定文本区域后,可将同一汉字对应的所有字图集中聚合展示,弥补了多数主流OCR仅能单页逐次校对的不足。该功能把繁杂的逐字校对简化为直观的比对查错,有效提升校正效率;同时支持在字聚类页面直接修改文字,操作简单便捷。
文本对比功能,依托分布式检索技术,可在海量高质量古籍数据中筛选相似文本,结合上下文等多维度综合比对验证,并自动给出修改参考建议。该功能打通了古籍大数据与传统古籍整理工作的壁垒,使智能勘误、多文本综合比对成为常态化辅助工具。
古籍深度学习平台
“尚古汇典·古籍深度学习平台”系专门为古籍领域构建的低代码/无代码人工智能平台,旨在实现无需进行编程操作,即可自主完成“数据标注——模型训练——功能部署”全链条智能作业。
该平台依托上海古籍出版社研发的高质量人工智能模型与数据资产,提供开箱即用的知识问答、版式检测、文字检测、文字识别、文本分类、命名实体识别等常见古籍相关训练服务。平台预置了近100个模型,涵盖Qwen3、SAM等主流开源大型模型以及YOLO、BERT、ViT等传统深度学习模型。平台可大幅降低数字人文研究的技术门槛,将重复性人工整理工作转为AI自动化处理,推动古籍图像、文字原始数据向结构化知识体系深度转化。
古籍OCR系统与深度学习平台是汇典两大核心技术产品,也是我社本月即将正式上线的“文渊阁《四库全书》AI+版数据库”项目建设的重要支撑。依托这两款产品的迭代研发,“尚古汇典・古籍数字服务平台”已完成全面升级,建成集古籍资源阅读检索、数字化加工、数据整合、成果发布于一体的综合性古籍数字服务体系。
后续我社将持续深耕古籍数字化核心技术研发,稳步优化、迭代产品性能,运用数智技术推动古籍整理标准化、文史研究智能化、传统文化传播大众化,为中华优秀传统文化创造性转化、创新性发展提供坚实的数智技术支撑。
相关回顾