访问方式
公开访问
点击此处进入数据库
数据库简介
“识典古籍”是由“北京大学-字节跳动数字人文开放实验室”研发的古籍数字化阅读平台,2022年10月上线,平台涵盖了390部经典古籍,主要来自《四部丛刊》,共计3000多万字,实现了借助现代技术对中国经典古籍的数字化呈现。目前(2023年10月)典籍数量已达1600余部。未来几年内,平台还将陆续完成10000种古籍的智能化整理,基本覆盖儒家、道家和佛学的核心典籍目录。
“识典古籍”将人工智能和大数据应用在海量的古籍文献上,使用文字识别、自动标点、命名实体识别技术,实现了对古籍内容的智能化整理和古文本知识图谱的自动生成。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉,当前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。与其他古籍数字化平台相比,“识典古籍”具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。