10月11日,由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。目前,该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。据相关负责人介绍,未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时也将全部免费开放。
据了解,上述实验室系今年3月北京大学与字节跳动合作成立,将人工智能技术应用于古籍资源的智能化整理。“识典古籍”平台上线,即是双方合作的最新进展,免费且智能开放是这一平台的特色。
活动相关海报
据“识典古籍”项目负责人介绍,该平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉,目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。
与其他古籍数字化平台相比,“识典古籍”具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,与一些收费型古籍平台相比,免费而且开放的特点更利于专业研究人员、广大古籍爱好者使用。
“识典古籍”网页截图
未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。
编辑: 审编:admin
中国公益新闻网版权及免责声明:
1、凡本网来源注明“中国公益新闻网”的所有新闻稿件和图片作品,版权均属于中国公益新闻网,未经本网授权,任何单位及个人不得转载、摘编或以其它方式使用上述作品。已经本网授权使用新闻稿件和图片作品的,应在授权范围内使用,并注明“来源:中国公益新闻网”。违反上述声明者,本网将追究其相关法律责任。
2、凡本网注明 “来源:XXX(非中国公益新闻网)”的新闻稿件和图片作品,系我方转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因新闻稿件和图片作品的内容、版权和其它问题需要同本网联系的,请在15个工作日内告知我方。
4、联系方式:中国公益新闻网 电话:010-57256752 电子邮件:450952431@qq.com