•  
  •  
 

Scientific Information Research

Keywords

digital humanity; computational humanity; ancient text mining;ancient text information processing

Abstract

[Purpose/significance]Adopting deep learning, natural language processing and other text mining technologies, methods and concepts to conduct text mining on a large number of ancient Chinese books is not only conducive to popularize the dissemination and popularize of Chinese traditional culture, but also playing an important role in enhancing the soft power of Chinese culture.[Method/process]On the basis of clarifying the concept of text mining in ancient books, grasp the application status of text mining technology in ancient books as a whole, algorithms, models, and tools widely used in ancient text mining are sorted out from five aspects:text feature extraction technology, vocabulary-level text mining technology, sentence-level text mining technology, chapter-level text mining technology, and knowledge organization and presentation.[Result/conclusion]This paper comprehensively sorts out the commonly used technologies in the field of ancient text mining comprehensively, analyzes the existing problems and gives the prospect.

First Page

78

Reference

[1] 黄水清,刘浏,王东波.计算人文的发展及展望[J].科技情报研究,2021,3(04):1-12. [2] 中华人民共和国中央人民政府.中共中央办公厅 国务院办公厅印发《关于推进新时代古籍工作的意见》[EB/OL].(2022-04-11)[2022-10-24].http://www.gov.cn/zhengce/2022-04/11/content_5684555.htm. [3] 郭金龙,许鑫.数字人文中的文本挖掘研究[J].大学图书馆学报,2012,30(03):11-18. [4] 欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016,42(02):66-80. [5] 郑双怡.文本挖掘及其在知识管理中的应用[J].中南民族大学学报(人文社会科学版),2005(04):127-130. [6] 魏晓萍.数字人文背景下数字化古籍的深度开发利用[J].农业图书情报学刊,2018,30(09):106-110. [7] 梅馨,邢桂芬.文本挖掘技术综述[J].江苏大学学报(自然科学版),2003(05):72-76. [8] 张丽丽.基于文本挖掘的喜马拉雅用户需求研究[D].上海:上海师范大学,2022. [9] 刘浏,李斌,曲维光,等.先秦词汇的时代特征自动获取及文献时代的自动判定[J].中文信息学报,2013,27(05):107-113. [10] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed Representations of Words and Phrases and their Compositionality[C]//Advances in Neural Information Processing Systems:Vol.26.Curran Associates,Inc.,2013. [11] 艾毓茜,徐健,何琳,等.面向典籍内容分析的分类体系构建方法研究[J].农业图书情报学报,2021,33(09):18-26. [12] GURURANGAN S,MARASOVIć A,SWAYAMDIPTA S,et al.Don't Stop Pretraining:Adapt Language Models to Domains and Tasks[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics,2020:8342-8360. [13] 王东波,刘畅,朱子赫,等.SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究[J].图书馆论坛,2022,42(06):31-43. [14] 孝一安岡,クリスティアンウィッテルン,知彦守岡,等.古典中国語(漢文)Universal Dependenciesとその応用[J].情報処理学会論文誌,2022,63(02):355-363. [15] TIAN H,YANG K,LIU D,et al.AnchiBERT:A Pre-Trained Model for Ancient Chinese Language Understanding and Generation[M].arXiv,2021. [16] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[M].arXiv,2019. [17] 刘畅,王东波,胡昊天,等.面向数字人文的融合外部特征的典籍自动分词研究:以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(06):44-54. [18] 梁社会,陈小荷.先秦文献《孟子》自动分词方法研究[J].南京师范大学文学院学报,2013(03):175-182. [19] 俞敬松,魏一,张永伟,等.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020, 34(06):1-8. [20] 王东波,黄水清,何琳.基于多特征知识的先秦典籍词性自动标注研究[J].图书情报工作,2017,61(12):64-70. [21] 张琪,江川,纪有书,等.面向多领域先秦典籍的分词词性一体化自动标注模型构建[J].数据分析与知识发现,2021,5(03):2-11. [22] 于江德,胡顺义,余正涛.三位一体字标注的汉语词法分析[J].中文信息学报,2015,29(06):1-7. [23] 杜悦,王东波,江川,等.数字人文下的典籍深度学习实体自动识别模型构建及应用研究[J].图书情报工作,2021,65(03):100-108. [24] 黄水清,王东波,何琳.基于先秦语料库的古汉语地名自动识别模型构建研究[J].图书情报工作,2015,59(12):135-140. [25] 刘江峰,冯钰童,王东波,等.数字人文视域下SikuBERT增强的史籍实体识别研究[J].图书馆论坛,2022,42(10):61-72. [26] 崔竞烽,郑德俊,王东波,等.基于深度学习模型的菊花古典诗词命名实体识别[J].情报理论与实践, 2020,43(11):150-155. [27] 李娜.面向方志类古籍的多类型命名实体联合自动识别模型构建[J].图书馆论坛,2021,41(12):113-123. [28] 谢靖,刘江峰,王东波.古代中国医学文献的命名实体识别研究:以Flat-lattice增强的SikuBERT预训练模型为例[J].图书馆论坛,2022(10):1-12. [29] 林立涛,王东波,刘江峰,等.数字人文视域下典籍动物命名实体识别研究:以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):42-50. [30] 秦贺然,王东波.数字人文下的先秦古汉语关键词抽取应用:以《春秋经传》为例[J].图书馆杂志,2020,39(11):97-105. [31] 王东波,陆昊翔,彭运海,等.面向《方志物产》的自动断句深度学习模型构建研究[J].中国科技史杂志, 2022,43(02):192-203. [32] 王倩,王东波,李斌,等.面向海量典籍文本的深度学习自动断句与标点平台构建研究[J].数据分析与知识发现,2021,5(03):25-34. [33] 赵连振,张逸勤,刘江峰,等.面向数字人文的先秦两汉典籍自动标点研究:以SIKU-BERT预训练模型为例[J].图书馆论坛,2022,42(12):120-128,137. [34] 黄建年.农业古籍的计算机断句标点与分词标引研究[D].南京:南京农业大学,2009. [35 张开旭,夏云庆,宇航.基于条件随机场的古汉语自动断句与标点方法[J].清华大学学报(自然科学版),2009,49(10):1733-1736. [36] 王瑶,顾磊.基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点[J].软件导刊,2022,21(09):7-13. [37] 庄百川.基于深度学习的古文自动断句与标点研究[D].武汉:武汉邮电科学研究院,2022. [38] 洪涛,程瑞雪,刘思汐,等.一种基于Transformer模型的古籍自动标点技术[J].数字人文,2021(02):111-122. [39] 毕梦曦,张力元.机器学习方法对不明归属二程文献的判断[J].数字人文研究,2021,1(02):21-35. [40] 王东波,高瑞卿,沈思,等.基于深度学习的先秦典籍问句自动分类研究[J].情报学报,2018,37(11):1114-1122. [41] 胡昊天,张逸勤,邓三鸿,等.面向数字人文的《四库全书》子部自动分类研究:以Siku BERT和Siku Ro BERTa预训练模型为例[J].图书馆论坛,2022,42(12):138-148. [42] 周好,王东波,黄水清.古籍引书上下文自动识别研究:以注疏文献为例[J].情报理论与实践,2021,44(09):169-175. [43] 梁媛,王东波,黄水清.古籍同事异文的自动发掘研究[J].图书情报工作,2021,65(09):97-104. [44] 刘颖.统计语言学[M].北京:清华大学出版社,2014. [45] 陈炳藻.从词汇上的统计论《红楼梦》的作者问题[C]//首届国际《红楼梦》研讨会,美国威斯康星大学.1980:1-10. [46] 刘颖,肖天久.《红楼梦》计量风格学研究[J].红楼梦学刊,2014(04):260-281. [47] 李宗怡.数字人文视角下史书注解识别研究[D].南京:南京农业大学,2022. [48] 郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(02):14-17,38. [49] 陈诗,王东波,黄水清.数字人文下的典籍人称代词指代消解研究[J].情报理论与实践,2021,44(10):165-172. [50] 崔斌,王东波,黄水清.基于典籍文本的农作物时间分布及演化特征研究:以《食货志》为例[J].图书情报工作,2021,65(14):90-100. [51] 张琪.《史记》多维知识组织与可视化研究[D].南京:南京农业大学,2020. [52] 喻雪寒,何琳,徐健.基于RoBERTa-CRF的古文历史事件抽取方法研究[J].数据分析与知识发现,2021,5(07):26-35. [53] 李章超,李忠凯,何琳.《左传》战争事件抽取技术研究[J].图书情报工作,2020,64(07):20-29. [54] 徐润华,王东波,刘欢,等.面向古籍数字人文的《资治通鉴》自动摘要研究:以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(12):129-137. [55] 黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(03):4-17,87. [56] 严顺.先秦文献的语料库构建探究[J].江苏科技信息,2016(12):32-33. [57] 林立涛,王东波,刘江峰,等.数字人文视域下典籍动物命名实体识别研究:以Siku BERT为例[J].图书馆论坛,2022(10):1-9. [58] 梁继文.基于多模型的先秦典籍汉英平行语料句子对齐研究[D].南京:南京农业大学,2019. [59] 马创新,陈小荷,曲维光,等.《论语》与其注疏文献对齐语料库的构建[J].现代教育技术,2012,22(07):109-113. [60] 纪有书,王东波,黄水清.基于词对齐的古汉语同义词自动抽取研究:以前四史典籍为例[J].数据分析与知识发现,2021,5(11):135-144. [61] 刘浏.古汉语典籍中的实体知识挖掘研究[D].南京:南京大学,2018. [62] 李斌,王璐,陈小荷,等.数字人文视域下的古文献文本标注与可视化研究:以《左传》知识库为例[J].大学图书馆学报,2020,38(05):72-80,90. [63] 何琳,陈雅玲,孙珂迪.面向先秦典籍的知识本体构建技术研究[J].图书情报工作,2020,64(07):13-19. [64] 常博林,万晨,李斌,等.基于词和实体标注的古籍数字人文知识库的构建与应用:以《资治通鉴·周秦汉纪》为例[J].图书情报工作,2021,65(22):134-142. [65] 郑童哲恒,李斌,冯敏萱,等.历史典籍的结构化探索:《史记·列传》数字人文知识库的构建与可视化研究[J].大数据,2022,8(06):40-55. [66] LI D,MEI H,SHEN Y,et al.ECharts:A declarative framework for rapid construction of web-based visualization[J].Visual Informatics,2018,2(02):136-146. [67] 张琪,王东波,黄水清,等.时间维度下的史籍全文自动重组研究:数字人文视角下的探索[J].图书情报知识,2022,39(01):51-60,147. [68] MILLER J J.Graph database applications and concepts with Neo4j[C]//Proceedings of the southern association for information systems conference,Atlanta,GA,USA Mach.23rd-24th,2013. [69] 魏希德,陈大龙.中文与韩文数据集的创建、关联与分析:用MARKUS与COMPARATIVUS进行数字文本标注[J].数字人文,2021(03):28-36. [70] 范文洁,李忠凯,黄水清.基于社会网络分析的《左传》战争计量及可视化研究[J].图书情报工作,2020,64(06):90-99. [71] 袁悦.面向实体抽取的先秦典籍词性标记方法研究[D].南京:南京农业大学,2019.

Share

COinS