摘要:目的 挖掘《本草集要》语义概念出现规律及其之间的相互关系,分析《本草集要》语义特征。方法 以明刊本《本草集要》为研究对象,采用文本挖掘与语义网络构建方法,对《本草集要》中字频、中药频数及常用中药药性、采收时间、性味用量、用药对象频数,以及治疗各类病症频数、病症部位频数、功效频数、关联网络构建进行分析。结果 《本草集要》中使用频率最高的字是气,出现频次最高的中药是甘草,其次是黄连、黄芩等清热解毒中药;对中药毒性、采收季节、药物作用的人体部位及对妇女和小儿用药特别重视,对中药治疗疼痛性病症记载较多;从关联网络图中可以看出,寒热、邪气、妇人等词与其他语义词的相关关系较为密切。结论 以上特征对理解《本草集要》语义内容,把握全书的学术思想,以及临床医师临证处方用药具有一定指导意义。 关键词:本草集要;文本挖掘;关联网络 DOI:10.3969/j.issn.1005-5304.2015.12.009 中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2015)12-0034-04 Analysis on Semantic Contents and Medication Characteristics of Ben Cao Ji Yao Based on Text Mining QU Yi (Eye Institute of Shandong University of Traditional Chinese Medicine, Jinan 250002, China) Abstract:Objective To mine appearing laws of semantic concepts and their mutual relations in Ben Cao Ji Yao. Methods The Ming edition of Ben Cao Ji Yao was set as study object. Text mining method and semantic network construction method were used to analyze word frequency, TCM frequency, properties of commonly used TCM, harvesting time, property and flavor, medication object frequency, frequency for the treatment of a variety of diseases, frequency of disease parts, efficacy frequency and associated network construction. Results The most frequently used word is qi;Chinese herbal medicine with the highest frequency is Glycyrrizae Radix et Rhizoma, followed by clearing heat and detoxifcation medicine, such as Coptidis Rhizoma and Scuteliariae Radix. The book attached much importance to the toxicity of Chinese herbal medicine, harvest season and medicine effects on human body. The medication for women and children were paid more attention. The most special part of this book is the large amount of recordings about TCM treatment for diseases with many pains. The close relationship of cold-hot, pathogenic factors and woman with other words can be seen from the associated network graph. Conclusion The above characteristics are important for clinic doctors to understand and grasp the semantic contents and academic thoughts of Ben Cao Ji Yao, which also can provide guiding significance for clinical prescription and medication of clinical doctors. Key words:Ben Cao Ji Yao;text mining;associated network 《本草集要》8卷,明代王纶编纂,成书于明弘治十三年(公元1500年)。主要集自《证类本草》及朱丹溪、李东垣之书,删繁集要,编纂而成。上部卷一为总论,集录《证类本草》卷首之总论及采《内经》、东垣诸说有关本草者,如《神农本草经》序例、陶弘景等论汤药丸散之分量修治、制方用药之法等,为本草之源。中部卷二至卷六,为取《证类本草》及东垣、丹溪诸书参互考订,削其繁芜,节其要略,删成五卷,载药545种,仿《证类本草》,分草、木、菜、果、谷、石、兽、禽、虫鱼、人等部。每药之下,述君臣佐使、性味归经、阴阳、良毒、畏反等;后列主治、单方,节录前人论述;末为王氏按语。卷七至卷八为药性分类,仿《证类本草》卷二病原所主药名写成。卷七治气、治寒、治血、治热、治痰、治湿六门,卷八治风、治燥、治疮、治毒、妇人、小儿六门。门下分类,如治痰门有治热痰虚痰药、治湿痰行痰药、治寒痰风痰药、消克痰积药,各类列相应药物,简述药性,临床用药之际,便于检索。虽本书的宗旨是集要而便于初学,但论述斯为详备,加之文义古奥,理解起来会有一些困难。本研究以《本草集要》为研究对象,采用文本挖掘和语义网络构建方法[1-2],挖掘《本草集要》中语义概念之间的关联关系,了解语义内容的特征和规律,为研究《本草集要》提供参考。1 资料与方法 1.1 文献录入与文本数据处理 以《本草集要》朱廷立本为底本,以中国中医科学院图书馆藏明刊本为对校本,参校以上海中医药大学图书馆藏明刊本、《证类本草》卷首及《神农本草经》序例,结合本校和理校,对全书进行了文字录入和精细的校勘,将录入校对后文本信息转化为平面文件。应用ROST Content Mining System 6.0统计字频,并根据中药相关语义进行人工分词。分词后进行词频分析,应用ROST Content Mining System 6.0对平面文件文档进行词频统计、提取,构建之乎者也等停用词表,剔除之乎者也之类的虚词,生成高频词表,分析《本草集要》中中药相关信息。 1.2 关联网络的构建 运用共现分析方法中的共词分析(Co-word analysis)方法,根据统计学聚类分析的方法研究文本中知识单元的共现分布特征[3],应用ROST Content Mining System 6.0形成高频词的共现矩阵。在网络中,以中药名称等高频词作为网络中的节点,以各种中药及相关语义信息之间关联关系作为网络中的边,将共现矩阵导入Cytoscape 软件[4]进行可视化处理。 2 结果 2.1 《本草集要》字频分析 通过对《本草集要》字频分析,发现《本草集要》中使用频次最高的是气,体现《本草集要》对药物之气人身之气的高度重视;另一个出现频次较高的字是血。通过字频分析发现,《本草集要》对气血的重视与中医认为气血调和对人体健康具有重要意义的理论是一致的。此外,毒热风寒疮痛等字出现的频次也较高。按出现频次排序,前30位字频见表1。 2.2 中药频数分析 通过对中药频数的分析,结果发现,出现频次最高的是甘草,其次是黄连黄芩等清热解毒中药,再次是生姜大黄黄檗等。按出现频次排序,前20位中药见表2。总的来看,《本草集要》比较重视收集寒性中药。从功效来看,清热中药和温中及调和气血的中药出现频次较高。 表1 《本草集要》字频分析(排序前30位) 表2 《本草集要》中药频数分析(排序前20位) 2.3 常用中药药性、采收时间及性味用量等分析 通过《本草集要》词频分析,发现其中无毒387频次,有毒83频次,气温142频次;对中药采收季节和阴干加工特别重视,五月43频次,三月26频次,八月15频次,七月13频次,四月12频次,二月10频次,九月9频次,提到阴干102频次;另对中药性味的记载,包括大寒辛甘18频次,辛苦17频次。 2.4 用药对象频数分析 通过词频分析,发现《本草集要》对妇女记载达到190频次(包括妇人105频次,女子64频次,女人21频次),小儿出现182频次,而男人只有46频次(丈夫15频次,男子31频次),对大人记载只有14频次。 2.5 治疗各类病症频数分析 通过对《本草集要》各类病症的统计分析,发现《本草集要》中记载的病症主要有5类,包括内科杂病(见表3)、外感时疫(见表4)及妇科病症、外科病症、疼痛病症(见表5),总频次达182次,这是《本草集要》的一大特征。 表3 《本草集要》记载内科杂病频数分析 表4 《本草集要》记载外感时疫频数分析 表5 《本草集要》记载妇科、外科、疼痛病症频数分析 序号 妇科病症 外科病症 疼痛病症 病名 频次 病名 频次 病名 频次 1 产后 81 金疮 129 头痛 67 2 妊娠 18 脓血 44 疼痛 32 3 血崩 18 痈疽 28 心痛 31 4 月经 12 口疮 27 腰痛 28 5 难产 11 痔瘘 16 酸疼 13 6 息肉 10 风痛 11 2.6 治疗病症部位频数分析 《本草集要》对于药物作用的人体部位也比较重视,共涉及26个相关的人体部位,大到心腹、四肢,小到筋骨、目中,这种对中药作用部位的详尽描述对临床组方选药具有重要参考意义。频次10的病症部位见表6。 表6 《本草集要》治疗病症部位频数分析(频次10) 2.7 功效频数分析 《本草集要》对于中药功效共有18个相关记载,其中出现频次最高的是益气,其次是止痛,体现了本书对中药调和气血,以及治疗痛疼病症的重视。见表7。 表7 《本草集要》中药功效频数分析 2.8 关联网络构建分析 以《本草集要》中高频知识信息及其之间的关联关系构建网络,应用ROST Content Mining System 6.0形成高频词的共现矩阵,将共现矩阵导入应用Cytoscape 2.7软件进行可视化处理,结果见图1。从关联网络图中可以看出有2个语义子网,一个是中药药性、有毒无毒及采摘时间等信息之间的关系,另一个是中药功效、主治等相关信息之间的语义网络关系图。结果发现,寒热、邪气、妇人等词与其他语义词相关关系较为密切,妇人-产后-血晕关系密切,同时妇人与血气也具有一定关系。 图1 《本草集要》高频词关联网络关系图 3 讨论 文本挖掘的对象是非结构化或半结构化,可以从数以百万计的文本数据中寻找潜在规律和趋势[5]。中医古籍文本挖掘研究非常少,其中一个难点就是中文分词问题,本研究经过咨询相中医文献专家,根据《本草集要》词义特征,采用人工分词方法,避免机器分词出现的分词错误。《本草集要》宗旨是集要而便于初学,各类列相应药物,简述药性,便于临床选药。通过文本挖掘,我们发现《本草集要》中使用频次最高的字是气血,出现频次最高的中药是甘草,其次是黄连、黄芩等清热解毒中药;同时还发现《本草集要》对中药毒性、采收季节很重视,而且对妇女和小儿用药特别重视;《本草集要》中记载的病症主要有5类,包括内科杂病、外感时疫、妇科病症、外科病症及疼痛病症,对于药物作用的人体部位也比较重视,尤其比较特殊的是对疼痛性病症记载较多;从关联网络图中可以看出,寒热、邪气、妇人等词与其他语义词相关关系较为密切。这些结果反映了《本草集要》重视气血。中医学认为,气与血各有其不同作用而又相互依存,以营养脏器组织,对维持生命活动具有重要意义,气血出现病变,会造成人体产生多种疾病,如气血亏虚、气机不畅、气虚血瘀等病证。《本草集要》还注重临床实用性,很多中药都明确记载有毒无毒、用药对象及作用部位对临床的重要性,为临床用药提供了很好的参考。本文本挖掘结果对理解《本草集要》语义内容、把握全书的学术思想,以及指导临床医师临证处方用药具有重要意义。提示将文本挖掘研究方法用于中医古籍文献的分析具有较好的前景和意义。 参考文献: [1] Fu XJ, Wang ZHG, Qu Y, et al. Study on the networks of nature- family-component of Chinese medicinal herbs based on association rules mining[J]. Chinese Journal of Integrative Medicine, 2013,19(9):663-667. [2] 李梢.基于生物网络调控的方剂研究模式与实践[J].中西医结合学报, 2007,5(5):489-493. [3] Pippa Norris. Digital divide:Civic engagement, information poverty, and the internet world wide[M]. New York:Cambridge University Press,2001:1-3.