通过一年多的努力,我们不断地进行数据筛选、数据清洗、数据格式标准化等操作,通过计算机与人工的方式,处理得到了49493个处方,包括2284味中药材和2509个中医症状与病名。这些处方均来源于1459种医书,包括《圣济总录》、《圣惠》、《普济方》、《外台》、《千金》、《医方类聚》等等。 注意:关于数据集详情可点击菜单栏中的数据集部分。
通过一年多的时间,我们利用计算机辅助和人工处理了84463个药方。通过对所有药方进行一个全面分析,我们发现了很多不好的情况,比如:药材名不完整,药材名存在错别字,药材名无法查明真实性,药方中的药材剂量缺失,药方对应的主治描述为空或者无法用症状词条表示等等。通过计算机辅助的方式,我们会将存在上述情况的药方进行删除,并处理好其余的药方。 通过多次筛选工作,我们最终保留了49493个处理完成的药方,作为我们接下来实验研究的主要数据集。我们从这个数据集中我们总共分离出了2284种不同的中药药材。数据集中所有的中药药材均可在下面的挑选框中查看。 在下拉框中可以根据药材的拼音首字母,来查看数所包含的药材。其中第一个下拉框为拼音首字母,选择一个首字母就会在第二个下拉框中显示对应的所有药材。
我们接下来要对这49493个药方的主治描述部门进行人工标注。所有药方的主治描述是由一段非结构化的病症描述组成,这样格式的数据无法直接被用于药方规律的实验研究。 通过长时间的人工处理,我们将这些非结构化的主治描述标注为一个个症状标签,用症状集合来表示药方对应的主治描述,可通过下方查看示例的处理结果。 在人工标注症状标签的过程中,我们发现存在大部分意思相近,但是表达方式不同的描述,我们将这些描述用一个统一的标签表示,同样数据集中存在症状标签偏旁不同,但是代指相同的症状,我们也统一标签表示。最终,对这49493个药方处理的结果进行症状数量统计,发现有2509个意思不同的症状标签。所有的症状标签按照中医领域中的部位进行分类,结果可通过症状标签选择框查看。
Copyright © 2022 College of Intelligence and Computing, Tianjin University All rights reserved.