当前位置: 首页 -科室建设 - 信息技术室 - 最新动态

TCMMiner系统更新中医药文本ETL模块功能

发布时间:2018年02月28日 来源: 信息技术室

TCMMiner已经于2018年2月27日进行了系统更新,改进了中医药文本ETL模块的功能,支持Pubmed文本转化成excel格式。

 

中医药数据挖掘系统(TCMMiner)是一个整合了数据清洗工具、数据挖掘工具和中英文翻译工具的平台,可以为中医药科研工作者提供数据清洗、数据挖掘计算以及翻译等服务。平台内置了中药标准表、证候标准表等中医药专业词表,可以支持用户进行中医药数的据规范化处理。此外,平台内置中医药专业词汇翻译表,可以为中医药专业文章的翻译提供有效工具。

 

【 系统特色工具简介】

数据拆分合并:在数据分析的过程中,经常需要对包含固定分割符的一组 数据,例如“草河车$白纸$防风$大黄$陈皮”、“桑皮$桑叶$桔红 $苏子$苏梗”……,进行中药名称的统计、替换、修正等操作。 那么我们首先就是要将这一组数据拆分成单个词组,然后进行统 计、替换、修正,最后再将改变后的词组合并成一组新的数据。 “数据拆分合并模块”将帮助您完成对一组包含固定分隔符的数 据的拆分与合并。

频次统计:在一篇文章中,经常会需要对一些词进行频次统计,如果文章很长,需要统计的词很多,那么您的工作量将会比较大。“频次统计模块”将帮助您轻松完成对一篇文档中特定的一些词的频次的统计。

正异名替换:在一篇文章中,经常会需要将一些不规范的名词批量替换为另外一些规范的名称。如果文章很长,需要替换的名词很多,那么您的工作量将会比较大。 “正异名替换模块”将帮助您轻松完成对一篇文档中特定的一些词的替换工作。

文本内容抽取:对于一组文本型数据,我们经常会需要将一些特定的名词 抽取出来进行挖掘分析,例如一个处方“铅丹 2 两(熬成屑), 珍珠 1 两,雄黄(研)1 两,水银(熬)1 两,雌黄 1 两,丹砂 半两(研)。”,我们需要抽取铅丹,珍珠,雄黄,水银,雌黄, 丹砂等中药名称。那么使用“文本内容抽取模块”可以轻松帮您解决这类问题。

矩阵转换:每个软件都需要不同的数据输入格式,例如 SPSS、 Rapidminer、Cytoscape 等的数据输入格式就各不相同。本模块可 以将一组具有固定符号分隔的数据转换成不同形式的矩阵格式, 包括数据矩阵、共现矩阵、边权矩阵等。此外,对于数据矩阵, 本模块还提供了逆矩阵计算,可以将数据矩阵转换成固定符号分 隔的数据。

关联规则挖掘:本系统使用的是 Apriori 算法。在使用时需要设置最小支持 度和最小置信度。支持度揭示了 A 和 B 同时出现的频率,置信 度揭示了 B 出现时,A 是否一定会出现,如果出现则其大概有多 大的可能出现。如果置信度为 100%,则说明了 B 出现时,A 一定出现。

聚类挖掘:本系统使用的是 k-means 算法。在使用时需要设置 k 值,即 聚类个数。K-means 算法是很典型的基于距离的聚类算法,采用 距离作为相似性的评价指标,即认为两个对象的距离越近,其相 似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把 得到紧凑且独立的簇作为最终目标。

专业文章翻译:本系统内置中医药专业词汇表,提供中英文的翻译功能。
 

 

 

所属网站
中国中医科学院图书馆中医药在线中医药科学数据中心中医药虚拟研究院
友情链接
中华人民共和国卫生和计划生育委员会 中华人民共和国科学技术部 国家中医药管理局 中国中医科学院