引用本文:[点击复制]
[点击复制]
【打印本页】 【在线阅读全文】【下载PDF全文】 查看/发表评论下载PDF阅读器关闭

←前一篇|后一篇→

过刊浏览    高级检索

本文已被:浏览 220次   下载 303 本文二维码信息
码上扫一扫!
基于正则表达式的中医医案术语抽取方法研究
邓 宇,张振铭,陈 橙
0
(湖南省中医药研究院,湖南 长沙,410006)
摘要:
目的:探索从中医医案文本中识别出领域具有较高挖掘价值的术语实体,并根据其属性分类自动抽取,最终形成可直接利用和管理的结构化标准数据。方法:构建中医领域术语词典,采用Python语言编写正则表达式中文词语匹配算法和语义分析模块,通过词典中的术语与医案文本进行匹配和语法分析,实现中医术语的自动识别和分类抽取。结果:对300 例中医肿瘤医案进行抽取测试,最终抽取术语22540个。经人工核对,发现抽取遗漏或错误术语1352个,约占抽取总术语的6%。结论:现阶段的研究只是对中医医案术语抽取方法进行初步探索,今后的研究可在此基础上对医案术语词典作进一步补充,完善语义分析模块判断能力,使其能够更好地适应中医医案书写规则,为基于中医医案的文本大数据挖掘与利用奠定基础。
关键词:  中医医案  知识抽取  Python  正则表达式
DOI:
()
Abstract:
Key words:  

用微信扫一扫

用微信扫一扫