肿瘤学论文_基于字向量的BiGRU-CRF肺癌医案四
文章摘要:目的 肺癌医案中蕴含丰富的四诊信息,这些四诊信息对肺癌的研究具有重要意义。本文通过基于字向量的BiGRU-CRF方法实现四诊信息实体抽取研究。方法 研究利用BERT模型对基于自定义词典自动化标注后的肺癌临床数据进行预训练,得到包含上下文语义的字向量,再将其作为BiGRU-CRF模型输入,实现肺癌医案四诊信息命名实体抽取。结果 本文方法对临床表现、舌象、脉象、身体部位、程度副词五类实体抽取的F1值分别为98.17%、99.74%、99.77%、94.72%、93.36%,对比模型BERT-BiLSTM-CRF、BERT模型和Word2vec-BiGRU-CRF模型抽取的F1值分别为(96.46%、99.31%、98.78%、94.95%、92.44%)、(94.38%、95.14%、94.99%、90.89%、91.82%)和(91.27%、97.95%、98.09%、87.01%、86.77%)。结论 本文利用基于字向量的BiGRU-CRF方法具有更强的命名实体识别能力,可以更好地应用于中医医案命名实体抽取研究,进而为医案的关系抽取以及知识图谱构建提供支持。
文章关键词: