基于组合分类器的生物命名实体识别

时间:2018-04-16 论文提纲 我要投稿

  论文摘要: 生物命名实体识别是一项非常重要和基础的生物医学文本挖掘技(略)键的一个步骤,只有正确地识别出生物命名实体,才能有效地完成基因标准化、生物事件抽取以及蛋白质-蛋白质交互关系抽取等更加复杂的工作.生物医学命名实体包括(略)、DNA、RNA等,通常有着复杂的结构,对于这些实体的鉴别和分类是非常富有挑战性的.机器学习方法例如CRF、MEMM和SVM已经广泛的应用于从已标注的语料中学习识别出生物医学命名实体.然而,生物命名实体识别系统的性能仍然没有普通命名实体识别系统的好.(略)高生物命名实体识别的性能,研究者提出了合并多个分类器结果的多分类器方法. 本文主要研究基于组合分类器的生物命名实体识别方法,实验是在BioCreAtIvE 2GM的训练语料和测试语料上进行的.本文主(略)下两点: ⒈构建单一分类器模型 本文利用不同的分类模型、不同的分类方法和特征集构建了六个不同的机器学习模型,并对每种模型采用的特征集,特征抽取方法,以及训练过程进行了详细介绍. (略)提高最大方法的识别性能,本文采用TBL方法对最大的标注结果进行了纠错处理.实验结果显示纠错处理在很大程...

  Biomedical Named Entity Recognition (Bio-NER) is (omitted)ly important and fundamental task of biomedical text mining, and is also a critical step for biomedical text mining, only when(omitted)ies are correctly i(omitted)could other more complex tasks, such as, gene normalization, biomedical eve(omitted)tion and protein-protein interaction extraction, be performed effectively. Biomedical named entities include mentions of proteins, genes, DNA, RNA, etc which oft(omitted)omplex structures, but it is cha...

  目录:

  摘要 第4-5页

  Abstract 第5-6页

  1 绪论 第9-16页

  ·研究背景与意义 第9-10页

  ·研究现状 第10-14页

  ·本文主要研究内容 第14页

  ·本文组织结构 第14-16页

  2 机器学习模型 第16-25页

  ·支持向量机模型 第16-18页

  ·最优分类超平面 第16页

  ·核函数 第16-17页

  ·SVM多分类问题扩展方法 第17-18页

  ·最大模型 第18-20页

  ·条件随机场模型 第20-24页

  ·CRF的无向图结构 第21-22页

  ·CRF与势函数 第22-23页

  ·CRF的参数估计 第23-24页

  ·本章小结 第24-25页

  3 单一分类器的构建 第25-40页

  ·实验语料及语料的预处理方法 第25-26页

  ·有效的特征信息 第26-28页

  ·不同单一分类器的构建 第28-38页

  ·基于条件随机场的生物命名实体识别 第29-32页

  ·基于支持向量机的生物命名实体识别 第32-34页

  ·最大方法的生物命名实体识别 第34-38页

  ·本章小结 第38-40页

  4 基于组合分类器的生物命名实体识别方法 第40-46页

  ·组合分类器方法 第40-43页

  ·后处理 第43-45页

  ·本章小结 第45-46页

  5 实验与结果分析 第46-54页

  ·单个分类器实验结果 第46-47页

  ·组合分类器方法的识别结果 第47-52页

  ·集合并/交操作方法实验结果 第47-49页

  ·投票方法实验结果 第49-50页

  ·叠加方法实验结果 第50-51页

  ·结果比较与分析 第51-52页

  ·错误分析与总结 第52页

  ·本章小结 第52-54页

  结论 第54-55页

  参考文献 第55-58页

  攻读硕士学位期间发表学术论文情况 第58-59页

  致谢 第59-61页

基于组合分类器的生物命名实体识别相关推荐