基于組合分類器的生物命名實體識別
論文摘要: 生物命名實體識別是一項非常重要和基礎的生物醫學文本挖掘技(略)鍵的一個步驟,只有正確地識別出生物命名實體,才能有效地完成基因標準化、生物事件抽取以及蛋白質-蛋白質交互關系抽取等更加復雜的工作.生物醫學命名實體包括(略)、DNA、RNA等,通常有著復雜的結構,對于這些實體的鑒別和分類是非常富有挑戰性的.機器學習方法例如CRF、MEMM和SVM已經廣泛的應用于從已標注的語料中學習識別出生物醫學命名實體.然而,生物命名實體識別系統的性能仍然沒有普通命名實體識別系統的好.(略)高生物命名實體識別的性能,研究者提出了合并多個分類器結果的多分類器方法. 本文主要研究基于組合分類器的生物命名實體識別方法,實驗是在BioCreAtIvE 2GM的訓練語料和測試語料上進行的.本文主(略)下兩點: ⒈構建單一分類器模型 本文利用不同的分類模型、不同的分類方法和特征集構建了六個不同的機器學習模型,并對每種模型采用的特征集,特征抽取方法,以及訓練過程進行了詳細介紹. (略)提高最大熵方法的識別性能,本文采用TBL方法對最大熵的標注結果進行了糾錯處理.實驗結果顯示糾錯處理在很大程...
Biomedical Named Entity Recognition (Bio-NER) is (omitted)ly important and fundamental task of biomedical text mining, and is also a critical step for biomedical text mining, only when(omitted)ies are correctly i(omitted)could other more complex tasks, such as, gene normalization, biomedical eve(omitted)tion and protein-protein interaction extraction, be performed effectively. Biomedical named entities include mentions of proteins, genes, DNA, RNA, etc which oft(omitted)omplex structures, but it is cha...
目錄:
摘要 第4-5頁
Abstract 第5-6頁
1 緒論 第9-16頁
·研究背景與意義 第9-10頁
·研究現狀 第10-14頁
·本文主要研究內容 第14頁
·本文組織結構 第14-16頁
2 機器學習模型 第16-25頁
·支持向量機模型 第16-18頁
·最優分類超平面 第16頁
·核函數 第16-17頁
·SVM多分類問題擴展方法 第17-18頁
·最大熵模型 第18-20頁
·條件隨機場模型 第20-24頁
·CRF的無向圖結構 第21-22頁
·CRF與勢函數 第22-23頁
·CRF的參數估計 第23-24頁
·本章小結 第24-25頁
3 單一分類器的構建 第25-40頁
·實驗語料及語料的預處理方法 第25-26頁
·有效的特征信息 第26-28頁
·不同單一分類器的構建 第28-38頁
·基于條件隨機場的生物命名實體識別 第29-32頁
·基于支持向量機的生物命名實體識別 第32-34頁
·最大熵方法的生物命名實體識別 第34-38頁
·本章小結 第38-40頁
4 基于組合分類器的生物命名實體識別方法 第40-46頁
·組合分類器方法 第40-43頁
·后處理 第43-45頁
·本章小結 第45-46頁
5 實驗與結果分析 第46-54頁
·單個分類器實驗結果 第46-47頁
·組合分類器方法的識別結果 第47-52頁
·集合并/交操作方法實驗結果 第47-49頁
·投票方法實驗結果 第49-50頁
·疊加方法實驗結果 第50-51頁
·結果比較與分析 第51-52頁
·錯誤分析與總結 第52頁
·本章小結 第52-54頁
結論 第54-55頁
參考文獻 第55-58頁
攻讀碩士學位期間發表學術論文情況 第58-59頁
致謝 第59-61頁
【基于組合分類器的生物命名實體識別】相關文章:
探析基于VaR模型的證券投資組合風險12-05
基于SVM的P2P流量的識別系統12-07
基于簇的無線傳感器網絡能量平衡策略11-16
組合化學在生物醫學中的應用分析11-14
基于傳輸半徑倍數的無線傳感器網絡交替路由11-16
試論基于計算機應用能力分類的課程設置03-29
基于時間序列理論方法的生物序列特征分析11-20
- 相關推薦