- 相關推薦
新聞事件的文本挖掘
一、引言
近年來,隨著互連網的飛速發展和信息傳播手段的不斷進步,造成了大量的文本數據累積,其中很大一部分是短文本數據。這些數據中有很大一部分是只包含50-100個詞的短文本數據,如文章摘要、電子郵件、圖片標題、產品描述等。網頁上的大部分信息都是短文本信息。文本挖掘技術對于從這些海量短文中自動獲取知識、具有重要意義。本文介紹了文本挖掘在新聞文本挖掘中的應用,分析了新聞事件挖掘的研究現狀。
二、文本挖掘概念
文本挖掘是采用計算語言學的原理對文本信息進行抽取的研究和實踐文本挖掘可以對文檔集合的內容進行總結、分類、聚類、關聯分析以及趨勢預測等。Web文本挖掘和通常的平面文本挖掘有類似之處,但是文檔中的標記給文檔提供了額外的信息,可以借此提高文本挖掘的性能。
三、文本挖掘在新聞文本挖掘中的應用
"新聞的處理,是-種對事實的選擇、安排、解釋等意義化過程",作為文字傳播的一種特殊形態,新聞在語言表達上有著較為明顯的個性特征,如篇章短小精干、表達客觀公正、語言準確簡潔等。新聞專題是指圍繞某一個突發的新聞事件或某一個廣泛受關注的問題提供詳細、深入的資料。這樣的專題信息目的明確、信息豐富,讓人一日了然地清楚整個新聞事件的前因后果和來龍去脈,能夠較好地滿足讀者的需要。但通常情況下,這些新聞專題都是經過專業人員加工處理的,即人工歸納到二起。新聞事件挖掘的目的是,是借鑒文本挖掘技術、文本分類和聚類技術,實現對新聞資料的自動組織、生成專題,以滿足網絡用戶檢索新聞信息的需要。專題的生成涉及到新聞事件的探測以及對新聞事件的跟蹤。
四、新聞事件挖掘的研究現狀
目前對于新聞事件的挖掘主要包括以下幾類問題:
(→)主題發現與跟蹤(TopicDetectionandTracking,TDT)
主題發現與跟蹤旨在開發一系列基于事件的信息組織技術,以實現對新聞媒體信息流中新話題的自動識別以及對己知話題的動態跟蹤。該研究作為一項1997年開始的公開測評而成為自然語言處理的→項研究熱點。TDT包括五項子任務,即:主題分割、話題跟蹤、新事件發現和報道關聯發現。
主題分割主要采用相同詞語數目和詞語密度的方法,其優點在于簡潔性和高效性,不受領域的限制。目前已有TextTiling算法等方法用于主題的分割。采用遺傳算法對TextTiling算法中的參數進行優化,使得同→主題內的段落之間的總差異應盡可能地小,而不同主題間的總差異應盡可能地大。也有研究采用遺傳算法來直接尋找主題的最優劃分。駱衛華提出了基于分治多層聚類的話題發現算法,其核心思想是把全部數據分割成具有一定相關性的分組,對各個分組分別進行聚類,得到各個分組內部的話題(微類),然后對所有的微類在進行聚類,得到最終的話題。
(二)熱點趨勢檢測(EmergingTrendDetection,ETD)
熱點趨勢檢測用來自動識別熱點主題,從而識別主題趨勢的變化。熱點趨勢檢測主要包括三個部分:主題結構的識別,主題出現的檢測和主題特征分析。總結了目前研究的ETD系統和商業的ETD系統,其使用方法大多數以關鍵詞的詞頻分析為基礎,形成相關主題的發展趨勢。例如,采用關鍵詞項詞頻分析的方法,尋找芯片封裝領域內的技術發展規律。對于這類問題需要優化關鍵詞的選擇,看哪一個或者哪一些關鍵詞與該主題上的關系最為密切。也有的研究使用序列模式挖掘來識別短語,生成短語的歷史圖,使用形狀查詢來識別指定趨勢的短語。
(三)事件預測規則的發現
該問題主要采用文本挖掘技術,同傳統的人工智能方法相結合,對于時序文檔集的關聯規則的進行挖掘,提供相應事件發生的預測規則。
很多研究根據互聯網上的新聞稿來生成股票價格指數的規則。Wuthrich使用專家的先驗知識,通過對過去的新聞中出現的關鍵詞組的權重和對應的值產生可能性的規則,再利用這些規則對當天的新聞進行股票指數的預測。將關鍵詞組轉換成權重,采用基于規則、最近鄰和神經網絡的方法。Feldman等人使用多種分布模型對路透社的2萬多篇新聞進行了挖掘,得到主題、國家、組織、人、股票交易之間的相對分布,揭示了一些有趣的趨勢。而Mittermayer則自動對新聞稿進行預處理,將它們分成不同的新聞類型,其每→類都對股票價格升降有特定的影響,從而得到對應的交易指導規則。
五、結論
文本挖掘是挖掘的核心技術,將其文本聚類與分類等技術應用到新聞主題的檢測與跟蹤中,能自動在線檢測內容不斷更新的網絡新聞主題,提高了處理的速度,能及時提取更多有價值的信息給用戶,這是一個具有十分重要意義的課題,這項研究還需要進→步的深入。短文本挖掘技術是文本挖掘中的一個新興的方向,針對于短文本特點的方法有待于人們的進-步研究。
【新聞事件的文本挖掘】相關文章:
生物醫學文本挖掘研究熱點08-01
文本、解讀、詮釋與翻譯08-29
挖掘員工潛能05-18
試析漢英旅游文本的翻譯10-05
抓住文本品析語言10-12
事件營銷探析09-10
文本聚類開題報告范文08-06
超閱讀:數碼時代的文本變革06-26
文學教學中的文本審美探討10-15