新聞事件的文本挖掘
一、引言
近年來,隨著互連網(wǎng)的飛速發(fā)展和信息傳播手段的不斷進(jìn)步,造成了大量的文本數(shù)據(jù)累積,其中很大一部分是短文本數(shù)據(jù)。這些數(shù)據(jù)中有很大一部分是只包含50-100個詞的短文本數(shù)據(jù),如文章摘要、電子郵件、圖片標(biāo)題、產(chǎn)品描述等。網(wǎng)頁上的大部分信息都是短文本信息。文本挖掘技術(shù)對于從這些海量短文中自動獲取知識、具有重要意義。本文介紹了文本挖掘在新聞文本挖掘中的應(yīng)用,分析了新聞事件挖掘的研究現(xiàn)狀。
二、文本挖掘概念
文本挖掘是采用計算語言學(xué)的原理對文本信息進(jìn)行抽取的研究和實踐文本挖掘可以對文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及趨勢預(yù)測等。Web文本挖掘和通常的平面文本挖掘有類似之處,但是文檔中的標(biāo)記給文檔提供了額外的信息,可以借此提高文本挖掘的性能。
三、文本挖掘在新聞文本挖掘中的應(yīng)用
"新聞的處理,是-種對事實的選擇、安排、解釋等意義化過程",作為文字傳播的一種特殊形態(tài),新聞在語言表達(dá)上有著較為明顯的個性特征,如篇章短小精干、表達(dá)客觀公正、語言準(zhǔn)確簡潔等。新聞專題是指圍繞某一個突發(fā)的新聞事件或某一個廣泛受關(guān)注的問題提供詳細(xì)、深入的資料。這樣的專題信息目的明確、信息豐富,讓人一日了然地清楚整個新聞事件的前因后果和來龍去脈,能夠較好地滿足讀者的需要。但通常情況下,這些新聞專題都是經(jīng)過專業(yè)人員加工處理的,即人工歸納到二起。新聞事件挖掘的目的是,是借鑒文本挖掘技術(shù)、文本分類和聚類技術(shù),實現(xiàn)對新聞資料的自動組織、生成專題,以滿足網(wǎng)絡(luò)用戶檢索新聞信息的需要。專題的生成涉及到新聞事件的探測以及對新聞事件的跟蹤。
四、新聞事件挖掘的研究現(xiàn)狀
目前對于新聞事件的挖掘主要包括以下幾類問題:
(→)主題發(fā)現(xiàn)與跟蹤(TopicDetectionandTracking,TDT)
主題發(fā)現(xiàn)與跟蹤旨在開發(fā)一系列基于事件的信息組織技術(shù),以實現(xiàn)對新聞媒體信息流中新話題的自動識別以及對己知話題的動態(tài)跟蹤。該研究作為一項1997年開始的公開測評而成為自然語言處理的→項研究熱點。TDT包括五項子任務(wù),即:主題分割、話題跟蹤、新事件發(fā)現(xiàn)和報道關(guān)聯(lián)發(fā)現(xiàn)。
主題分割主要采用相同詞語數(shù)目和詞語密度的方法,其優(yōu)點在于簡潔性和高效性,不受領(lǐng)域的限制。目前已有TextTiling算法等方法用于主題的分割。采用遺傳算法對TextTiling算法中的參數(shù)進(jìn)行優(yōu)化,使得同→主題內(nèi)的段落之間的`總差異應(yīng)盡可能地小,而不同主題間的總差異應(yīng)盡可能地大。也有研究采用遺傳算法來直接尋找主題的最優(yōu)劃分。駱衛(wèi)華提出了基于分治多層聚類的話題發(fā)現(xiàn)算法,其核心思想是把全部數(shù)據(jù)分割成具有一定相關(guān)性的分組,對各個分組分別進(jìn)行聚類,得到各個分組內(nèi)部的話題(微類),然后對所有的微類在進(jìn)行聚類,得到最終的話題。
(二)熱點趨勢檢測(EmergingTrendDetection,ETD)
熱點趨勢檢測用來自動識別熱點主題,從而識別主題趨勢的變化。熱點趨勢檢測主要包括三個部分:主題結(jié)構(gòu)的識別,主題出現(xiàn)的檢測和主題特征分析?偨Y(jié)了目前研究的ETD系統(tǒng)和商業(yè)的ETD系統(tǒng),其使用方法大多數(shù)以關(guān)鍵詞的詞頻分析為基礎(chǔ),形成相關(guān)主題的發(fā)展趨勢。例如,采用關(guān)鍵詞項詞頻分析的方法,尋找芯片封裝領(lǐng)域內(nèi)的技術(shù)發(fā)展規(guī)律。對于這類問題需要優(yōu)化關(guān)鍵詞的選擇,看哪一個或者哪一些關(guān)鍵詞與該主題上的關(guān)系最為密切。也有的研究使用序列模式挖掘來識別短語,生成短語的歷史圖,使用形狀查詢來識別指定趨勢的短語。
(三)事件預(yù)測規(guī)則的發(fā)現(xiàn)
該問題主要采用文本挖掘技術(shù),同傳統(tǒng)的人工智能方法相結(jié)合,對于時序文檔集的關(guān)聯(lián)規(guī)則的進(jìn)行挖掘,提供相應(yīng)事件發(fā)生的預(yù)測規(guī)則。
很多研究根據(jù)互聯(lián)網(wǎng)上的新聞稿來生成股票價格指數(shù)的規(guī)則。Wuthrich使用專家的先驗知識,通過對過去的新聞中出現(xiàn)的關(guān)鍵詞組的權(quán)重和對應(yīng)的值產(chǎn)生可能性的規(guī)則,再利用這些規(guī)則對當(dāng)天的新聞進(jìn)行股票指數(shù)的預(yù)測。將關(guān)鍵詞組轉(zhuǎn)換成權(quán)重,采用基于規(guī)則、最近鄰和神經(jīng)網(wǎng)絡(luò)的方法。Feldman等人使用多種分布模型對路透社的2萬多篇新聞進(jìn)行了挖掘,得到主題、國家、組織、人、股票交易之間的相對分布,揭示了一些有趣的趨勢。而Mittermayer則自動對新聞稿進(jìn)行預(yù)處理,將它們分成不同的新聞類型,其每→類都對股票價格升降有特定的影響,從而得到對應(yīng)的交易指導(dǎo)規(guī)則。
五、結(jié)論
文本挖掘是挖掘的核心技術(shù),將其文本聚類與分類等技術(shù)應(yīng)用到新聞主題的檢測與跟蹤中,能自動在線檢測內(nèi)容不斷更新的網(wǎng)絡(luò)新聞主題,提高了處理的速度,能及時提取更多有價值的信息給用戶,這是一個具有十分重要意義的課題,這項研究還需要進(jìn)→步的深入。短文本挖掘技術(shù)是文本挖掘中的一個新興的方向,針對于短文本特點的方法有待于人們的進(jìn)-步研究。
【新聞事件的文本挖掘】相關(guān)文章:
3.怎么保養(yǎng)挖掘機(jī)-保養(yǎng)挖掘機(jī)的誤區(qū)
4.挖掘機(jī)技師必備的挖掘機(jī)維修技術(shù)
5.職場禮儀文本