大數據在選題策劃中應用策劃書
據全球權威的IT研究與咨詢公司Gartner于20xx年9月發布的大數據分析報告顯示,全球范圍內的媒體和通信行業以及銀行金融業站在了大數據投資的最前沿。相比之下,出版業作為文化產業,承載著文化傳播與文化傳承的社會功能,然而在利用大數據洞悉讀者需求上表現欠佳,所以,如何借助不斷增長的大數據進行信息和知識的搜集、組織和傳播,成為出版企業亟待解決的問題。
出版企業可利用的大數據的具體形式
對于“大數據”(Big Data),研究機構Gartner給出了這樣的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。舉個例子,1分鐘的時間內,新浪發送2萬條微博,蘋果下載4.7萬次應用,淘寶賣出6萬件商品,人人網發生30萬次訪問,百度產生90萬次搜索查詢。由此可見,數據規模的急劇膨脹,各行業累積的數據量越來越巨大,數據類型也越來越多、越來越復雜,已經超越了傳統數據管理系統、處理模式的能力范圍,于是“大數據”這樣一個“無窮大”的概念才會應運而生。大數據的特點可以被歸納為:數量巨大、類型多樣、實時快速、價值高但密度低。正式基于這樣的特點,出版企業可以結合產業的優勢對大數據進行充分的挖掘和利用。
。1)Web文本挖掘。大數據的核心是挖掘龐大數據庫的獨有價值。面對因為網絡的飛速發展而帶來的信息膨脹,尤其是以半結構化或非結構化為主的文本信息,人們迫切需要研究出方便有效的工具去從中提取符合需要的“簡潔的”“精煉的”“可理解的”知識,Web文本挖掘技術由此產生。而利用Web文本挖掘發現大數據的價值也成為可能。
文本挖掘是近幾年來數據挖掘領域的一個新興分支。文本挖掘也稱為文本數據庫中的知識發現,是從大量文本的集合或語料庫中抽取事先未知的“可理解的”有潛在實用價值的模式和知識。而隨著網絡技術的飛速發展,特別是Web應用的不斷普及,網絡信息急劇增加,信息類型也越來越復雜。如何從這些大量自由、非結構化或半結構化的信息中獲得所需求的知識,傳統的數據挖掘技術已不適用,解決問題的一個途徑就是將傳統的文本挖掘技術和Web綜合起來,進行Web文本挖掘。Web文本挖掘就是以萬維網上的數據為分析對象,以抽取有用知識為目標,把傳統文本挖掘技術和萬維網相結合的研究技術。
。2)出版企業可利用的Web文本數據。網絡上圖書評論的數量極為龐大,有些暢銷書可能包含成千上萬的評論,借助Web文本挖掘技術能自動地對圖書評論進行分析和處理,挖掘出有用的信息。通過對圖書在線評論的挖掘管理,出版企業可以用較低的成本收集、整理讀者對于各類圖書的關注興趣和欣賞特點,同時也可以獲得暢銷圖書迎合市場需求的關鍵因素。在此過程中,企業獲得了知識資源,同時培育了持續的競爭優勢。因此,可以將各大圖書銷售網站的讀者評論作為出版企業可利用的大數據分析的首要來源。
在企業的銷售網站或其借助的其他互聯網銷售平臺上,通過建立在線評論客戶知識管理系統,收集、整理和分析客戶評論,將客戶評論轉化為企業的知識,從而為企業價值鏈的各個環節提供客戶的信息和知識的共享,并將客戶知識延伸到企業的決策制定中,為企業有效開展客戶知識管理提供有效的解決方案。同時,基于評論挖掘構建的客戶知識管理系統,具有與用戶需求同步的快速響應能力,即具有將用戶需求迅速轉向圖書的策劃和印制的能力。這就使得出版企業以響應市場需求為中心,實時挖掘客戶知識,提高優化客戶關系的決策能力,準確及時地向客戶提供所需的圖書產品。
大數據在選題策劃中的`應用
信息收集和預處理
相對于傳統數據庫中的完全結構化的數據而言,Web數據的最大特點就是半結構化。從評論挖掘的角度來看,Web上的網頁包含的信息并不都是有用的,體現網頁的主題信息的是“主題”內容;與主題內容無關的導航條、廣告信息等內容則是“噪音”內容。網頁凈化過程就是去掉包含噪音內容的內容塊,只保留網頁中包含主題內容的內容塊。因此在評論挖掘的數據預處理階段,首要任務就是完成Web網頁凈化過程,去除網頁內容中的音頻、視頻、圖片等其他非文本信息,還有各種網頁本身的標記語言,最后僅剩下網頁中的文字評論內容,從Web頁面中提取出文本評論信息。
評論頁面的下載可以采用聚焦爬蟲技術,所謂聚焦爬蟲,是能實現自動下載網頁功能的程序,它根據指定的抓取目標,有選擇地獲取萬維網上的網頁及其相關的鏈接,抓取所需要的信息。通過對Web頁面的語義結構進行描述,產生適合計算機自動處理的描述文件和指令文件,實現持續地、大批量地提取Web信息。
圖書特征提取和情感分析
評論內容是中文語句,要從中提取詞語,進而獲得讀者關注的圖書特征,首先需借助中文分詞技術。中文分詞技術屬于自然語言處理技術領域,它通過詞性標注將一個漢字序列切分成相互獨立的詞,文本挖掘的基礎是中文分詞,一段中文要使得計算機自動識別語句語義,必須通過準確的中文分詞處理。在中文分詞和詞性標注的基礎上,使用漢語分詞軟件的關鍵詞提取功能提取評論內容中的關鍵詞,按照權重排序找出高頻名詞或名詞性短語作為候選詞匯,通過人工定義和篩選,得到讀者評論中的圖書屬性特征詞集合。
挖掘出的圖書的讀者關注特征,是讀者圖書評論中最集中和最熱點的特征,但每項特征具體的評價傾向性還需進一步分析和處理,即通過提取讀者對每項關注特征所持有的褒貶態度,分析其評價情感傾向性。情感詞可以細分為情感特征詞匯和情感強度詞匯?蛻粼u論中的情感特征詞是客戶表明自身觀點和態度的詞匯,而情感強度詞是指評論中用于加強語氣的程度副詞,如“最”“非!焙鸵恍┓穸ㄔ~。這些詞的修飾會加強或減弱,甚至改變原來詞匯的情感傾向,在判斷評論的情感時要考慮這些強度詞語的作用。
【大數據在選題策劃中應用策劃書】相關文章:
數據在淘寶開店中的應用08-16
XML在GIS數據轉換中的應用11-09
數據挖掘技術在經濟統計中的應用論文08-26
大數據在高?冃徲嬛械膽谜撐07-18
淺談測繪地理大數據在城鄉規劃中的應用10-27
大數據在旅游網站設計中的應用分析論文07-07
網絡經濟下數據挖掘在工商管理中的應用10-15
數據挖掘在道路交通事故中的應用論文07-31
數據加密技術在計算機安全中的應用論文07-23
數據挖掘技術在電子商務中的應用研究論文06-26