總體框架 網絡輿情監(jiān)控系統(tǒng)以基礎硬件為支撐,海量互聯(lián)網數(shù)據(jù)源為采集對象,以標準、規(guī)范和安全體系為保障,提供給客戶集輿情信息的采集、分析、展示、預警、管理、應急導控處置于一體的監(jiān)控平臺。 系統(tǒng)總體框架由硬件支撐層、數(shù)據(jù)采集層、應用層和操作層組成。采用面向服務的思想,利用松散耦合的分層方式將系統(tǒng)整體上分為四個層次和兩個體系,各層間的界限清晰,功能明確而不交叉,具有較高的可配置性和伸縮性。 1 硬件支撐層 硬件支撐層所需設備由客戶投入建設,主要由服務器(若干)、存儲設備、路由器、網絡、安全基礎設備等構成,一般放置在信息中心的機房中,也可托管于網通或電信機房,為整個系統(tǒng)提供基礎的硬件支撐。互聯(lián)網信息采集設備需接入互聯(lián)網,內部用戶訪問可使用局域網。 2 數(shù)據(jù)采集層 實現(xiàn)對上萬個全國知名網站及論壇、地方性網站及論壇、行業(yè)網站及論壇、境外重點中文網站及論壇信息的實時監(jiān)控;實現(xiàn)對國內外著名博客、微博、貼吧、SNS、QQ群、帶文字的音視頻、手機網站的信息監(jiān)控采集。對重點來源網站信息實現(xiàn)5分鐘頻率更新,一般網站信息更新頻率為30-60分鐘內。 3 應用層 應用層是整個系統(tǒng)的核心,采用面向服務的思想,為用戶輸出輿情監(jiān)測結果和用戶對信息的查詢、管理等任務。應用層由五大應用平臺組成,包括輿情搜索展示平臺、輿情管理工作臺、應急導控處置平臺、用戶管理平臺和通訊平臺,利用Web Services技術為系統(tǒng)升級服務或為其他外部系統(tǒng)提供基于SOAP的遠程方法調用接口,用以完成異構系統(tǒng)之間的數(shù)據(jù)交換和同步。 4 操作層 系統(tǒng)為操作員提供友好的操作界面,易操作、易使用。 5 安全保障體系 從技術安全、運行安全和管理安全三方面構建安全防范體系,切實保護系統(tǒng)的可用行、機密性、完整性、抗抵賴性、可審計性、可控性。 6 標準規(guī)范體系 為保證系統(tǒng)有效運行及與后續(xù)建設系統(tǒng)有效的集成,在系統(tǒng)建設和運行中,需遵循和制定相關的業(yè)務規(guī)范、技術標準和運行管理規(guī)范。 此外系統(tǒng)還滿足高可擴展性和易操作的特性。可根據(jù)用戶單位的業(yè)務需求變化對軟件功能進行擴充與拓展;同時軟件操作和維護操作簡單,便于使用。 技術路線及系統(tǒng)架構 在技術實現(xiàn)上,本互聯(lián)網輿情監(jiān)測系統(tǒng)是采用目前最流行的B/S架構,使用面向對象的JAVA開發(fā)語言研發(fā)而成,具有高擴展性、高移植性和良好的跨平臺性。系統(tǒng)總體架構圖如下: 輿情搜索和采集系統(tǒng) 互聯(lián)網信息采集技術是輿情監(jiān)控系統(tǒng)的基礎技術,考察采集技術優(yōu)劣有及時性和全面性兩個指標,及時性要求重要網站信息的5分鐘采集入庫,一般性網站信息的30分鐘采集入庫;全面性要求采集來源能覆蓋全國性、地方性及行業(yè)性的知名網絡,凡對輿論傳播有著影響力的新聞站點、知名論壇、博客、微博、視頻均需納入監(jiān)控范圍。此外還要求采集引擎具有可操作性,用戶可對采集環(huán)節(jié)進行調整和優(yōu)化。 及時性和全面性是一組對立指標。客戶自建的網絡輿情項目,一般投入有限,設備和網絡建設不可能支撐到對整個互聯(lián)網的監(jiān)測,而要追求采集的及時性,需采集頻率快,勢必會減少監(jiān)控的采集范圍,將輿情采集范圍更多地優(yōu)化為具有輿論傳播價值的網絡媒體,而非整個互聯(lián)網。東方剪報網絡輿情采集引擎,主要幫助客戶監(jiān)測重點輿論發(fā)布及傳播網站、跟蹤傳播內容、分析首發(fā)媒體及事件傳播演變過程,通過信息和數(shù)據(jù)為輿情預警、研判和應急處置提供支持,我司輿情產品具有以下采集特色及優(yōu)勢: (一)重點采集 對輿情高發(fā)網站和主流網站設置最高采集優(yōu)先級權重,以5分鐘的采集頻率采集信息,這些重點網站包括: 1. 地方性、行業(yè)性新聞網站及論壇:一般情況下,地方性、行業(yè)性新聞網站及論壇是輿情的首發(fā)地,以普通網友為發(fā)布人,表現(xiàn)為各種爆料求證信息,是輿情的重要監(jiān)測來源,這類信息的發(fā)現(xiàn)有助于傳播早期的輿論控制和引導; 2. 全國性的新聞及社區(qū)網站:這些網站的用戶量大,瀏覽量大,是輿情最重要的傳播渠道,因能快速形成關注和傳播,且擴大傳播面,如在這類網站上出現(xiàn)報道,也表示輿情事件的傳播進入了發(fā)展或爆發(fā)期,需采取和早期不同的應對和處置辦法,也是輿情的重要監(jiān)測來源; 3. 重點人的網絡ID:對于重點人的網絡(包括論壇、博客及微博賬戶)發(fā)言和活動, 能代表網上大部分人的言論,或是煽動言論,或是有害言論,是輿情的重要監(jiān)測源; 4. 自動啟動重點采集任務:在設置專題和導控任務后,會自動啟動重點采集任務,調整其優(yōu)先級和采集頻率,確保重點任務的完成; 5. 重點文章回復數(shù)/評論數(shù)及內容的采集,用于分析網友觀點及態(tài)度; 6. 導控任務采集:追蹤文章在網絡上的發(fā)展動態(tài), u 文章是否存在, u 在各大搜索引擎是否存在快照,快照是否被刪除, u 點擊/回復數(shù)量的增幅情況; 7. 熱詞采集:采集百度熱詞。 (二)采集任務可操作性 用戶可手動調整采集任務: 1. 自定義采集頻率:用戶可自定義網站的采集頻率,為不同權重的網站設置不同采集頻率; 2. 自主添加采集網站:用戶可自行添加采集的網站; 3. 自定義網站權重及優(yōu)先級:監(jiān)測網站的權重可維護,用戶也可為不同權重網站設置采集優(yōu)先級; 4. 自定義采集任務:用戶不僅可以調整單個網站的采集頻率,也可對其采集進程進行管理,關停或暫停網站的采集任務; 5. 自定義微博地址:用戶可添加微博地址到采集庫,系統(tǒng)還提供導入模板供用戶批量導入微博地址。 6. 自主全網搜索添加:在全網搜索功能中,用戶可指定關鍵詞隨時搜索互聯(lián)網,并可將搜索結果形成結構化數(shù)據(jù)加入數(shù)據(jù)庫。 7. 定制搜索:提供關鍵詞、來源、時間、網站性質等多種條件,供用戶定制搜索方案,用于經常性的搜索請求。 (三)核心采集技術 采用定點采集和全網搜索相結合的采集機制,定點采集可確保第一時間采集到重點網站的信息,全網搜索可進行傳播全面性的補充采集; 1. 定點采集:系統(tǒng)內置的重點監(jiān)測網站,采用定點采集方式; 2. 全網搜索:通過關鍵詞對新聞類搜索引擎、論壇類搜索引擎、博客類搜索引擎、微博類搜索引擎及大型網站的站內搜索工具的信息聚合搜索; 3. 內嵌腳本執(zhí)行引擎:隨著Web2.0相關技術的發(fā)展,腳本語言越來越多地應用于論壇、新聞評論、博客等類型網站的建設。內嵌腳本引擎對腳本語言的自動解析和執(zhí)行,實現(xiàn)對采用腳本語言的論壇、博客以及新聞評論網站的采集; 4. 7X24小時不間斷采集,5分鐘采集頻率,信息更新掃描最小間隔為1分鐘; 5. 關聯(lián)采集:在針對QQ群監(jiān)測中,系統(tǒng)可以自動將QQ群內成員的騰訊微博加入到采集源中; 6. 對新浪微博、騰訊微博、境外推特、Facebook實行無限制、無屏蔽訪問搜索。 (四)支持網絡媒體形式 網絡媒體形式全:本系統(tǒng)內置上萬個網站,可以對各類網絡媒體進行監(jiān)測: 1. 門戶網站:系統(tǒng)可采集以媒體發(fā)布為主的新聞網站的信息; 2. 論壇:各種形式的BBS、貼吧、論壇、社區(qū); 3. 博客:各博客網站的博客信息; 4. 微博:國內外微博網站信息監(jiān)測; 5. 電子報:各類報紙的電子報的信息監(jiān)測; 6. QQ群:可監(jiān)測QQ群內的聊天記錄; 7. 問答:對問答類網站的采集; 8. 視頻:對視頻網站文字信息的采集; 9. 境外信息:集成代理技術,通過代理服務器采集屏蔽訪問的境外網站,監(jiān)控涉及國家安全、煽動等信息; 10. RSS:對RSS聚合信息的采集; 11. WAP:對WAP網站信息的采集; 12. 搜索引擎:對搜索引擎信息的聚合。 (五)采集內容豐富 通過自動識別技術識別并抽取網頁的要素,包括:標題、來源網站、來源頻道、發(fā)布人、發(fā)布時間、鏈接(URL)、正文、圖片、快照、表格,自動剔除廣告(圖片或flash)等垃圾部分,除此以外,針對不同媒體,還采集了其他要素: 1. 新聞:①是否頭版,②專題,③評論數(shù),④評論內容; 2. 論壇:①點擊數(shù),②回帖數(shù),③是否論壇首頁、④置頂,⑤加精,⑥推薦,⑦熱帖,⑧回帖人,⑨回帖內容; 3. 博客:①回帖數(shù),②回帖人,③回帖時間,④回帖內容; 4. 微博:①轉發(fā)次數(shù),②評論數(shù),③粉絲數(shù),④評論人,⑤評論內容,⑥博主信息,⑦粉絲名,⑧話題; 5. 視頻網站:①播放次數(shù),②評論數(shù),③評論內容; 6. QQ群:①群內發(fā)言,②群內成員,③發(fā)言時間,④發(fā)言QQ,⑤發(fā)言圖片; 7. 附件采集:支持對.doc/.xls/.pdf/.txt文檔的監(jiān)測 8. 網站屬性:①TCP/IP信息,采集網站TCP/IP備案信息,②網站所屬地域; 采集存儲:系統(tǒng)抽取各類網絡媒體的信息要素,統(tǒng)一形成結構化信息,供后續(xù)分析、檢索、查詢、統(tǒng)計和展示。 (六)其他采集技術 1. 支持驗證碼采集; 2. 支持多頁合并采集。 (七)支持多語言采集 自動識別多種字符集編碼,支持對中文、英文、中文簡體、中文繁體、彝文、維文、藏文、蒙文、朝鮮語、韓國語、日語、西班牙語等語言的采集,并可以轉換為統(tǒng)一編碼格式。 (八)智能采集 1. 需要登錄與需要驗證碼的網站信息采集,采集過程完全仿人工,實現(xiàn)了“登錄驗證”采集。 2. 長期大量采集網站信息,會引起網站重視并可能導致封鎖IP,通過自動獲取代理IP地址并及時替換代理IP地址等技術,防止個別網站進行反采集,反監(jiān)測。支持多種網站的信息的編碼,GBK、BIG5、UNICODE、UTF8,軟件會自動轉換成GBK碼進行統(tǒng)一的處理。軟件即會自動識別網站的組織結構,自動識別網站的編碼。 (九)增量采集與自動更新 對于初次采集目標網站,軟件支持完全采集。而對于已采集過的站點支持增量采集。自動檢測站點是否發(fā)生更新,并不會遺漏任何一個重要信息。 (十)帶寬占用優(yōu)化 可采用分布式多線程并發(fā)指令執(zhí)行體系結構、增量實時索引、智能分詞等多項先進技術,提高采集和數(shù)據(jù)管理效率,管理員可以靈活設置更新周期。客戶端采用可視化的配置工具,靈活配置應用屬性頁的抓取信息。 (十一)主題跟蹤采集 針對熱點話題進行信息跟蹤采集,自動啟動更高的優(yōu)先級,調動全網搜索模式,進行信息量的快速聚合。跟蹤內容包括:信息來源、轉載量、轉載地址、地域分布、發(fā)布人等元素。 根據(jù)新聞來源的權威度、評論數(shù)、發(fā)言時間頻率等參數(shù),識別出設定時間段內的熱門話題。