还剩5页未读,继续阅读
文本内容:
网络舆情监测系统的分析与设计作者洪小娟宗江燕于建坤黄卫东来源《软件工程》2019年第08期解各阳情监测系统图1系统功能模块图Fig.1SystemfunctionmodulediagramFig.2Systemarchitecturediagram摘;要大数据时代下,网络舆情监测对政府合理控制舆情方向、进行舆情治理具有重要意义网络舆情监测系统主要根据网络舆情需求,构建在.NET平台下基于EntiiyFramework模型的网络舆情监测系统的C/S和B/S框架体系系统对信息采集、信息过滤、关键词挖掘、舆情主题分类等模块进行优化分析设计和实现应用马尔可夫模型,将舆情发展态势划分为生成期、发展期、极速发展期和衰退期,通过对历史数据的计算实现了舆情的未来发展区间关键词舆情监测;网页文本分析;网络爬虫;舆情预警;预测中图分类号TP399;;;文献标识码AAbstract Undertheeraofbigdatanetworkpublicopinionmonitoringisofgreatsignificanceforgovernmentstoreasonablycontrolthepublicopiniondirectionandpublicopiniongovemance.TomeettherequirementsinthenetworkpublicopinionthenetworkpublicopinionmonitoringsystemmainlyconstructstheC/SandB/SframeworksystemofthenetworkpublicopinionmonitoringsystembasedonheEntityFrameworkmodelunderthe.NETplatform.Thcsystemoptimizestheanalysisanddesignofmodulessuchasinformationcollectioninformationfilteringkeywordminingandlyrictopicclassification.ThcMarkovmodelisappliedtohesystemtodividethedevelopmentsituationofthepublicopinionintothegenerationperiodthedevelopmentperiodtherapiddevelopmentperiodandtherecessionperiod.Thecalculationofthehistoricaldatarealizesthefuturedevelopmentrangeofthepublicopinion.Keywords publicopinionmonitoring;webpageextanalysis;webcrawler;publicopinionwaming;prediction1;;弓I言Introduction互骄网作为一种新的信息传播形式迅速发展,对人们的日常生活产生了巨大影响[1]已然引起学术界的广泛关注,目前研究方向包括网络舆论的传播、控制及相关问题123L据《中国互联网络发展统计报告》显示,截至2018年上半年,我国网民数量已达
8.02亿人[4]互联网已被公认为是继报纸、广播、电视之后能够反映社会舆情的重要载体之一[5]此外,超过六成的中国网民经常在网上就各种话题发表言论并进行讨论f6]以充分表达自身的思想观点和利益诉求由于网络中的舆情在一定程度上能够代表现实世界中人们的观点,并且对现实世界的稳定产生一定的影响,因此如何才能监测和发现网络舆情,为政府或者企业提供决策上的数据支持成为舆情问题研究的一个重要课题,本文旨在通过对网络爬虫、中文分词、信息存储方式、马尔可夫模型等的研究,来实现一个可以及时、准确的舆情监测和预测系统,为相关领域的工作人员提供数据上的支持2网络舆情监测系统需求分析Requirementsanalysisofthenetworkpublicopinionmonitoringsystem运用互联网平台进行交流具有匿名、及时、参与程度广、影响面宽、破坏面大等特点,这些特点给舆情监督的工作人员带来了极大的困难和挑战因此,国内外普遍重视舆情监测关键技术的研究,目前,舆情监测涉及的技术非常多,其核心多为网络信息抓取技术、网络信息提取技术、自然语言处理技术其中,网络信息抓取技术多指利用网络爬虫工具进行信息抓取工作⑺;网络信息提取技术则指将文本里的信息进行结构化处理,多被处理为表格形式⑻洎然语言处理技术主要研究人与计算机交互的语言问题,通过分词、关键词提取等一系列操作对舆情状况进行分析,从而达到舆情监测的目的国内对网络舆情的监测起步较晚,又由于中西文的差异造成中文分词技术、文本挖掘技术等许多先进技术无法借鉴’同时研究机构与应用机构又严重脱节,直接导致我国的舆情产品比较昂贵同时发展也较为迟缓不过,随着电子计算机和互联网络在中国的普及,网络舆情对社会生活的影响越来越大,网络舆情监控的产品也越来越多其中以网智天元、北大方正、西盈信息、人民网舆情为代表的软件公司纷纷推出了自己的产品,并且都实现了24小时实时监控、关键词监测设置、舆情分析报告等基本功能虽然国内的软件可以完成对网络舆情的监测任务,并且提供完整的分析报告,但是还没有提供对于舆情事件的趋势预测功能3;网络舆情监测系统概要设计Overviewofnetworkpublicopinionmonitoringsystem;;系统总体功能介绍网络舆情监测系统主要由舆情数据处理系统和舆情趋势预测系统两个部分组成,在舆情数据处理系统中,又包括信息采集、信息处理、关键词提取等模块系统的功能模块图如图1所不O系统采用C/S和B/S相结合结构进行设计,C/S客户端主要负责自动采集指定网站上的信息,并且对信息进行过滤和分析,最后对信息进行存储;B/S系统主要用于数据展现、数据查询以及舆情趋势预测等功能,系统的架构图如图2所示;;系统数据流程图系统的数据流来自采集模块,从自定义的采集网站中开始采集网络信息,采集的结果直接通过信息过滤模块,将用户所需信息从采集的网页源代码中分离出来,保存到本地数据库随后关键词提取模块读取采集信息的正文,利用中科院的ICTCLAS2013版分词系统提取正文信息中的关键词及关键词在文本中权重,并将其保存到数据库中,系统的数据流图如图3所ZFo4;网络舆情监系统关键模块的设计与实现Designandimplementationofthekeymodulesinthenetworkpublicopinionmonitoringsystem网络舆情监测系统主要分为两大部分,即舆情数据处理系统以及数据查询显示系统其中舆情数据处理系统又包括信息采集、信息处理、趋势预测等三个主要模块该系统主要用于数据的采集分析与处理,为用户提供有效的舆情信息数据查询显示系统主要用于信息查询与趋势预测该系统主要为用户提供舆情信息、舆情分析统计,以及舆情趋势判断等功能其中,信息采集、信息处理、趋势预测也是网络舆情监测系统中的重点与难点信息采集模块的实现步骤如下Stcpl:在数据库中准备好需要抓取信息的网站的URL地址,并且配置好每个网站中的信息过滤规则Step2根据用户预设的采集空间信息,初始化信息采集模型,并且通过该采集模型,对URL地址列表进行循环采集,下载当前页面的HTML代码到本地,然后由HTML解析模型进行数据解析Step3在HTML解析过程中,将网页的HTML代码根据相应的网站信息过滤规则进行解析,并且将有效的信息保存到本地数据库中Step4循环上述过程,24*7小时执行数据采集的过程,保持采集的数据的及时性信息处理模块的实现步骤如下StepI系统读取数据库中为被处理的帖子的信息Step2利用中科院的ICTCLAS2013分词系统,提取出文本中的关键词,以及关键词所占有的权重Step3将关键词信息保存到数据库中,并且以此作为相应帖子的内容标签趋势预测模块的实现步骤如下Stepl将热度趋势划分为四个状态区间,大于的分为两个区间,=急速上升,=缓慢上升,小于的也分为两个区间=缓慢下降,=快速下降Step2统计出热度趋势值从当前状态到下一刻状态的数目Stcp3:计算初始状态概率向量以及转移矩阵.预测对象在任何一个时期处于任何一个状态的概率5;网络舆情监测系统的测试Testingofthenetworkpublicopinionmonitoringsystem网络舆情监测系统的测试主要分为功能测试和性能测试功能测试中,主要对系统的UI界面操作,以及查询显示功能进行测试,确保系统能够给用户提供简洁、准确的数据以及良好的用户体验性能测试主要对系统的舆情主体分类和舆情趋势预测的准确性进行测试,测试的结果表明,本系统可以准确地对信息进行舆情事件的划分和对舆情趋势进行预测系统包括首页、舆情监测、舆情管理、舆情站点这四个栏目,涵盖了系统需求部分所提及的所有功能主页为用户提供了关键词搜索界面,用户在搜索的文本框中,输入想要监测的舆情的关键词,并且选择想要监测的时间段和监测的网站范围,就可以得到与关键词相关的帖子数量日均变化图、帖子热度日均变化图、帖子各站点比例图,以及帖子在未来一段时间内的趋势预测,搜索的结果页面如图4至图6所示6;;结论Conclusion综观本文的研究过程和结果,存在以下几点不足与改进1在舆情趋势预测方面,通过将马尔可夫模型运用到舆情监测的机制当中,有效地对大区间内的舆情事件趋势进行了预测2在舆情数据获取方面,系统所建立的规则不仅可以对单个论坛使用,而是可以应用于多个论坛当中,保证了系统所监测的论坛的普遍性3信息处理过程未详细研究,只是借鉴了中科院的ICTCLAS分词系统,对中文分词等过程及方法还需要进一步的分析和研究4由于时间仓促,本文对于舆情信息倾向性分析,时候评估分析等技术及应用未进行深入研究根据本文总结的改进之处和不足,本课题展望如下通过实验论证,系统可以进一步完善中文分词模块;对于本文未深入研究的技术和应用,将进行进一步的研究,旨在全面提高网络舆情监测系统的准确性、合理性以及实用性,为舆情监测领域提供优秀的技术平台参考文献ReferencesZHANGLc-junTONGWangJINZi-longctal.Theresearchonsocialnetworkspublicopinionpropagationinfluencemodelsanditscontrollability[J].中国通信2018150798-
110.WANGQi-yaoJINYue-huiZHENLinelal.InfluencemaximizationinsocialnetworksunderanIndependentcascade-basedmodeUJJ.Physicaa StatisticalMechanicsandItsApplications201644420-
34.FEIXiongYUNLiuCHENGJun-jun.Modelingandpredictingopinionformationwithtrustpropagationinonlinesocialnctworks[J].CommunicationsinNonlinearScienceandNumericalSimulation201744513-
524.|4]李朋朋,李英武.“互联网+”背景下降低员工网络闲散行为的思考[J].决策探索下,
20190187.⑸尉译心.网络舆情监控系统的关键技术[J].电子技术与软件工程,20180726-
27.
[6]杨华.网络言论失范与政府管理[J].采写编,20110554-
56.
[7]胡亚楠.社交网络数据获取技术与实现[D].哈尔滨工业大学,
2011.⑻程楠.一槿基于大数据技术快速处理医疗文本的方法[J].中国数字医学,2017120945-46;
58.。