大数据分析方法_大数据时代舆情的内涵与分析方法

来源:

:青年记者2019年7月,

人类社会进入了一个以网络社会为特征的社会网络时代。公众成为新闻信息的发布者和传播者。社会上的信息生产不再被专业的大众传媒机构垄断。这一过程深刻地改写了舆论生态,促进了传统舆论观念的转变。同时,研究方法也有所创新。

民意的概念和内涵

(1)从民意到民意:民意概念和内涵的演变在所有的舆论概念中,人们赞同孟晓萍对舆论的定义,即“舆论是公众对公众所关心的人、事、象、问题和概念的信念、态度和意见的总和。它具有一定的一致性、强度和连续性,并对相关事件的发展产生影响。”(1)这一概念考虑了公众舆论的主体(公众)、公众舆论的客体(有关人物、事件、现象、问题和想法)以及公众舆论的本体(信仰、态度和意见)。它还强调舆论的一致性、连续性和强度。这是一个相对完善和严格的舆论概念。随着

网络时代的到来,舆论的概念逐渐弱化,取而代之的是“舆论”民意和民意之间只有一个词的区别。舆论中的“情绪”是为了强调网络时代舆论变化的速度。“情绪”一词突出了公众舆论的变化。二是强调网络时代的舆论具有很大的感性特征,即混杂着大量的情感和情绪。舆论表达的最大变化是网络表达的短小精悍和口语化导致情感因素和感性因素的增加。因此,“情绪”的第二个意思是情绪或情绪

基于此,舆论是指在一定的社会空间和历史时期,围绕着社会中介事物(可以是人、事物、价值观、观念、制度和规范)的发生、发展和变化,公众对相关社会事务作为舆论主体的集体情感、愿望、态度和意见的总和。由于网络是民意的主要表达平台,民意必须表达意见。

(2)舆论类别目前,舆论的划分相对多元化,可以分为政府舆论、经济舆论、社会舆论、民生舆论、作风舆论等。根据所涉及的主体,可以分为公共权力舆论、企业舆论、机构舆论、个人舆论等。根据预警等级,可分为红色舆情、橙色舆情、黄色舆情和绿色舆情。按照发生的范围,可以分为国际舆论、国家舆论、省级舆论、城市舆论、县级以下舆论等。按照来源,可以分为媒体初始舆论、网民曝光舆论等。在舆情分析的日常运作中,中国人民大学舆情研究所一般将舆情分为社会民生、反腐倡廉、文化教育、警务涉法、社会保障、时事政治、灾害事故、企业财务和公共卫生等方面只要有内在的一致性,各种各样的公众意见就可以相互排斥和详尽无遗,而不会跨越它们的划分范围。

舆情软件系统平台:舆情大样本导向分析

目前有很多舆情分析的研究方法,但一般来说主要有以下两个基本类别:一是大样本导向分析,这是通过使用大型舆情软件系统平台实现的;二是小样本多元分析,即通过最新的研究方法对本地样本进行数据收集和分析

(1)舆情软件系统平台基本原理近年来,舆情监测的方法层出不穷,但舆情监测的基本方法并没有根本改变,即数据采集是通过网络爬虫程序实现的。基本原则如下:第一,建立一个待监测样本数据库(包括微博、微信公众号、论坛、帖子和网站等)。)作为监控数据源;第二种是通过网络爬虫抓取数据并下载到本地服务器。第三,数据在本地服务器上进行重复数据消除和聚合。第四,“清理过的”数据被智能而直观地呈现出来,例如图像。舆情监控软件监控微博中的数据,在访问和捕获数据之前,需要向新浪申请一个付费的应用编程接口(应用编程接口)(否则将关闭网络爬虫)该舆情监控软件能够对互联网信息进行7×24小时的实时监控和采集,对采集到的信息进行综合检索和自动消重,并进行舆情话题演化分析、时间趋势分析和话题传播分析。目前,舆论监督领域相对较大的软件服务提供商包括泰斯、方正舆论、古尼舆论、美亚舆论

(2)舆情软件系统平台发展趋势在过去的两年里,出现了一种新的趋势,即从开发舆论软件到构建云平台。舆情监控主要基于单一的监控软件。软件产品放在客户的本地服务器上,软件供应商为他们提供后期软件升级和支持服务。这种服务模式有一定的缺点。由于各自的战争,服务器分散,数据收集和分析分散,不利于大规模数据处理和密集输出。随着大数据和云计算时代的到来,软件服务逐渐被云数据平台的建立所取代。客户可以通过网页或客户端远程访问它们,并且可以通过特定的权限定制关键字,以便捕获公众意见数据和可视化地呈现数据结果。

(3)舆情软件系统平台缺陷首先,很难验证舆论监督的有效性和可靠性。目前,舆论监督最大的问题是无法证明其有效性。每个家庭都有自己的“黑匣子”,相对来说是不透明的。方法和算法的不同将不可避免地导致监测结果的偏差。谁更准确,很难有一个最终的结论,仍然有“盲人摸象”的危险;第二,数据来源的多少在一定程度上决定了舆论监督的准确性。目前,舆情监测使用样本数据库作为数据搜索源,而不是基于整个网络收集舆情信息。事实上,这只是样本量大的局部数据,由于数据来源不完整,可能导致重要信息监测不足,最终影响数据监测结果。第三,在消除重复和聚集的过程中,计算机暂时不能代替劳动力。目前,舆情监控软件最大的区别在于后台的数据处理能力。然而,目前,计算机还不能完全代替人工进行高层次的信息处理,如情绪识别和影响评估。第四,网络爬虫自身的缺点也在不断显现,主要是因为关系数据变得越来越重要,而爬虫爬行的数据主要是片断化的信息数据,而这些数据往往被忽略。此外,越来越多的网站对爬虫持有不友好的态度。一旦港口被直接关闭,越来越多的微信和豆瓣等社交网站不开放数据采集端口,就很难采集这些新兴社交平台的数据。

舆情小样本多元分析

在现实舆情分析研究中,不可能完全依靠舆情软件平台进行数据采集,一般由研究者根据研究对象的情况,进行必要的采样,使用python、r语言进行数据采集,借助各种方法进行舆情分析综上所述,目前主要有以下三种小样本分析方法

(1)关系分析:社会网络分析随着社交平台的兴起,“关系”逐渐成为虚拟网络空间中的基本资源和基础设施,“没有自我的孤岛,每个人都存在于关系网络中,而这个网络比以往任何时候都更加复杂和移动”(2)舆情信息是基于社会网络传播的,而社会网络分析方法正是描述和可视化社会网络的重要工具。近年来,社会网络分析已经成为舆情分析的重要工具和手段。

此外,传统民意调查方法的局限性进一步表现出来,正如弗里曼所指出的,“在过去的30年里,实证社会研究主要受抽样调查的控制。”然而,正如人们经常指出的那样,调查是一种社会学的绞肉机,它将个人与他们的社会状况分开,并确保研究对象之间没有联系。"民意抽样调查有一个基本前提——人们的“属性数据”将决定人们的言语和行为。然而,随着人际关系网络的兴起,人们的言语和行为越来越受到其社会关系和社会阶层的“关系数据”的影响。社会网络分析是一套理论、方法和技术,用于测量和调查社会系统中各部分(节点)的特征和关系(联系),以网络的形式表达它们,然后分析它们之间关系的模式和特征。描述和测量参与者之间的关系或分析通过这些关系流动的各种有形或无形的事物(如信息和资源)的方法,主要包括图论、社会计量学和代数方法。图论适用于描述小规模通信集团的核心关系和集聚力。社会计量学适用于研究结构对等和“块模型”之间的关系。代数方法适用于分析角色和职位之间的关系。从研究的角度来看,它大致可以分为两种:关系取向和位置取向关系取向主要研究社会行为者之间的社会联系——密度、中介、强度、对称性、规模等。位置取向主要关注社会行为者之间的社会关系模式,不同行为个体是否具有相同的结构地位,并强调使用“结构对等”来理解人类行为目前,社会网络分析主要使用Gephi、UCInet、Pajek、NETminer、MultiNet、NodeXL等软件,其中Gephi、UCInet等使用最频繁。

(2)基于文本的分析:词频和语义网分析舆论是由各种词语组成的信息文本。文本中词的数量和词与词之间的关系可以突出信息文本的价值、语义结构和社会需求。因此,近年来,许多研究者将词频分析、词对词关系网络分析等方法引入到舆情分析中。

1。词频分析分词是文本挖掘的基础。对输入文本进行成功的中文分词可以达到计算机自动识别句子意思的效果。词频分析是对舆情文本中重要词语出现次数的统计和分析,是舆情文本语义挖掘的重要手段,也是文献计量学中传统的、有代表性的内容分析方法。基本原则是通过词语出现频率的变化来确定舆论的焦点及其变化趋势至少在认知层面上,关键词被提到的越多,表达的需求就越集中和迫切。词频分析可以实现微博和微博聊天分析、新闻文本分析、分词、词频统计、英语词频统计、流量分析、聚类分析等一系列文本分析。

词频分析的基本步骤是首先对文本进行切分。分词的基本前提是必须有一个相对完整的“词典”。词典的单词容量越大,分词的准确度越高。分词后,计算关键词的数量,即词频目前,词频分析工具越来越多,尤其是一些在线工具,如土月、按钮词云、腾讯文志、新邦词云词频分析、Excel词频分析工具、易词云等。国外更著名的在线工具是Tagxedo、艺术字、艺术字等。近年来,随着各种编程语言的出现,使用Python语言进行词频计算的研究越来越多。通常,Python中的jieba包的中文分词工具(https://pypi.org/project/jieba/)用于对象文本的分词和词频计算。

2。社交语义网社会语义网只是一种陈述,它主要通过社会网络分析工具将各种高频词连接起来,形成高频词网络,进而推断语篇的主要表达逻辑和焦点具体来说,有以下不同的分析方法和手段

1是共词分析。共词分析的基本原理是通过计算一组词项在文本中出现的次数,并对这些词进行聚类以反映这些词项之间的强或弱关联,从而分析由一组词项反映的文本的主题结构。一般来说,一个词对出现在同一篇文章中的次数越多,词对之间的关系就越密切。一个词对在大量文档中出现的次数越多,这个词对和文本之间的关联就越强。共词分析可以通过使用一组结构图来有效地显示词项之间的关联。一般来说,点的大小代表单词的频率。节点越大,单词频率越高。连接的粗细表示两个单词同时出现的次数。共生越多,联系越紧密。

(2)“地理位置社会网络”综合评价地理位置数据具有多源、异构、高维和动态的特点。这些特点使得地理位置大数据的模式多变,相关性复杂,使得各种信息(尤其是物理空间信息和社会空间信息)的相关性映射成为必要。该领域的相关工作主要包括实体提取、主题建模、基于位置信息的搜索等在地理位置大数据信息的关联映射和融合阶段之后,为了进一步进行高效的群体智能认知和实际应用分析,有必要对其进行有效的表示。张量作为多源异构大数据集成的有效表示方法,也受到了广泛关注。鉴于深度学习和张量在大数据表示中的优异性能,近年来提出了一些基于张量的深度学习方法,如Porsman机、张量递归神经网络、深度张量神经网络等。

(3)“动态实时”结构演化分析社会网络结构是舆情信息传播的载体,但由于个人在社会网络中的不断进出,社会网络具有高度的动态演化性,这直接影响和制约着舆情信息传播的进程大量研究表明,社会网络结构的动态演化是由结构的微观变化决定的。对群体行为本质规律的理解离不开对社会网络结构动态演化微观机制的深入理解。对微观结构演化的缺乏理解,割裂了社会网络结构与信息传播之间的动态关系,无法更好地理解群体行为的本质,实现准确的舆论预警。因此,建立社会关系结构的微观动态模型,并对其结构进行动态把握和演化,是未来舆情预警研究的关键。注

:

①孟晓萍:《揭示公共关系的奥秘——舆论》.[M,中国新闻出版社1989年版,第8-9页

②利奥塔,《后现代状况》,明尼苏达大学出版社1984年版,第131

页(作者是中国人民大学新闻学院副教授,中国人民大学新闻与社会发展研究中心副主任)226

大家都在看

相关专题