传媒研究•人机互动与协同:人工智能在网络舆情分析中的新范式

 2018-01-03 16:57   喻国明 马思源

  在社交媒体部分,清博大数据平台可以抓取微博账号、微信公众号和头条号中的信息,并根据阅读量、转发量、点赞数、评论数等指标配比计算“排行榜”,并为其品牌价值估值。

  舆论是“社会的皮肤”,是反映社会时势的晴雨表。而舆情分析是根据特定需要,针对社会舆论问题对于相关数据进行深层次的思维加工和分析研究,得到相关结论的过程。网络是当下社会舆论的主要载体之一,在互联网时代,尤其是移动互联网时代,大数据及大数据分析技术为舆情分析和研判提供了全新的资源、方法与范式。从总体上说,现阶段网络舆情分析的基本框架为:信息采集、热点发现、热点评估与主题跟踪和分析处理。

  由于网络舆情数据存在着海量、多维度等特点,舆情数据的深度价值挖掘一直是这一领域发展的瓶颈之一。近年来,随着人工智能技术的兴起与实用化,为我们借助于人工智能实现网络舆情分析的自动化、智能化、精准化提供了新的手段和路径。一些研究者也做出有益的探索,如使用小波分析分解舆论发展过程,再利用人工神经网络进行建模预测舆论走向使用神经网络仿真模拟舆论发展过程;使用灰度预测和模式识别预测舆论走势等。这些研究均取得了一定进展,但囿于技术条件和对互联网传播行为理解的不充分,前沿研究尚未形成系统的、可大规模应用的成果。

  现阶段网络舆情分析范式与不足

  当前国内存在不少网络舆情监测分析软件,知名的有人民网舆情监测平台、方正智思互联网舆情监控系统、新浪微舆情、百度舆情,以及新近影响力较大的清博大数据平台(包括清博指数、清博舆情)等。

  考虑到新近成立的公司技术较为先进、信息集成水平较高、理论支持较为系统、开放性较强,本文选取新近成立的清博大数据平台为案例进行分析。按照清博大数据平台自我的介绍:其网络舆情信息采集系统可对新闻网站、论坛等进行全天候定向抓取信息, 还可利用百度、谷歌等搜索引擎进行信息补充, 并进行关键词、关注度、转载率等统计分析,对热搜信息进行情感判断,并凭此进行舆情预警。

  应该说,清博大数据平台在网络舆情分析领域做了很多努力,其主导的微博指数、微信公号指数、头条号指数被广泛引用,也是许多公号、新媒体运营组织绩效考核的重要标准。但如果我们从网络舆情分析的流程及其展现的技术解决方案等方面进行技术剖析,其不足也是非常明显的。

  信息采集及预处理环节:缺乏不同维度的合理赋权

  清博平台追踪了相当数量的网页、微信、微博等信息,并智能识别相似文章,在预处理过程中消除了一部分噪音。但在数据预处理时,基本是网页、微信、微博、客户端等来源舆情的简单加和,没有对不同媒介来源的信息进行加权处理。在互联网上不同媒介渠道的传播模式和影响形式均不一致,开放式社交媒体、私密性社交媒体、门户网站等不同的媒介渠道影响的广度和深度,传播路径都不相同,因此简单加和的处理方法会扭曲其中的某些重要信息。在技术上,为不同媒介的影响力赋权重应该是必要的数据处理方向。

  在针对微博、微信公号进行内容分析时,清博平台的确采用了两化特征、赋以权重的做法。但平台选取的特征指标比较简单,基本是阅读量、转发量、点赞数、评论数等客观因素,对用户的反馈、传播的深度尚缺乏一定的探索。而且平台不是通过机器学习的方式,而是通过人工手段直接分配权重,使各个维度的重要程度受研究者倾向性的影响,舆情不能够真正合理地呈现其结构性的本来面貌。

  热点发现环节:预测能力的匮乏与定制外发现能力的盲区

  清博平台为用户提供了个性化定制服务,用户可以通过输入关键词来进行定向舆论监测。在热点发现的过程中,热点计算依赖某一事件的活跃程度,即只有该事件已经成为一个“热点”,拥有一定舆论影响力后,才能够被平台发现并报告,用户才有机会进行预警、分析等处理。这样的网络舆情分析做到了一定程度的精确,也比较可靠,但缺点是预见性不足,往往使用户忙于处理已经形成的舆论危机,尚不足以称之为热点“发现”。

  同时,输入关键词的个性化定制服务掩盖了清博平台全网监测的弱点。在不给出热点词汇的情况下,平台的全网监测容易迷失,倾向于推荐早已在舆论场上炒得火热的内容。这从技术上侧面暴露了在数据预处理过程中,平台对事件所属类型、各类舆论在社会上的关注度权重等特征设置仍较为粗糙,导致后续的分析工作不能有效配合。对比学术研究领域中提出的热点发现技术,诸如聚类、半监督学习、神经网络模拟等算法,清博平台对学术领域提出的算法应用还不够深入,主要使用分词法和词频统计做简单的热度判断。当然,词频统计和分词法的技术发展较成熟,这也反映了学术层面上现有的预测算法功能还不够稳定,与大规模应用尚有距离。

  分析处理环节:尚无基于自学习功能的分析模型的修正与迭代

  清博平台为用户提供监测对象的热度分析,情感分析,帮助用户进行应对。其中热度的时序分析和来源分析较为清晰全面,用户可以看出舆论走势,并了解在不同媒介中的传播情况。但平台的情感分析精度较差,只能做出正面、中性、负面三种评价,这种较为简略的评价依托于成熟的中文分词法,但很难对反讽、比喻、暗示等复杂的修辞和情绪进行判断。正负情感分析在舆情发酵的初始阶段有助于设计应对策略,当舆论已经产生较大影响之时,即被平台监测到的时候,其情绪无疑多数为负面,情感分析带来的参考价值大大降低。

  清博平台为高级用户设置了舆情报告的分析服务。这部分服务主要依靠专家库的意见进行人工分析和处理。作为网络舆情分析的重要环节,平台对已有舆情的处理流程不够自动化,只有专家库,没有意见库,每一次类似舆情产生时,都要依赖人工手段进行处理,处理效果也不清晰。这一设计可能受到商业考虑的影响,但事实上,对已有舆情及其解决办法的不了解,会损害对未来舆情发展情况的研判。不了解以往舆情从发展到平息的过程,就很难对形成中的舆情进行预测;不了解以往舆情的处理效果,就很难改善应对下一次类似舆情的能力。平台的网络舆情分析没有充分数据进行训练、舆情应对的效果检测没有办法自动迭代,由此,平台会发展成为知其然而不知其所以然的大数据库,最终与智能化、自动化、精准化的愿望背道而驰。因此,平台应探索将舆情从产生到消弭的整个过程,以及应对措施都作为珍贵的样本,将其量化,作为机器优化算法的材料,有助于提升机器对舆情的预测和解读能力。

  概言之,现阶段网络舆情分析的不足可以主要归结为“人机不协调”的问题。在应当使用机器进行学习和处理的权重配比、走势预测、情感分析、效果检查上,现实应用显得机械、浅层次;而在应当使用人工进行分析的特征维度划分、对策建议提供上,现实应用又显得粗糙、重复,且机器对人的辅助不够有力,分工协同的模式还不成熟。在未来的人工智能时代,如何协调人类智慧和机器能力之间的关系,使之彼此配合、相互促进,是值得进一步思考的问题。

  人机互动、双向协同:人工智能在改善网络舆情分析能力效果方面的努力方向

  得益于数理算法和计算机科学的发展,人工智能时代的机器学习能力日益增强,这对于网络舆情分析领域实现自动化、精准化、智能化创造了新的契机,而实现新要求的关键点在于切实实现网络舆情分析领域中的人机互动与双向协同。

  数据预处理环节:特征的人工识别与机器匹配的协同

  在互联网的社交网络中充斥着非结构、半结构数据,数据库需要为这些数据提供合适的存储标签,方便分类和调用。但在数据特征分类上,人的作用至关重要。完全依赖无监督的学习,不仅需要大量数据拟合,而且速度慢、容易产生偏差。因此,在最初的特征分类中,可以由人工尽量设计较细的分类,此后通过信息增益等算法,经历半监督式机器学习的训练,在分类环节可以去除影响力较小的部分,留下影响力较大的部分,在机器能力支撑下建立合理的特征维度数量,并赋予权重,这种特征的构建方式更能体现舆情信息的原貌,对现实的解释力更强。

  热点发现环节:话题预测的机器提示与人工选择的协同

  人工智能是建立在数理模型和计算机支持上的一种应用,其内核依赖因果逻辑和概率统计。即使人工智能可以自动探索不同事物之间的关联,它判断是非的方式只能是:第一,A能推导出B,或不能。第二,根据以往经验,某事件有多大的概率会发生。所以,想让人工智能做出正确的判断,要么存在必然的因果逻辑,要么有足够的案例用以辅助统计。

  然而,正如经济学的纯粹理性人并不存在一样,现实生活中有许多事物并不真正按照因果逻辑运行。很多情况下,人工智能需要依靠概率预测事物的走向,但又不是任何事情都有足够的先例可供学习。因此,在“见著知微”的方面,人工智能大有作为,或可发现许多事物间潜藏的逻辑关系或概率关系。但在模仿人类直觉,即“见微知著”的方面,人工智能要么会做出错误的判断,要么在给出一个正确判断的同时,也给出了更多它所认为的、在人类看来却十分荒谬的答案。

  对舆论的预测很难按照因果逻辑执行,想做到准确预测只能先依靠足够多的、已完结的舆论话题作为机器学习的对象,寻找他们概率上的特征。凭借之前的这些经验,将有可能产生重大影响的舆论,在萌芽期识别出来,并设计回应办法。即便如此,机器也不可能完全精准地预测舆论,在一定范围内的预测建议中,需要人的智慧进行分析判断,找出真正存在进一步发酵可能的舆论。同时,这样的人工选择行为需要完整的记录,作为机器进一步学习的训练集,以供下一次舆论预测参考。这种人机互动的模式可以提升机器学习的能力,使人工智能逐步达到更高水平,更加智能地为人提供辅助。

  对策分析环节:专家库的经验及其量化

  技术领域公认,操纵机器进行情感分析,比事实分析难得多。机器可以通过分词法、训练集的反复训练学会分析句子成分、找到陈说的事实,但对于微妙情感的辨析,反讽修辞的运用,机器极难进行判断。鉴于此,在对舆论进行整理、分析和预测的过程中,人工智能对于事实的理解能力可以提升到与人类比肩的程度,但对于舆论的情感判断,机器恐怕很难达到人类的理解高度。

  在互联网时代,情感是一种十分重要的逻辑,许多互联网事件的发酵、扩散,背后都有情感诉求的影子,有时情感诉求甚至超出理智诉求,成为左右舆论极重要的一个因素。因此,在舆情分析的对策环节中,梳理的事实可以由机器提供,但对策建议始终要依赖专家的经验。当然,对专家库中的经验予以量化,可以为类似舆情再出现时提供辅助建议,逐渐使机器的智慧能为人类提供更高水平的咨询意义上的帮助,乃至应对一些常见的、并不新颖的舆情危机——而这类危机通常占危机发生总量的80%以上。

  人工智能技术支撑下的网络舆情分析的新范式

  人机互动是人工智能应用于网络舆情分析的重要逻辑,结合现有网络舆情分析模式与流程,以及每一环节的技术支持情况,我们提出人工智能技术支撑下的网络舆情分析的新范式。即遵循从现实问题,到量化建模,再到探索结论的基本方向,并在每一详细环节中遵循人机互动与协同的原则,对人工智能技术加以有效应用。

  应该说,人工智能的建立,得益于科学界量化整个世界的尝试。科学界试图构建模型来表达纷繁复杂的客观世界,并得到了许多成就。这些成就在一定程度上鼓励了“计算主义”哲学的发展,信奉计算主义的人认为世界在极大程度上是可以被量化的,因此人工智能才能够比我们想象的更接近人类。显然,这种信仰并不代表真理,而相反,有更多的学者质疑,我们的世界中不能量化的问题远远多于可以量化的问题,现代经济学、社会学、政治学的一些研究也表明,不同于自然法则,在人为世界中,人的复杂程度远超过我们自己的想象和技术可以完全把握的能力。

  因而,唯有人和机器相互促进,人的创造力才能被释放,而非被科技所奴役。人类凭借本身的经验、判断和天赋提出新的理论,解决问题的框架,而人工智能强大的数据处理能力和逻辑演绎能力可以为这些新颖的想法提供验证、修正或否定。人机互动的视角不仅对人工智能条件下的舆情分析具有启示作用,对所有社会科学而言,人机互动也可以成为普遍遵循的解决问题的模式。

(作者单位:北京师范大学新闻传播学院,编辑郝娟)