【案例】情感分析在用研中的初步探索

作者:鬼谷子

 

前言:

用户研究常常需要依赖数据,最常见的莫过于用户调研数据(了解用户的基本属性,态度,决策,满意度之类的),还有就是后台的用户行为数据,有时我们还会接触许许多多的像文字这样定性的数据,比如用户建议(一般而言比较短),再者就是做手机时我们常常需要看看用户的评论,一般在京东、天猫等主流平台上,都会有一个好评率,比如97%、94%之类的,但是这个比值一般比较粗略,用户一般倾向于好评,这就掩盖了用户对于产品的真正的评价情绪倾向。

其实评论数据对于用户研究报告非常的重要,因此我们希望能够利用各种方法进行一些信息挖掘,将其进行可视化处理,便于结果的可读性,比如词频分析,情感分析、文本聚类、典型意见分析等。最近一段时间,对于情感分析进行了较多的尝试,希望和用户研究结合一下,情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中,通过这种方式,情感分析可以被视为利用一些情感得分指标来量化定性数据的方法,目前主要应用在消费者对产品的反馈信息,或者检测在线评论中的差评信息。通过情感分析我们把电商评论等文本数据分为正面,中立,负面三种类型的数据,然后可以进一步挖掘正面评论数据在夸赞什么,负面评论在批评什么,这样我们便可以将文本数据进行可视化展示,哪里做的好,哪里做的差,尤其是在大样本的情况下,如果人工逐条查看,不仅效率低下,而且人工成本也非常大,介于此,情感分析在用户研究中也有重要的价值。

目前关于情感分析研究的工具,我用的是Python,之前在具体的情感分析中会存在各种担忧,其中最重要的就是判定的依据了,也就是正负向情感词典是否权威,是否全面,是否能够真正地把不同情绪区别开来,目前很多在线网站来做情感分析,比如八爪鱼的微图以及一些中文语义平台,经过试用一段时间,最大的感受是比较方便,直接把文本放进去就可以了,但是对于结果不是很满意,一是结果少,可利用价值低,二是结果精确性上不满意,此外就是自己亲自采用机器学习或者基于情感词典两种方式来进行分析,这种方法比较麻烦,对于分析者本人技能要求较高,很多东西都要自己亲自去探索,鉴于此,无论是从过程上还是结果上都会存在很多的漏洞与不足,经过一段时间的探索,了解到BOSON(波森中文语义开发平台),它能够提供给我们情感分析的API,其依靠自主研发的千万级中文语料库,强大的半监督机器学习引擎,将中文语义分析的精准度提升到商业应用级别,结果正确率在85%左右,为了验证结果的正确率,进行了初步验证,结果还是非常令人信服的。

 

案例介绍:

接下来就以某手机的电商评论来做个例子分享,首先要对京东、天猫两家平台的相关评论行爬虫,共计2202条用户评论,然后首先要做的便是数据清洗,把那些无意义的评论删掉,如下图所示,我们更多关注的是对手机产品本身使用体验及功能的评价,因此最后保留1312条有效评论。

数据分析采用的是Python 3.6.2版本,代码太长就在此略过,结果的呈现是每条评论都会有一个分数区间,比如“首先手机的设计给人眼前一亮,很有逼格。手感很好,运行速度也很快。玩游戏毫无压力。”这条评论的情感分数区间是[0.95,0.05],左边的数值0.95代表正面情感分数,右边的代表负面情感分数,很明显积极的分数显著大于消极分数,此外我们设定一个判段标准,即正面>0.65、负面<0.35,中立介于两者之间,将所有的评论放进程序中,结果如下图所示:

从条形图我们可以看到积极评论只有64%,而负面倾向的评论有26%,说明产品本身确实有很多值得改进的地方。到此,可以进一步对情感评论进行下一步挖掘,这里我们做了典型意见分析,依然调用的是BOSON API,结果如下表所示:

通过以上步骤,对于文本的情感分析大致做完了,其实还有很多方法可以与情感分析进行结合,比如用户基本属性数据,词频分析等等。

 

总结:

情感分析目前在用户研究应用当中还较少,考虑最多的还是结果的精确性和软件的易用性上,相比于大多数的在线网站语义分析,BOSON平台提供了很多类型语义分析的API,对于用户研究者来说,是个不错的选择。以往文本分析做的更多的是词频统计,同时对于文本的分析往往弱于对数字型数据的分析,面对互联网时代这么多的文本,我们用户研究者有必要从多角度对它进行更深的信息挖掘,避免资源的浪费

文章授权发布在UXRen官网。

 

 


推荐阅读

未来的搜索引擎:语义搜索优化
设计思维方法赋能设计落地
【Google报告】在线旅游:一坨数据告诉你用户如何决策
【视频课】8课时掌握用户角色/用户画像方法
再谈Google的HEART框架(产品体验评价指标模型)

发表评论

您的电子邮箱地址不会被公开。