定量研究小Tips:问卷计分方式的选择&不同分数制结果的转换对比

前前前前言

作为用户研究员,问卷调查是我们最常使用的方法。而在问卷的设计和使用过程中,我们总会是不是遇到这样的困扰,即评分方式的选择和应用。在阅读了一些文献资料和尝试验证后,我们希望用这篇文章回答的两个问题:

  1. 在设计量表类问题的时候,最好选择怎样的评分量表(分数制)?
  2. 如果我有来自两种不同分数制的结果,能把他们拿来对比吗?

 

第一个问题,最好的分数制是什么?

给个快速的答案:天知道。(时间宝贵的请直接前往第二个问题)

从李克特量表最初提出(1932年)开始,研究者们就开始讨论在问卷中最佳的分数制应该是几点了,但到目前为止仍没有明确的定论能够判断哪种分数制是最好的。

有越大越好派:

李克特在提出其测试方法时就表示量表点数高的情况更好(7分>5分): 给到用户更多选择意味着给到用户更多考虑的空间。而后续Tarka(2015)的研究也表示:相对于5或7分制的问卷,9或11分制的问卷提供更好的探索性因子分析结果(5,7分制同样能够提供有效的因子结果,只是在信效度指标上较低)。

还有坚守的5/7派:

5/7派最坚定的理论来源于心理学关于工作记忆的研究:人类工作记忆在同一时间内能处理的信息为7±2个组块。而且从数据结果来验证,这些研究者们也得到了支持性的结论:Lozano(2008)的研究发现4~7分数制的数据信效度最佳,低于4分的问卷信效度不足,同时大于7分也并不会带来信效度的增益。而Revilla等人(2014)的研究则表示随着分数点的增加,数据结果信效度、均值质量都出现了降低,即5分>7分>11分。

另外,Chen(2015)则通过记录用户填写问卷时的眼动信息发现:5分制的问卷是用户最容易认知和处理的。

 

第二个问题:不同分数制的结果能比吗?怎么比?

同样的快速答案:可以,但你得先用下面这个公式对每个用户的打分进行转换

转换公式:Y = (B – A) * (x – a) / (b – a) + A。公式中A, B为新的分数制的最小&最大值;a, b是原分数制的最小&最大值;x为用户在原分数制中的打分,而Y则是新分数制中的分数。以1~5分转1~10分为例,这个公式为Y=(10-1)*(x-1)/(5-1)+1=2.25x-1.25.

其原理是以两种分数制的最大值和最小值为锚点,借助 “0~1”的中间桥梁,实现两种分数制之间的结果转换。这个公式是被较多相关学术研究所使用并验证的。而且SPSS的客服网站(IBM Support)上也推荐使用这个转换方式,并提供了详细的推导过程,感兴趣的可以查看。

Dawes(2007)就使用这种算法将5, 7, 10分值得到的数据结果都转化为10分制的结果进行了比较。他发现三种分数制的结果在转化后并不存在标准差、分布形态上的差异;但5分和7分的结果转化为10分制后的平均数,相比于本身就使用10分制量表的结果,高出了0.3(统计意义显著)。同时也有Felix(2011)采用同样的方式将3,5,9分的数据统一转换为7分制之后,发现几种分数制的结果虽然确实在均值、数据分布指标上有一定的不同,但并不存在统计意义上的显著差异。

 

实践是检验真理的唯一方式!

从论文结果来,我们并不能得出一致的结论,更何况大家的具体情况都不太一样:Dawes(2007)在验证过程中采用的是“电话问卷”,而我们常用的是网络问卷;Felix(2011)的研究中采用的样本量都比较小等等。

所以… 我们决定用自己的数据来验证下:分数制的转换是否会导致分数出现明显的差异, 即用5分制量表获得的结果,转换成10分制结果后,会不会比原本用10分制获得的结果高/低?

简单介绍一下验证的过程:

  • 第一步:为了平衡用户差异导致的分数误差,分别在问卷开始和结束的时候询问同一个评估指标,且分别使用5分和10分两种分数制,即用户需要分别在5分和10分上进行两次评估;
  • 第二步:为了平衡题目顺序导致的分数误差,我们将这份问卷复制了一遍,然后对调了5分和10分制的题目顺序;
  • 第三步:将两份问卷在同一时间段内,投放给同样属性的用户。

基于这些变量的控制,我们可以假设:5分制和10分制所获得的指标结果是相等的,即在转换分数之后,两种分数制之间的结果不会表现出显著差异。

在清洗掉一些不合理的问卷之后,我们的两份问卷分别提供了323和370份,总计693份结果。详细结果如下图:转换后获得的分数结果与使用原始分数制获得的结果之间确实存在数值上的差异,但这些方差检验的结果表示这些差异并不显著,从统计学上来讲是没有意义的。

基于以上的检验结果,我们可以获得一些结论:

  • a) 5分制还是10分制并不会影响用户对你产品的评价;
  • b) 你完全可以将5分制的结果转换为10分制,然后和其它10分制的结果进行对比;而对比得来的差异会是其它因素导致的(例如时间变化、样本属性等等)。

 

差不多该结束了,给大家一些建议

结合学术研究以及我们数据的检验结果,这里提供一些分数制的使用建议:

  • a) 对于持续性的研究,我们建议不要更换往期的分数制;而如果你马上要开始第一次调研,那么我们推荐使用5分制;
  • b) 在非必要的情况下,避免对比不同分数制之间的数据(你很少能像我们这样控制影响变量);如果一定要对比不同分数制的数据,那么我们和IBM一起推荐使用上述公式;

 

参考文献

Joshi, A., Kale, S., Chandel, S., & Pal, D. K. (2015). Likert scale: Explored and explained. British Journal of Applied Science & Technology, 7(4), 396.

Tarka, P. (2016). Likert scale and change in range of response categories vs. the factors extraction in EFA model. Acta Universitatis Lodziensis. Folia Oeconomica, 1(311).

Revilla, M. A., Saris, W. E., & Krosnick, J. A. (2014). Choosing the number of categories in agree–disagree scales. Sociological Methods & Research, 43(1), 73-97.

Chen, X., Yu, H., & Yu, F. (2015). What is the optimal number of response alternatives for rating scales? From an information processing perspective. Journal of Marketing Analytics, 3(2), 69-78.

Lozano, L. M., García-Cueto, E., & Muñiz, J. (2008). Effect of the number of response categories on the reliability and validity of rating scales. Methodology, 4(2), 73-79.

Dawes, J. (2008). Do data characteristics change according to the number of scale points used? An experiment using 5-point, 7-point and 10-point scales. International journal of market research, 50(1), 61-104.

Coelho, P. S., & Esteves, S. P. (2007). The choice between a fivepoint and a ten-point scale in the framework of customer satisfaction measurement. International Journal of Market Research, 49(3), 313-339.

Felix, R. (2011). The impact of scale width on responses for multi-item, self-report measures. Journal of Targeting, Measurement and Analysis for Marketing, 19(3-4), 153-164.

赞 (1)