易表达：问卷数据的信度和效度怎么分析？-动态详情

易表达：问卷数据的信度和效度怎么分析？

2022-04-12

易表达是一家专为个人和企业用户解决数据收集及管理分析的互联网公司。作为技术驱动型公司，从表单/问卷创建、发布、管理、数据收集到分析服务，易表达致力于为用户提供快捷高效的用户使用体验，优质的服务是我们一直追求的目标。

信度

如果你体重稳定，但在同一个秤上测了多次，体重浮动很大，就是信度不足。换言之，信度是用同一测量工具对同一对象反复测量，所得到的答案的相似度。在调查问卷中，信度通常用来检验量表结果是否可靠。

评估信度的方法有：测试-再测试、等价形式、内在一致性。

测试-再测试（再测信度）

怀疑秤不准的第一反应，当然是再称一次。

顾名思义，测试-再测试就是让同一批受访者再答一次，看前后答案是否基本一致。

但正如那句哲言：人不能两次踏进同一条河流。再测试可能会存在一些不确定性：不是100%受访者都愿意配合再次问卷调研；经过再思考、再判断后的答案会改变；两次测试间隔时间内，受访者的想法可能因为各种因素转变。

等价形式信度（复本信度）

秤不准还可以换个秤试试。电子体重秤不准，我就换机械体重秤，它们都是用kg表示重量。

等价形式信度，就是用等价形式测量工具重测，从而有效避免上文中提到的问题。比如，间隔2-4周后再测试同一组受访者，但使用另一套完全等价的问卷量表。问题在于设计两份数量相等的量表很简单，但测量尺度100%相等几乎不可能。等价量表不仅设计难度大，要投入的金钱和时间等成本也高。

内在一致性信度

内在一致性信度可以弥补上述两种方法的缺点，当量表内部各题间难度相当，且相关性很高时，表示它内在一致性信度很高。内在一致性信度有三种计算方法。

l 折半信度：折半法可以看做是复本法的特例，它要将量表拆分成均等的两半让同一批被试填写，检验两半份问卷的相关性。一般按照题目的奇偶数拆成均等的两半，题量越大，信度系数越高。但不同的拆分方法会得出不同的结果。

l KR20（Kuder & Richardson）信度：这种方法要将每个答案赋予简单分数，答错为0，答对为1。

l 克朗巴哈α（Cronbach Alpha）系数：这种方法需要计算所有可能的二分情况的信度系数均值，如果某题和其他之间缺乏相关性，则要把它删去。一般来说，计算结果大于0.7是可接受的数值，越大说明相关性越高。

而信度系数较低，一般是样本量小、每个维度的题项少导致的。如果问卷设计质量不高，或者样本量太小，那么即使被试都是真实作答，信度也不会好。

效度

效度指测量工具本身的有效性，也就是能否通过量表找到研究问题的答案。效度也涉及测量工具避免误差（系统误差和随机误差）的程度，也就是测量分数的出入只反应了我们所测量的特性的真正差异，而非系统或随机误差。

比如，测量体重的最终目的是衡量自己的胖瘦，如果体重增加能说明体形变宽、脂肪增加，那就具有一定效度。

测量效度的方法有：表面效度、内容效度、准则效度和结构效度。

表面效度

当调查似乎没有测量它声称测量的东西时，它的表面有效性就很低。

内容效度

它涉及对调查内容的系统检查——量表足够覆盖了要研究的主题。例如一项对方便面品牌态度的消费者调查，设计者从产品的风味/调料/质地、产品的健康和自然性两个因子设计各类因素，但方便食品的方便性、性价比、广告和交流等重要因素却没有被测量，因此这份量表不具备内容效度。

所以调查者在设计问卷时，需要收集大量资料和数据，对测量概念、对象做出精准界定，也可以通过焦点小组访谈、专家座谈会、增加预测试中的开放题等方法集思广益。

准则效度

准则效度分为预测效度和同时效度。

l 预测效度是当前量表可以预测一个准则变量的未来值的程度。比如，入学考试能预测学生新学期的绩点，那么效度合格。

l 同时效度是预测变量和准则变量之间同时段的关系。比如，面向生物学专业大学生一份评估生物知识的综合测试，如果他们的测试分数和绩点存在高度相关性，那么效度合格。

架构效度

如抑郁症之类没有客观实体、不可观测的概念/特征，我们只能通过观察其他指标来衡量，比如悲观程度、精力等。对于这类测试，可以用以下方式测量效度。

l 收敛效度：用不同方式测量同一概念会产生类似的结果。比如被试用自我报告和观察两种测量方法，得出的结果高度相似，说明效度可靠。也可以用不同测试检验效度，比如韦氏智商测试的效度，可以对比斯坦福-比奈版智商测试的结果进行检验。

l 区别效度：如果某品牌忠诚度测试和竞品的品牌忠诚度测试，二者结果之间相关性越低，那么说明测试的效度越高。

如果将靶心当作调研目的，投飞镖的过程看做是问卷调查。各个靶点集中，说明调查结果能准确反映调查对象的想法，即信度高；而集中于靶心，说明调查结果能切实解决研究问题，即效度高。

信度是效度的必要条件，信度不高效度必然不高，但信度高不代表效度一定会高。正如一个坏掉的秤总比实际重3斤，虽然每次都能得到相同结果，但也不能有效说明你的胖瘦变化。