爱评车-【观点丨为什么38号和妇科张的油耗测试不能相信？】

话题

观点丨为什么38号和妇科张的油耗测试不能相信？

奖励：200两

观点丨为什么38号和妇科张的油耗测试不能相信？

这个事情争论的核心很简单：妇科张和38号赞同的普拉多单次油耗同工况测试可信吗？
知乎一些网友的答案是这次测试的结果不可信，因为不符合小熊油耗的值。
38信徒的反击是：1、同工况就是可信的；2、小熊油耗不可信，因为有人故意输入异常值。后者好像作为吵架，撕逼的逻辑完美，但是，作为一个本科概率统计过了60分的前理科生，我的答案是网友们是对的，38和妇科张不可信。
首先从基本概念开始：
第一，样本值、测量值、总体。
提问：这个案例中38号测试的成绩是那个？
我想大家不会说是总体，主要的争议在于样本和测量值，答案是38的测试属于测量值（观察值），而小熊油耗上普拉多车主自爆油耗值属于普拉多车型的样本值，根据这个样本值，我们可以按照统计学原理推定普拉多车主的总体油耗区间（依据是大家都知道的正态分布假设，即所有车型无论影响油耗的变量为何，都遵循正态分布，38们可以不承认，因为可能地球上的自然规则对他们不起作用了）
接下来就要反驳38信徒对小熊油耗的质疑了，还是这个正态分布起作用，如果有人故意输入偏误油耗那么就会出现统计值上的均值、众数、中位数这三个样本统计量的偏离，而对于这类偏误明显的油耗数据的车型，小熊不会报告，那么这三个值重合数据就没问题了吗？如果不放心，还可以根据样本数据做个正态分布的假设检验，但是50个样本以上的样本值，我们经验估计已经可以了，假设检验也不难，随便找个统计软件就能做，具体在小熊油耗的官微有；
第二，逻辑。
我凭什么说他们这个测试不可信呢？
还是根据正态分布，回到上面说的三个概念，我们如何判定一次测量的值有效与否？如果你有了普拉多的样本分布那么就可以利用小熊油耗报告的样本区间估算出总体数值范围，怎么算呢？根据样本值推算出的方差开平方得到标准误差SD，然后观察值在样本中的分布范围就出来了，由于正态分布的样本和总体是有推定逻辑关系的，所以也可以用这个SD估算某一次测量值在总体分布中出现的概率，也就是大家都知道的95%的置信度；那么结论来了，小熊油耗的普拉多车主平均油耗是12L（往下取，照顾妇科张）方差是1.54，标准误sd是1.24，95%置信度区间为12正负两个sd，为9.76--14.48（见小熊给出的官微图），所以张妇科这个数据出现在统计范围内的概率极低，属于一个异常值，你如果试图判断普拉多的油耗，这个值毫无用处。（这一步大部分人还是能接受的，我只是做了理论说明）
第三，假设检验。
这是关键的一个逻辑推定，为什么VV7S和普拉多的油耗可以比？
38号和粉丝们一再强调我的工况相似度如何如何，那么问题回到了比较研究的基础，为什么能比？不是因为有差别，而是因为有太多的共同点，所以可以比。哎，38这不对了吗？且慢，我们来看看这个逻辑推定中存在的假设检验到底怎么来的：
H1：同等工况下两台车油耗数据对照各自总体数据有可信度；
H2：在H1成立前提下两组数据具备可比较性；（这个可比性问题38都解释了，开森，不用我费口水了）
看明白了？这个数据的比较并非是简单的测量值比较，而是多了一个可信度？怎么回事？因为问题回到了我们开篇就说明的概念，如果你只是比较这两个测量值，ok，没问题，但是请不要做超出测试的任何判定，这就是两个数值，只对这两台车有意义。
如果是想说在同等工况下长城的油耗比普拉多高，那么就意味着你试图用这个档次测量值去推导样本值，再用样本值推定总体，麻烦来了，请你符合统计推断要求下的假设检验，所以就变成了我上面提出的H1和H2，首先你要检测这两个数据值在统计样本里面可信不可信，惨惨惨，普拉多已经不能信了，那么长城能吗？我不知道，因为我不知道长城的样本值范围啊，但是H1已经被否定了，因为你用了一个统计上不可信的异常值，并试图用这个值代替普拉多的油耗均值，这是违背了统计推断的原理的，是不行滴；那么长城呢？也许长城的值正好落在了置信度区间内，也许不在，但是不关键了，因为作为对比的普拉多数据已经有问题了，是不可信的数据值了，没法做推断用了，H2已经不用继续讨论的啦。
所以结论很明白了：
1、小熊油耗是可信的，因为有统计原理和假设检验的支撑；
2、妇科张的油耗测试值不在已知样本的置信度区间内，属于异常值，不能作为有效值进行进一步的推断使用（就是38们想证明的H2成立并得出两车油耗结论）；
大结论：理科生也要懂统计，不然就是半文盲。