韭菜庄园里的韭菜 的讨论

发布于: 雪球回复:57喜欢:20
胡说八道!阳了自己居家,也不用上报,大数据从哪里来?

热门回复

2022-12-15 00:44

新冠大概是人人都能了解,但并不是人人都在体验,90的无症状感染者不会有体验,也不太会有兴趣投票,他们可能更关心沪上阿姨的道歉,而正处于新冠甚至流感发病期,没有上班家里又没农活需要干不需要操心小孩上学,不担心下个月房贷,躺在沙发上刷微博的无所适从的那群人,才是你得到的去投票的样本。

2022-12-15 00:38

如果你觉得人们感染新冠与否跟人们觉得麦克斯韦方程式美丽与否是一样的东西,那你就是对的。麦克斯韦并不是每个人都知道,新冠感染与否是一种体感,类似比较的是今天吃饭没,强行比较不值一哂

2022-12-15 00:32

你还是没明白,假设你在大街上贴一个调查问卷(虽然微博离大街还差了十万八千里),问麦克斯韦方程是不是一个非常美丽的存在,调查人们对该方程的喜爱程度,你觉得你会得到多少学历在大学以下的人群的问卷结果?
你也许会说,知道这个方程的人才有资格评论它的好坏,但是你得到的就是“知道这个方程的人对这个方程的评价”
同理,你在上海的衡山路贴广告,询问今年房租上涨对你的影响大不大?你觉得你得到的样本,会有多少上海本地土著的回答?
你的样本的采样方式存在非常大的无响应空间,这个误差大到甚至覆盖你全部数据,你却把他当成客观的实际。

2022-12-15 00:15

就好比我做数据统计老板想知道今年的业绩是上升还是下降,根据几个季度的数据趋势可以看出是上升,而你追求的是具体上升几个点,徒劳无功,这就是搞不清业务需求,此之谓失其本心。

2022-12-15 00:13

你自己也说了,这种调查方式基本上就没有准确的,所以过峰就代表的是一种快速感染的趋势,并没有要求精确到个位百分比的要求,40%跟50%或者60%都代表快速过峰,业务要求你都不明白一味的苛求准确度,这就是事倍功半。

2022-12-15 00:09

既然你大学都学的统计,你就应该知道我们讨论的问题根本还没到置信区间相关的位置,你的采样方式在覆盖偏差上已经存在很大的不足,样本本身的质量都堪忧,谈什么置信区间?


我用谷歌,不用百度

2022-12-15 00:04

一味追求精度和广度,不理解业务的实际需求,就会导致多做无用功,精度0.1%,1%,10%不一样,需要的离散程度根本就不一样。做两年数据统计和数据挖掘就懂了

2022-12-14 23:53

街头问卷调查也不是被问到的人通常会给一个结果,询问2000个人可能只有400个同意参加调查,那1600个就跟划过微博投票的群众一样不予置评,不给结果的。。。。。有点实践经验好吗

2022-12-14 23:50

你不会没做过互联网的问卷调查吧。。。。随机向邮箱发放问卷,然后有回复邮件根据回复邮件进行统计。。。。样本的置信区间够大,精度差别10%也可以接受。。。。。我大学学的就是统计,你真的做过问卷调查吗
日活代表实际人数上下一定范围内波动,在置信区间内就行。。。。。做过问卷调查才理解这东西,而不是百度出来的

2022-12-14 21:37

日活代表实际人数,全世界的互联网企业都要笑醒,这涉及很多因素,离题太远,需要的话另外起帖讨论。
微博问卷的方式和街头问卷的最大区别在于一个是被动一个是主动,简单来说街头是主动询问,通常被问到的人大多数会至少给一个结果,而微博问卷是被动调查,只有对这个话题有兴趣有感受的人才会去点击答卷,实际上街头问卷已经缺乏足够的离散型,更不要说微博问卷,那是仅仅代表一小部分人群的数据。