Archive for the ‘ 学塾·学术 ’ Category

隐私和个人信息的保护

公共空间里对“隐私”和“个人信息”的讨论繁多,失焦的也很多。若不理清这些概念的内涵和衍生,可能政策的制定和处理隐私泄漏、信息泄漏事件的应对都会产生偏差。

(一)

隐私定义的是私人和公共的边界。隐私权的概念起源于美国,1980年美国法学家萨缪尔·沃伦和路易斯·布兰代斯在《哈佛法学评论》发表文章《隐私权》,标志着隐私权理论的诞生。文中提及隐私权的目的是在‘私人的’和‘公共的’两种领域间作出明显的区隔,使个人在‘私人的’领域中享有高度的自主。[1]

个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。

个人信息和隐私权,存在很大的交叉重合的关系,但也有一些不同。比如个人信息中的公开信息,就不属于隐私了;而隐私信息中也有一些并不能识别自然人,比如喜欢抖音上的啥类型的内容,这是隐私信息,但不是个人信息。

社会越来越关注个人信息和隐私的保护,立法和舆论都非常重视。虽然新技术对于个人信息的应用达到了史无前例的高度,给人们提供了很多便利,但是人们对于这些技术对个人信息的过度搜集、滥用、侵犯隐私产生了越来越深的担忧和恐惧。

(二)

看几则典型的“指责替罪羊”:

随着社交媒体的普及,人们的私生活大量暴露在互联网上,隐私信息在大数据时代变得脱手科技。一位叫施耐德的单身妈妈最大的梦想是成为一名教师,当她以优异的成绩完成学业时她的梦想破碎了,校方指出她曾在社交网站上发表头戴一顶海盗帽子举着塑料杯轻轻啜饮的照片,并将该照片取名为“喝醉的海盗”不符合老师这个职业,虽然施耐德只是将照片分享给她的朋友,但当施耐德想要从个人网站删除这张照片时才发现搜索引擎已经编录了该照片并被爬虫程序存档了,数字技术的发展记录下了我们所有的在线信息,即使这些信息我们无意公开或想要删除。[2]

这显然是一件坏事,但是责任和解决方法完全不在于“搜索引擎爬虫”,而是校方不应当以私人无关痛痒的行为去影响职业决策。另外一方面,如果她私下照片透露她有恋童癖,那么就算校方有充分的理由认为她不符合老师这个职业。也就是说,这件事情跟”搜索引擎爬虫“并无关系。

无独有偶,2021年3月,北京语言大学在读研究生高晗在豆瓣上对韩烨翻译的乌拉圭名著《休战》一书给了亮星差评,认为翻译得不好,“机翻痕迹严重”。对于这个差评,韩烨直接举报到学校,称“这样严重不实言辞的后果,是造成了译者无故被冤枉,跟风者以恶意形式给这本译作打低分评价,使得译者个人声誉和出版社的名声都遭受了不良影响和损失。”高某迫于压力在豆瓣和微博上实名致歉。[3]

对此事件,韩烨对豆瓣上的评价反应过度,通过豆瓣上的信息人肉到具体的实名个人,并且从虚拟世界网暴到现实世界。很多人批评韩烨倚老卖老,用前辈的身份打压年轻人。甚至采用举报的手段,找更高的权力来压制,令人不齿。

然而这些批评都偏离了重点。这件事情里韩烨的错误如果是3分的话,剩下97分错误应该是隐藏在背后的校方。现实中两个人吵架,动辄向其中一人的单位告状、举报、报警、诉诸法院固然令人生厌。但是收到告状举报后应该怎么处理,最终权力还是在公权力手里。本例中,一名学生在豆瓣上发表评论,并无严重的涉政涉黄等问题,接到举报校方完全可以用“不归校方管辖”为由不予理睬,是否真的构成侵犯名誉,校方既无权力也无义务做出判决,应当由司法专业人事(律师、法院)进行裁决。在司法没有做出裁决的情况下,不对学生的行为做出评价,无论是赞扬或是批评,也不需要因为这项未证实的举报,限制学生在学校里的正常生活。

举报人在没有确切的证据,而仅仅是怀疑的情况下,也应该享有举报的权利。举报的权利包括:举报人可以自己选择是否举报,向谁举报,何时举报,匿名或者实名举报,举报人举报的时候不负有举证责任。举报,作为一种监督的权利,应当被保护。举报制度保护大部分善意的举报人,不可避免会出现诬告和滥诉,而受理举报的单位,就有认真自主调查核实的义务。一方面要积极调查举报人反映的问题,另一方面也不能仅仅依靠举报人的一面之词就对被举报人进行处理。正因为举报权利应当被保护,即使举报人举报的事件经过调查之后发现并不存在,我们也不可以以此为由苛责或者惩罚举报人。但反过来,如果受理举报的单位不经调查,或者超过他的职权范围对被举报人进行处理,那么显然错误的在于这个受理举报的机关。既然这个单位会受理举报,这个单位是有伤害惩罚被举报人的能力的。谦抑谨慎地行使这个伤害能力,是手握这个权力的单位的职责。

这个单位不一定是公权力机关,比如公司、学校都可能成为这个受理举报的单位。

回顾下2020年肖战举报AO3的“227事件”。双方交战的观点在于AO3的同人文的创作是否构成了对肖战的侮辱,AO3是否享有创作自由等。而整个事件的出圈的引爆点在于,肖战粉丝换各种途径肆意举报,最终成功将AO3封禁。举报是肖战粉丝的权利,是否封禁是有关部门的权力。

(三)

个人信息和隐私信息的处理者非常容易沦为替罪羊。有很多系统用到了人脸识别,比如微信支付宝的快捷支付、商场办公室小区入口的人脸识别等。人脸识别系统究竟有没有滥用,侵犯隐私权?这一节我们以“人脸识别”这个小切入口来考察侵权的边界问题。

储存人脸是否有问题,只要考察他是否侵犯了肖像权。一个人的长相并不是“隐私”。如果看到一个人的长相并且通过这个长相记住一个人是违法的,那这个社会如何运作?肖像权是属于人格权的一部分。只要保护肖像权即可。

“隐私”从字面上的意思,就是不愿告诉别人的事。人脸是隐私吗,我认为不是,一个人的鸡巴才是隐私。人脸天天露在外面,跟人交往就靠这张脸作为辨认,怎么变成“不愿意告诉别人的事”,没脸见人?人脸并不是隐私,而是生物识别特征。

我们来做一个思想实验。你生活圈子里所有认识你的人,基本都是通过你的脸来识别这个人是你,他们都在脑子里储存了起你这张脸和你这个人之间的识别对应关系。那么如果有一个坏人仅仅通过戴了你的脸的面具,让门卫和银行的人误以为是你本人,门卫就会给坏人开门,银行的人就会给坏人取款。请问问题出在哪里?

这里的问题难道不在于门卫的安保措施、银行取款的身份验证措施不能只靠“认脸”吗?这些重要的东西本来就需要使用钥匙、门卡、密码进行验证。

如果有人硬要说,问题出在所有认识你的人不应该记得你这张脸,因为有可能告诉门卫和银行,这不是扯蛋么。就算门卫和银行也记得你的脸,这也是门卫和银行的正当行为。难道我知道刘德华长啥样,我就能刷脸把刘德华的银行卡刷爆吗?

GDPR提出的“被遗忘权”概念,其实是包装成“权力”的一种侵权,侵犯的是别人的记忆。记忆和记录是一个人自己享有的权力,对一个团体来说,忠实记录事实,不篡改删除历史,也是这个团体的权力。“被遗忘权”实际上就是你,必须忘了我。凭啥,敢作敢当,还不敢被人记住?

(四)

经过以上几个案例的准备之后,我们收拢一下,回到一个问题:我们为什么提倡保护隐私,保护个人信息。我们常常听见浅显直白的价值,但都经不起推敲,仍然会产生上文提出的争议。

有人说,如果不保护隐私和个人信息,就会被互联网平台杀熟、接到各种推销电话甚至是莫名被办卡办贷款。这属于”规避不良后果“。首先,这个不良后果并不存在严谨的因果性和绝对的必然性。不保护隐私,被滥用的时候会产生不良后果。那么就会争议,究竟是保护隐私这个动作,还是阻止滥用这个动作才能够针对性地规避这个不良后果呢?其次,过于严苛地阻止个人信息的流通,也会带来不良后果。正反相比,孰轻孰重,度在哪里,这就从定性变成定量的问题,而定量问题自然存在各种争议。因此“规避不良后果”不足以成为保护隐私的本质价值诉求。

有人说,己所不欲,勿施于人。我有秘密不希望别人知道,否则在人际交往中会觉得赤身裸体被人看穿浑身不舒服。这属于“诉诸常识”。这是朴素的道德观念,但是显然不严谨。

有人说,保护隐私就是保护自由、保护人的尊严和独立价值、保护个人私生活的生活安宁(《民法典》)。这属于“寻找更高层次的价值”。自由、尊严、独立、安宁这些词汇都是比较笼统的概念,不够具体。只要是价值的一种,势必会和其他价值产生碰撞,没有绝对的价值。比如自由很重要,但是在疫情面前,生命权又压倒了个人出行的自由;生命很重要,但是面对敌人的威逼利诱,尊严又压倒了生命。这就导致了“说了等于没说”,又需要具体问题具体分析了。同样,隐私如果等同于自由、尊严、独立、安宁,那么是不是为了疫情防控,所有隐私都可以被牺牲?面对敌人都威逼利诱,是不是和祖国或者组织无关的隐私也都需要被保护?李大钊被捕的时候,保守了共产党北方区的秘密,但并没有一言不发,而是将他参与国民党的一些信息供出以便周旋。显然“寻找更高层次的价值”过于笼统,并不能给我们指导。

我认为,隐私,本质上是一种社会活动中解耦的要求。

比如我们应聘一项工作,我们不希望因为家里住豪宅还是住老房子来评价工作是否胜任,家里住房条件和工作岗位应当解耦。再比如我们去点外卖,我们不希望因为曾经在哪家公司工作过,而收到不同的食物,过往工作经历应当和点外卖解耦。但是过往工作经历,对于评价工作胜任能力就是必要的,对于外卖商家是“隐私”的事情,在下家HR的眼里,就不能成为可以合理拒绝提供的信息了。有些事情,就是“关你屁事”,解耦才能更好专注于社会活动的本身,发展社会活动。有些事情,还真的分享才能促进社会活动。

社会活动有解耦的需求,那么究竟是应当一开始就阻止信息的分享,还是可以在分享之后阻止滥用呢?人类的心理构造,擅长处理相似性和联想,但难以完美处理解耦,所以即使告诉一个人,有个信息不应当纳入评价因素内,但是人类还是会不自觉地收到潜意识的影响。所以为了确保社会活动真正解耦,隐私信息非必要不分享,即使要分享,限于纳入评价因素范围内的特定信息而不是泛泛的信息。其次,因为特定需求收到个人信息的人,也不应当大喇叭向他人八卦分享,因为这些信息可能会不受控地传到本不应当被收到的人的耳朵里。

而个人信息的保护,就是在强调避免滥用而不是阻止信息的分享。

以“解耦需求”为指导方针,我们才能厘清隐私保护和个人信息保护的边界。

 

参考链接

[1] 大数据时代隐私的边界及限度-人民网
[2] 豆瓣用户给翻译打差评被举报,还让不让人打差评了?
[3] 删除:大数据取舍之道  – 读书网

杂谈 | 重拾对真相的尊重

(一)

在类似疫情这种公共卫生事件的讨论中,可以看到中美媒体和网民关注点有很大不同。

在中国的社交媒体上,不管是微信、微博、知乎还是抖音,2月份大部分的“权威声音”来源于钟南山、李兰娟这种医学专家。同时也有大量的科普文章,介绍这个病毒的原理。

普通网友甚至都知道最新的柳叶刀上发布了什么关于病毒的论文,口罩分为哪几种,N95和KN95标准的区别在哪里。而且最值得称道的是,对于网络谣言传播的警惕。那些不严谨的、没有充分调查就发出来的消息,很快会被辟谣的消息所覆盖。人和人之间的沟通,也很仔细审核是否符合事实。

有个小事,侧面反映了这种追寻事实刨根问底的舆论大环境。

黄冈市前卫健委主任唐志红唐志红在央视拍摄的一次会议上,说不出黄冈目前有多少住院床位的数字。就单纯因为这个事件,唐志红就触怒了所有中国人民,被火速革职——因为她连事实都没搞清楚,怎么还开展工作?

而反过来,美国的网民显然对这个新型病毒的起源、传播方式、致命率、治疗方式都在知之甚少。

Twitter, Facebook以及各大新闻网站的 headline 上,政治人物的言论和时事评论家的文章占据了95%以上的篇幅和注意力,网友的讨论也集中在类似是否应该强制佩戴口罩这种政策导向的讨论,以及讨论这个事情应该归罪于谁上。一个说错数字的政治人物会有啥后果?啥都没有,因为从上到下都在犯错。

特朗普说可以向人体体内注射消毒剂。这个新闻持续占据网络好多天,不管是攻击特朗普的,还是维护特朗普的。攻击特朗普的说他不懂装懂,是一个很坏的总统;维护特朗普的说他是为了给那些医学专家抽鞭子,让他们更好为美国群众服务,研究治疗方法。

这根本不值得被讨论和关注,这属于泡利所说的 Not even wrong。怎么治疗,听医生的。可以还是不可以,专业医生说一句就盖棺定论了。

热点新闻谁的声音大,听专家的还是听名人的,是最大的区别。

 

(二)

国人充满了对谣言的警惕,是一种民族的集体思想。真实的对立面是虚假。事实会被掩盖和扭曲,历史会被书写,但是真相只有一个。因为普遍受到唯物主义的教育,客观决定主观,世界是可知的,真相只有一个。

但是“真相只有一个”的理念在现代西方哲学里却渐渐沦为支流,唯一真相观被认为是一种“低级”的哲学。经过休谟、康德、黑格尔对真理为何成为可能的失败探索,而科学取代哲学成为“显学”。为了拯救哲学,亦或者说,与已然成为显学的科学划清界限,要么采用胡塞尔、海德格尔的现象学派,将存在的本质引向多样(一花一世界),要么像维特根斯坦一样,把哲学问题变成了语言学问题。

但是被简单解读之后,就变成:既然一花一世界,那么也就没有所谓的事实和真相。你看到的对,我看到的也对。没有所谓的唯一客观的事实,只有看问题的角度。甚至,由于你我文化背景不同、语言不同,看到的事实也会不同。

这种飘忽不定的“真相”还有一个专门的名词:Post-truth。这是2016年《牛津词典》的年度词汇。Truth 变得无关紧要。

 

(三)

Post Truth 其实是一剂慢性毒药。从 Post-truth 推论而出的结论,单独看都似乎挺有道理的,其实是很有问题的。以下举几个似是而非的例子,看看能否看得出问题:

我们不可能知道事实,我们不可能知道真相,历史并不事实存在过,而是文字的一种游戏。

历史是由胜利者书写的,历史是任人打扮的小姑娘。马未都说:历史没有真相。

新闻报道不是为了传播真相的。同一件事情,被不同的记者报道,会着重于不同的侧面。而这种重点的选择恰恰是反映了记者的立场,所以新闻其实是传播立场的工具,不是传达客观事实的媒介。因为,究竟由谁来定义什么是“客观事实”?如果没人能够定义“客观事实”,那么谈论客观事实就无意义。

新闻并不首要为事实负责,只要忠实展现了它代表的人群的视角,就是好的新闻。在充分竞合的社会里,多种声音充分表达,综合起来展现出全面的视角,这样才是最接近真相的。而根据这种充分竞合的声音表达而制定的公共政策,就是最佳的政策制定方式。

公开表达的言论,只要是言说者真心相信其为真(或者言说者并没有确切认为其在说谎或者欺骗),便可以免受反对者批评,其传播也不应受到限制。

以上,都是历史虚无主义。Bullshit。

 

(四)

可能要额外阐述下,以上那些似是而非的观点为什么是Bullshit。

“历史是由胜利者书写的,历史是任人打扮的小姑娘”的荒谬——没错,历史非常容易被改写,被扭曲。但是这句话的意思并不是让我们接受一个被扭曲的历史作为真相的替代品,而是提醒我们,面对被讲述出来的历史,它可能存在其他的面貌。而史学研究,讲究的就是“孤证不立”,永远不满足于相信一种合理的可能性。要跟福尔摩斯侦探调查案件一样,寻找蛛丝马迹印证一件事情的发生,同时处理冲突证据带来的反证。

“同一件事情,被不同的记者报道,会着重于不同的侧面”的荒谬——没错,但是并不代表每一个侧面都是真实的。一个红绿灯,正常人看到是红色和绿色两种颜色;红绿色盲的人看到是一种颜色。我们不能屈服于最懒惰的思考方式,我们不能承认“红和绿是同一种颜色”也是真相的一种。不同事件有不同的侧面,主要是提醒自己,不要把自己的视角看成理所当然,进而能够更加综合全面地看到问题;而不是用来强化自己的视角,免疫别人的批评。

以上说法否定了人类对于事实的理解能力。打个简单的比方。我们总说某件事情很难,高考很难,考CPA、考司考很难,下围棋很难,做一个研究很难,做一个生意很难——是为了吊起那口气,找到解决这些困难的方式。而不是“因为很难,那就不干了。”

触摸事实和真相很难,那就努力去搞清楚!

 

(五)

立场和观点是廉价的,需要传播的是事实。

网络上有个现象,针对一种言论,比较关注发言人的立场。

就以Twitter的各种网友谣言为例:

特朗普说病毒是中国武汉的实验室制造的。美国有非常厉害的情报网络,总统肯定知道了很多内幕消息。

比尔盖茨说注射疫苗是好的。注射疫苗能让比尔盖茨赚更多钱,大家别被他骗了,疫苗一定是有害的。

封禁 Huawei, 中国急了。Huawei一定是开了后门,否则中国急什么呢?

批评完外国网友,再批评下国内的网友:

动不动就“屁股歪了”。方方写的日记就是屁股歪了。

B站的《后浪》是以居高临下的口吻说的,也是屁股歪了。

张一鸣没公开地喊 F*ck USA,就是”跪了“。

微软修改了一下授权协议就是为了断供中国。

希望时刻警惕,看到的新闻,究竟是廉价的观点,还是新鲜的事实。

 

(六)

以立场求斗争,则敌人越来越多。以事实求斗争,则盟友越来越多。

无论是多么相似的人和人之间,可以在九件事情上达成一致,在一件事情上意见相左。立场,总能找到相悖的地方。如果因为这一件相左的事情,便把他认为是“敌方”,那无疑朋友圈越来越小,所有人都变成了敌人。

而事实,是人与人唯一可能成为那个共同认同。甚至在事实无法被100%确实把握的情况下,任何人也能在寻找事实的路上共同行走,把探索调查的过程变成共同的经历。

这也是为何我花这么多篇幅,要消解人们通过立场和观点来站队的做法。要巩固和扩大统一战线,要把尽可能多的人拉进朋友圈。

求同存异,自我和他者的共同点只有一种建立的可能,即建立在事实上。

 

(七)

人们认为的世界格局:中美对抗成主题。

实际上中国和美国的人口加起来是17.7亿,除了中美两国之外的人口接近60亿人,是中美人口的三倍多。中国加美国,占全球人口不到25%。

中国和美国的领土面积加起来是1900万平方公里,整个地球的陆地面积是1.5亿平方公里。中国加美国,占全球陆地面积的13%。看看下图,中国和美国的位置,两个粉红色块的国家。

诚然,这25%的人口在13%的土地上创造了全世界40%的GDP,确实中美是世界上最重要的两个国家。但是,我们扩大统一战线,寻找求同存异的盟友,是不是把目光从中国和美国移开,看看全世界?我们的应对方案,能不能不要只针对美国,也影响下其他60亿人的想法?

这才是张一鸣说的火星视角的本意。

 

(八)

论持久战。

在短期内(指的是十年这种时间跨度内),斗争的天平必然会倾斜向武力强大、科技强大的人。

但是在长期内(指的是百年的时间跨度),对自己真诚,追求真相和事实,实事求是的人,会首先在经济上,然后在科技上取得胜利。

太阳下无新事,历史总是会重复。

反对是需要论证的

(一)

近日,浑水披露的一份匿名的89页做空瑞幸咖啡的报告堪称质疑的典范。这份报告从结论来说,用89页论述了一个众所周知的废话:瑞幸是不能赚钱的。

但是这个废话是需要论证的。

特别是在瑞幸咖啡已经在美国证监会公布了2019年Q4业绩快报,其中提到瑞幸咖啡的单店已经开始盈利了。瑞幸公司管理层是拥有最多的内部信息,他公布了多个维度的内部信息和分析支持了“瑞信咖啡单店开始盈利”的结论,审计师E&Y没有反对,美国证监会也没有反对。瑞幸咖啡已经完成了他的举证义务。

现在轮到质疑的人完成他的举证义务了。

套用陈铭说的话,你要承担反对方的责任,不是简单的挑刺。反对是需要论证的。

如果只是一个吃瓜群众,只要知道上面这句话,再等等看瑞幸咖啡官方的回应就能继续吃瓜了。但是作为一个被疫情死死按在家里的人,我来拆解了这89页报告,再锻炼下我们论证分析的能力。

附:做空报告原文(百度网盘链接)

链接:https://pan.baidu.com/s/1lJ-EuP28wWviZWD7WN7GTw
提取码:n16q

(二)

在拆解报告之前,我先普及一下瑞幸咖啡烧这么多钱,为什么还能在NASDAQ上市。对瑞幸熟悉的可以直接跳过这一部分。

瑞幸的商业模式可以放在这个框架下来拆解:利润 = (销售单价-成本) * 单店销售量 * 店面数量规模。那么之前烧钱随后如何挣钱?其中成本端简化成一个都放在了括号里了,其实严谨来说应该分为单杯变动成本、店面固定成本、公司固定成本。

  1. 原来销售价格 – 成本是负的,亏钱卖咖啡。瑞幸说,是因为折扣做得多。折扣属于促销市场活动,烧钱主要是为了建设品牌和培养用户习惯。正常价格销售,毛利是正的。
  2. 每个门店开店是有固定的房租人工成本的。为了覆盖这些固定成本,每一杯咖啡都挣钱还不行,每天还要卖足够多的量。
  3. 一直开店,开店,开店。把单店利润反复复制。

不管原来烧过多少钱,只要从近期的某个时候开始,扭亏为盈,越来越盈,那就是好公司。

这个近期,就是2019年Q4。瑞幸在上市公司Q4业绩公告中说,单店已经扭亏了。

具体而言,平均销售价格从上市时候的9元上涨到15元,平均每店每天销售的咖啡杯数从上市时的293杯上涨到493杯。同时,瑞幸的门店也开了4500家。诺你看我的财务报表,主营业务亏损缩减了,这是审计过的哦。按这个增长趋势,瑞幸会挣很多很多钱。各位投资人爸爸,买我吧!

瑞幸一直说自己在烧钱,门店数量快速上升,DAU增加,跟我们的个人感觉是相符的。直至上市的时候也是这副样子。

走在上海的街上,确实看到越来越多瑞幸蓝色的门店,确实有很多朋友同事下载了瑞幸咖啡的APP,也经常收到各种各样的折扣券,这么低的价格真的好划算。亏钱补贴消费者,真是薅资本主义羊毛的良心企业。

质疑瑞幸的文章很多,瑞幸还要亏多久,有没有盈利的一天。

瑞幸就这个态度:你说我过去在亏,我认。但是你说我未来永远会亏,未来都还没来,没人说服的了对方。

然后,在2019年Q4,瑞幸说它单店层面盈利了。

他说,我现在也不亏了。

这就打了很多人的脸。瑞幸这个模式,单店怎么可能盈利呢。

 

(三)

让我们用这样的顺序来学习。列出一句命题,先自己想想,该怎么论证它是真的。然后看看浑水怎么做的。

命题1:瑞幸说全国平均每店每天销售的咖啡493杯,数字偏大了。

错误论证1:做做Market Sizing。对标下星巴克每天能做多少杯,或者对标下其他咖啡品牌的经验。同时用每天营业时间倒推,得到每1分半能卖一杯咖啡。从理论产能极限来看,几乎已经是100%满负荷不停。

错误论证2:我们说瑞幸现在一直在烧钱,唯一的稻草就是NASDAQ的增发。要增发必须给投资者一份过得去的答卷,所以管理层绝对有充分的理由和能力调高这个咖啡销量。他可以简单改下APP数据库里的记录,也可以通过供应商占款再回流的形式做成销售收入……

不完善论证1:我身边就有几个瑞幸咖啡的门店,我去那里看看,每小时平均出多少个订单,然后折算一下。

不完善论证2:我去想办法看看某家门店的收银机统计下,看不了收银系统,看看一天打出的最后一张水单表编号也行,总之都有办法。

以上所有的论证,都有一个共同的缺点:这都只是疑点,不是证据。

  • 星巴克每天只能做300杯那能说明什么,为什么瑞幸不能比星巴克每天多50%?
  • 满负荷100%不停能说明什么,瑞幸门店就是满负荷运营啊,这是他们的竞争优势。
  • 身边这个瑞幸门店或收银机统计一天只能做300杯那能说明什么,你可能去的是偏僻的门店。
  • 管理层有理由和能力调高销量,不等于管理层实际真的已经调高了销量。

所以这些论证方法都不能成立。

让我们来看匿名报告怎么做的。

他首先从瑞幸APP上,一个城市一个城市,把瑞幸的门店名称、位置都抓了出来,做成了一张 Master Data File。

基于这张Master Data File,进行数据汇总,得到如下的汇总结果:截至2019年12月31日,从瑞幸APP上数到4409个门店,分布在53个城市,分成办公楼门店、商场店和其他店的类型。和瑞幸咖啡发的年报上的数据核对:4507家门店,只差了2%。基本上可以保证这个清单的完整性了。

接下来骚操作来了,他对这4409家店按照类型和城市进行了分层抽样,然后派人暗访了981家门店(占总样本的22%),数出每个门店的每天卖了多少杯咖啡——数出来,平均每店每天263杯,比管理层说的495杯少了将近一半。

用统计学和分层抽样,而且抽样率大大超过拥有统计显著性的抽样数。如过按审计方法,基本抽40-100个样本就可以进行统计分析了——解决样本代表性问题。

接着,如何统计订单呢。线下订单看POS机操作多少次,线上订单看纸袋数量——这个统计方式只多不少,解决“外人无法准确判断订单数”的问题。

现场的人数数,同时全程录像,回头第二个人对着视频再数一遍——双人独立复核解决“万一人工数错了呢”的问题。

再强调一遍,反对是要论证的。

同样,反对的反对也是要论证的。

假设其他人要反对这个抽样的样本代表性还是有问题,那么需要明确论证,以上抽取的981家门店,或者抽取的具体天数存在bias,需要同样或者更高强度的统计显著性。

 

(四)

命题2:瑞幸咖啡停止烧钱的补贴之后,就能挣钱了。

错误论证1:很容易想到,很多买瑞幸咖啡的顾客就是存在拉新补贴、折扣券和价格才购买瑞幸的。这些顾客都是价格敏感的顾客,价格上涨后销量肯定下降。

不完善论证1:我的某某朋友说,如果瑞幸咖啡取消这些补贴,肯定不会买瑞幸了。我莫某朋友也这样,我也这样,我认识的人都这样。

看看匿名报告怎么做——“顾客价格敏感的”这句话是要论证的。

瑞幸的年报里找到一个图表,瑞幸把客户按照注册的月份分为一个群组,并跟踪这个群租随后每个月份的留存情况。瑞幸咖啡用来说明,他的用户留存率随着用户注册时间先下降后稳定上涨,如下图,横轴表示用户注册的月份数。

报告把这个图标的横坐标微调了一下,把用户注册月份数改成具体的日历月(比如2019年1月)这样。所以每个群组的线不变,只是简单左右平移到了对应的月份,变成了下图这样:

豁然开朗,有没有。上图究竟是什么杂七杂八的线条啊。

这告诉我们,用户的留存率其实跟用户注册的月份数没有任何关系,只跟日历月有关系。

把交易量的图也平移一下,得到相似的形状:

用户留存率、销售量在2019年2月同时都深深地掉下去了。让我们看2019年2月发生了什么:瑞幸在上市后的19年没有那么狠地推补贴了。但是当瑞幸发现,补贴一取消,销量就猛掉,在2019年3月11日,开启了每周“买7件商品,抽500万现金”的大手笔补贴促销。销量和用户留存率又回来了。

把价格和销量化成二维图标,这就是经济学的价格弹性曲线。没有了补贴,销量就大幅下跌,基本可以论证“顾客是价格敏感的”了。​

这样也避免了“某某朋友觉得”这种个案代表性问题。

 

(五)

让我们看看无效的证据通常有什么样的表现形式。要时时刻刻小心这些陷阱。这些只能做Indicator,但不是Evidence。

1. 用可能性/高概率当成事实。

这事情有发生的可能性,甚至比较高的可能性,但不代表就会发生啊。这是经常会犯的错误。常见的是纯粹因为想不出第二种发生的可能性,而把可能性当成了100%,并推论成了事实。

即使既有足够能力也有充分动机,可能性到事实仍然需要一个惊险的跳跃,那就是实际发生。任何实际发生的事情都会留下各种痕迹,要证实必须找到这样的综合且无可辩驳的痕迹。

错误举例:”我家邻居阳台上晾了一块腊肉,我家猫可以跳过去,把这块肉扯碎扯到地上。我家猫以前也干过这个事情。这次不是你家猫干的还能是谁?”

错误举例:“2015年的Nature论文显示人类有能力在实验室制造病毒,武汉P4实验室又是中国病毒研究的前沿,而且我听说他们实验室管理很混乱,新冠病毒就是人为制造不小心泄露出来的。”

2. 诉之“不合常理”的低概率。

这事情概率太低,怎么可能恰好发生,说明这事情是假的。这属于产生怀疑的前置信号,但不叫证据。有了怀疑的信号,需要干的事情是寻找完整的证据和论证。信号不等于论证。

对任何事情,我可以举出无数不合理的信号。世界其实是充满了偶然。

错误举例:“你不打他,他怎么会打你呢?”

错误举例:“印度学者发现,新冠病毒2019-nCoV的基因序列发现4个独有插入的片段。这在所有其他冠状病毒中都不存在,这在自然界中不太可能是偶然的。新冠病毒是人类制造的。” / “人类这么精密的生命,在自然界通过进化变异是不可能的。人类一定是由某种高等智慧生物制造的。”

3. 以个案代表总体,却不建立个案的统计典型性

用我之前的经历,我朋友的事情,我看过有个代表性案例是怎样的,作为证据。

错误举例:“我有朋友整天不读书,最后做生意,现在有好几套房了,比绝大多数大学生都多吧。读书有啥用。早出来生意场打拼学做生意,比读书更能挣钱。”

错误举例:“报告说平均每家店每天才200多单,他一定是故意挑了流量低的店,或者在流动低的一天去统计的。淮海路百盛3楼的店,周末下午排队时间一刻钟左右,我打工的某工业区,元旦后开了一家,我们40个人的办公室每天贡献至少6杯,这个工业区大概有2000个人上班,并且有越来越多的人加入每天一杯的行列。怎么可能每天200单。”

错误举例:“报告里走访的900家店的清单里有一行:来福士广场店,统计当天是周一。这报告可真聪明,在一个mall里挑了周一,周一你们去逛mall走商场么?动脑子吧。如果这个统计每个店就挑一天,写字楼多挑周四周五,mall多选周一,那就偏差很大了。”

4. 诉诸权威、诉诸多数

某专家是这么说的,很多人都这么说。他们这么说一定有理由,隐含的意思是他们一定掌握了我所暂时不知道的证据,看过我所没看过的案例,才这么说。

错误举例:“同为被国内美股投资者熟知的做空机构——Citron Research香橼研究,也在推特表明同样收到了该报告,但他们在推特表示,他们仍然看多瑞幸。美国拥有成熟的资本市场,这么多投资人也不是傻子。”

最近的多益网络董事长《实名带可靠证据举报武汉病毒研究所》,没有一个称得上证据。看来是徐董事长对“证据”这个词有不同的理解。哎。

5. 攻击观点持有人的资质和人品

一个人有缺点、无经验、以前干坏事,所以他的观点是错的。

错误举例:多益网络董事长徐波对医学完全不懂,他的举报是无效的,所以武汉病毒研究所就是清白的。

要注意,不可信观点不等于他的对立面就是对的。

攻击观点持有人的资质恰恰是诉诸权威的反面。

观点应该与人解耦。判断一个命题的真假,有且只有一种途径:看论证,看证据。

 

(六)

总的来说,人类的感觉对于特例还是典型、总体和样本、概率和可能性、偶然和必然,其实是毫无处理能力的。

人类对栩栩如生的故事做出更大的反应,并认为这样的个案会以更大的概率发生,并且有一定的必然性。而面对统计数字的时候,会不自觉地认为,所有的个案都应该非常接近平均数。

人类对讲故事的人也会做出更大的反应。第一反应不是判断这个人讲的故事是否真实,而是判断这个人是否可信。人类更喜欢对人做判断,而不是对事件本身做判断。

对抗的方法只有一个:

Talk is cheap.

Show me the evidence, and prove it.

 

按上还是按下?

电梯按钮的困扰

过年回老家,爸妈从楼梯房搬到了电梯房。 妈妈一直困惑于电梯间的按钮要怎么按。她要下楼的时候,如果看到电梯停在一楼,她会按“上”叫电梯上来,结果偶尔进电梯之后,电梯还会继续往楼上走再下楼。直到我跟妈妈解释了电梯按钮正确的使用方法,不用管电梯在哪里,你要上楼就按上,要下楼就按下,妈妈才恍然大悟。

后来我思考了下,电梯按钮本来设计的是站在人的角度“我要干嘛”;而妈妈觉得电梯按钮的设计应该是站在电梯的角度“让电梯干嘛”。要说错嘛,也不能说错。本质上是面对陌生的事物,人的大脑会先入为主地形成这个事物运作的概念模型——“我觉得它应该是这么一个原理”。当这个猜想的原理和实际运行的方式出现偏差的时候,就会闹笑话。

究竟是人的大脑要适应事物运作的原理,还是事物运作的原理要适应人的大脑呢?物质决定意识,当然是前者啦!且慢,有一群人他们不是这么想的。那就是设计师——确切地说,是工业设计师。他们研究的就是手里的产品,产品的运作要符合人类最直观的概念模型,否则就不是好的设计。

PPT翻页器:按上还是按下?

上次我做Present播放PPT的时候出了不大不小的问题。当我在台上拿着PPT翻页器想要切换下一页的时候,大屏幕却一直卡在第一页。我向台下的主持人求助,主持人说:按最上面的键才是翻页,你按向下键,是往回翻。

这是我用过的最不合理的PPT翻页器。剩下的时间,我一直陷入往前翻页还是往后翻页的薛定谔状态中。

翻页器一般都有三个按钮,最靠近笔尖的按钮是激光键,还有上下两个方向键,分别表示上翻页和下翻页。我觉得这样的安排是极其自明和自然的,几乎没有第二种解释的可能性了。我要向下翻页,在电脑键盘上,我按向下的方向键(偶尔也按向右方向键),或者按 Page Down。那么在翻页笔上,自然我也要按向下的方向。

两天后,我读到一本书《设计心理学——日常的设计》,作者也写到了使用翻页器的困扰:

“有一次我在亚洲演讲,我的电脑连接到投影仪,还拿到一个遥控器,这样在演讲时就可以远程遥控要展示的内容。遥控器有两个按钮,一个在上,另一个在下。演讲的标题已经显示在屏幕上。当演讲开始后,我所要做的就是向前翻页,展示下一张照片,但当我按下上面的按钮,令人惊讶的是幻灯片回到了标题页,它并没有向前翻页。

‘怎么会发生这样的事呢?’我感到诧异,对我来说,上面的按钮就意味着向前,底下的按钮就是向后,映射是非常清楚和明显的,如果按钮是肩并肩排列,那么控制可能模棱两可,先按哪个左边还是右边?该控制器使用顶部和底部的按钮,提供了一个合理的映射,为什么他的控制方向出乎意料?”

什么?!上面的按钮意味着向前?原来真有人觉得下一页应该按向上键,这是什么脑洞啊,还是一个专业的设计心理学教授啊。原来人和人之间的概念模型差异可能这么大,那要产品设计师如何满足人类的概念模型?要满足哪一个?

时间观念:向前还是向后?

时间是什么?终于轮到了这么一个充满哲理的问题。

时间是唯一一个只能往前演进的东西。从过去到现在到未来,时间的流逝像一把飞驰的箭矢,只能往一个方向走。时光倒流只是幻想。时间是所谓的“第四维”,但它不像空间的三维一样,能前进能后退。

我们中国人说展望未来,要向前看;英文也有类似的表达,looking forward看的是未来,hindsight后见之明,指的是看过去的事情。康德甚至说时间是先验的。时间不是什么东西,而是人类感性直观的纯粹,是先天世界给予人类的认识客观世界的望远镜——时间,只是人类收纳事件的一个盒子。因为是先天的,对于人类来说,时间只能是奔流向前的。

然而,世界上存在这么一群人,对时间有着完全相反的理解,那就是非洲人。

非洲人从不用钟表去度量抽象的时间,而是去“生活”时间,并根据具体的事件来记述或表达时间。非洲人的时间并不是收纳事件的盒子,而是一件件事情的发生,定义了事件。在非洲人的字典里,表示时间的词有:Sasha(现在)、Zamani(过往),但是没有将来。喀麦隆学者让·戈德弗鲁瓦·比迪马说,时间就是过去或现在发生的一系列事件;所有涉及将来的、未发生的事件对他们来说都属于一个“虚无的时间”。

所以很有趣的是,当非洲人说,“向前看”的时候,其实他们看的是过去。因为他们站在“现在”这个节点,面朝的是过去,事件一件一件地发生,在自己眼前展开,离自己最近的就是刚刚发生的事情。

参考资料:
[1] 张宏明. 非洲传统时间观念[J]. 西亚非洲, 2004(6):39-44

 

大部分讲大数据的都是叶公好龙

到处都在说大数据,其实大部分说的只是古老的概念。特别是数据分析用的东西,目前还没一个跟大数据搭得上边的。

大数据,首先得够大。

大数据,最重要的一个词就是“大”。要多大才算大数据呢?Google定义为超越普通电脑处理能力的数据量才是大数据。若以纯文本形式储存这些数据,至少得是1T以上才够的上入门。

而很多时候我们碰到的数据量,远远还谈不到“大数据”的门槛。现在很多行业说到的“大数据”是啥概念?

例如所谓“大数据”应用于审计:几百万笔交易记录明细导出来,通过一些条件筛选识别一些有风险的交易来检查。拜托,这1G的数据量,个人电脑卡个20分钟绝对给你筛选出来,也不是什么高频实时需求,这就是最古典的数据分析方法。不要把一个(或者若干个)excel文件就能处理的数据就叫做大数据,谢谢。

数据和算法同样重要。

处理大数据需要有巧妙的算法。“豆瓣FM”是第一个推出音乐推荐的豆瓣猜。它根据个人和其他虾米用户听歌的记录进行分析,智能推荐你可能喜欢的歌。这个推荐算法的背后是多元线性的距离公式:寻找在多元空间中距离最近的人/歌。这公式讲起来很简单,也就是高中的解析几何的难度。可是这算法的计算复杂度是N(O2),当只有3个人 + 3首歌的时候可以秒算,而当人和歌的数量急剧增长的时候,这算法需要的计算量呈几何增长。

好了,你知道了这个算法了,你可以写出一个新的电台软件了。可以吗?No.

你要有数据积淀。

Rubbish in, rubish out. 这是数据分析的第0条原则。就像大部分的互联网产品死在了第一步:冷启动。一个新用户出现在你面前,也是一个空白的profile。第一首歌你想推荐哪首?只能去金曲榜或者播放榜找排名。结果就是对于每个新用户,你只能来来回回推荐那么几首歌。算法再跑,这个数据池子亦是空空空空如也。

有了数据还要要重视数据清洗。

不要以为,每个数据集都长得整整齐齐。能长得整整齐齐的那些数据,分析老早就做完了,或者说,这些数据集在生产的时候,已经为了分析的目的而清理好了。实际中碰到的数据常常各种混乱。就算是最结构化的数据集,只要输入端/采集端来源是多个来源,就一定会出问题。不要问我为什么,填过多少坑。在使用这对数据集之前,可能需要化大量的时间对一条条记录做人工或半自动的预处理。这个时间,比实际运算的时候要大10倍。

知乎用户“清夜”曾吐槽过,处理过一段类似于这种“北京丨海淀”数据,需要将这个数据分成“北京”和“海淀”这样的字段。结果不管用什么办法,计算机都无法识别这个“丨”的分隔符,导致分词失败。他把所有的方法全都试了一遍全都不行,甚至换浏览器和电脑。最后灵光一现,通过反查Unicode编码发现,这个分隔符根本就不是电脑键盘上打出来的这个“|”,也不是全角半角的区别,而是一个拼音为gǔn的汉字……留下风中凌乱的作者。

最后总结一句,普通人距离“大数据”,是天和地的距离。还是脚踏实地从数据治理开始做起。从业务流程梳理入手,结构化体系化地生产或者采集数据,用效益成本平衡的指导原则对原始数据进行必要的审核,用90%的时间进行数据清洗,最后才用10%的时间跑算法。

日常的科学:形式逻辑还原法

有时候学习一些新东西,花了好长时间看书练习,还是觉得效果不好,没有吃透。花的时间和精力也不少,浑浑噩噩地,进步却没多少。工作也是,加班加班加班,看项目看项目看项目,像反复玩无限关卡的游戏一样,打完一关又一关,每次只是收获了一句“恭喜过关,请准备下一关”,连打游戏的技巧都没有提高。

TVB剧《爱回家》里有一段很有意思。爷爷批评学渣金城安,怎么这么笨老是学不会。金城安说人各有长处,只不过恰好有人的长处是考试,而他的长处是玩游戏罢了。为了证明这一点,他提出要跟学霸熊心如比试玩游戏。金城安挑了一个他最近玩了好几百小时的游戏,而熊心如从来没有玩过这个游戏,她只有一个晚上的时间可以用来熟悉游戏。

第二天,在全家人的见证下,金城安和熊心如开始了正式的比赛。经过激烈的比拼,出乎意料的是熊心如竟然赢了。熊心如是怎么做到的呢,她利用一个晚上的时间,上网查了各种攻略,记忆并计算一下背后的技术参数,然后再练习下几个有用的操作动作。最后的结果,一个晚上的聪明努力,胜过了几百个小时反复的重复。

连续剧中虽然有夸张的成分,但不可以否认的是,有些人在游戏上确实很有天分。顶尖选手比赛是神仙打架,绝大多数人玩游戏只是低水平地重复斗蛐蛐。所谓“天分”其实也不是完全神秘不可言的,归根结底是游戏中的即时判断——即时判断不同战术的优劣并做出决断。有时候说“大局观”和“预判”,都是基于对游戏规则和对手心理的深入理解,建立了科学的决策评价体系的结果。

做啥事情如果不带着点目的和方法,那跟咸鱼没啥区别。

人类知识的来源是什么,人类做判断和预测的准确性如何得到提高?

Read more