Posts Tagged ‘ 理性

隐私和个人信息的保护

公共空间里对“隐私”和“个人信息”的讨论繁多,失焦的也很多。若不理清这些概念的内涵和衍生,可能政策的制定和处理隐私泄漏、信息泄漏事件的应对都会产生偏差。

(一)

隐私定义的是私人和公共的边界。1980年美国法学家萨缪尔·沃伦和路易斯·布兰代斯在《哈佛法学评论》发表文章《隐私权》,标志着隐私权理论的诞生。文中提及隐私权的目的是在‘私人的’和‘公共的’两种领域间作出明显的区隔,使个人在‘私人的’领域中享有高度的自主。[1]

个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。

个人信息和隐私权,存在很大的交叉重合的关系,但也有一些不同。比如个人信息中的公开信息,就不属于隐私了;而隐私信息中也有一些并不能识别自然人,比如喜欢抖音上的啥类型的内容,这是隐私信息,但不是个人信息。

社会越来越关注个人信息和隐私的保护,立法和舆论都非常重视。虽然新技术对于个人信息的应用达到了史无前例的高度,给人们提供了很多便利,但是人们对于这些技术对个人信息的过度搜集、滥用、侵犯隐私产生了越来越深的担忧和恐惧。

(二)

在纷杂的讨论中,很容易错误归因,把炮火指向了“替罪羊”:

随着社交媒体的普及,人们的私生活大量暴露在互联网上,隐私信息在大数据时代变得脱手科技。一位叫施耐德的单身妈妈最大的梦想是成为一名教师,当她以优异的成绩完成学业时她的梦想破碎了,校方指出她曾在社交网站上发表头戴一顶海盗帽子举着塑料杯轻轻啜饮的照片,并将该照片取名为“喝醉的海盗”不符合老师这个职业,虽然施耐德只是将照片分享给她的朋友,但当施耐德想要从个人网站删除这张照片时才发现搜索引擎已经编录了该照片并被爬虫程序存档了,数字技术的发展记录下了我们所有的在线信息,即使这些信息我们无意公开或想要删除。[2]

这显然是一件坏事,但是责任和解决方法完全不在于“搜索引擎爬虫”,而是校方不应当以私人无关痛痒的行为去影响职业决策。另外一方面,如果她私下照片透露她有恋童癖,那么就算校方有充分的理由认为她不符合老师这个职业。也就是说,这件事情跟”搜索引擎爬虫“并无关系。本案真正应该承担责任的是校方,却因此逃脱了指责。

无独有偶,2021年3月,北京语言大学在读研究生高晗在豆瓣上对韩烨翻译的乌拉圭名著《休战》一书给了亮星差评,认为翻译得不好,“机翻痕迹严重”。对于这个差评,韩烨直接举报到学校,称“这样严重不实言辞的后果,是造成了译者无故被冤枉,跟风者以恶意形式给这本译作打低分评价,使得译者个人声誉和出版社的名声都遭受了不良影响和损失。”高某迫于压力在豆瓣和微博上实名致歉。[3]

对此事件,韩烨对豆瓣上的评价反应过度,通过豆瓣上的信息人肉到具体的实名个人,并且从虚拟世界网暴到现实世界。很多人批评韩烨倚老卖老,用前辈的身份打压年轻人。甚至采用举报的手段,找更高的权力来压制,令人不齿。

然而这些批评都偏离了重点。这件事情里韩烨的错误如果是3分的话,剩下97分错误应该是隐藏在背后的校方。现实中两个人吵架,动辄向其中一人的单位告状、举报、报警、诉诸法院固然令人生厌。但是收到告状举报后应该怎么处理,最终权力还是在公权力手里。本例中,一名学生在豆瓣上发表评论,并无严重的涉政涉黄等问题,接到举报校方完全可以用“不归校方管辖”为由不予理睬,是否真的构成侵犯名誉,校方既无权力也无义务做出判决,应当由司法专业人事(律师、法院)进行裁决。在司法没有做出裁决的情况下,不对学生的行为做出评价,无论是赞扬或是批评,也不需要因为这项未证实的举报,限制学生在学校里的正常生活。

举报人在没有确切的证据,而仅仅是怀疑的情况下,也应该享有举报的权利。举报的权利包括:举报人可以自己选择是否举报,向谁举报,何时举报,匿名或者实名举报,举报人举报的时候不负有举证责任。举报,作为一种监督的权利,应当被保护。举报制度保护大部分善意的举报人,不可避免会出现诬告和滥诉,而受理举报的单位,就有认真自主调查核实的义务。一方面要积极调查举报人反映的问题,另一方面也不能仅仅依靠举报人的一面之词就对被举报人进行处理。正因为举报权利应当被保护,即使举报人举报的事件经过调查之后发现并不存在,我们也不可以以此为由苛责或者惩罚举报人。但反过来,如果受理举报的单位不经调查,或者超过他的职权范围对被举报人进行处理,那么显然错误的在于这个受理举报的机关。既然这个单位会受理举报,这个单位是有伤害惩罚被举报人的能力的。谦抑谨慎地行使这个伤害能力,是手握这个权力的单位的职责。

这个单位不一定是公权力机关,比如公司、学校都可能成为这个受理举报的单位。本案真正应该承担责任的是决定对高某施压的校方,却因此逃脱了指责。

回顾下2020年肖战举报AO3的“227事件”。双方交战的观点在于AO3的同人文的创作是否构成了对肖战的侮辱,AO3是否享有创作自由等。而整个事件的出圈的引爆点在于,肖战粉丝换各种途径肆意举报,最终成功将AO3封禁。举报是肖战粉丝的权利,是否封禁是有关部门的权力。

(三)

个人信息和隐私信息的处理者非常容易沦为替罪羊。有很多系统用到了人脸识别,比如微信支付宝的快捷支付、商场办公室小区入口的人脸识别等。人脸识别系统究竟有没有滥用,侵犯隐私权?这一节我们以“人脸识别”这个小切入口来考察侵权的边界问题。

储存人脸是否有问题,只要考察他是否侵犯了肖像权。一个人的长相并不是“隐私”。如果看到一个人的长相并且通过这个长相记住一个人是违法的,那这个社会如何运作?肖像权是属于人格权的一部分。只要保护肖像权即可。

“隐私”从字面上的意思,就是不愿告诉别人的事。人脸是隐私吗,我认为不是,一个人的鸡巴才是隐私。人脸天天露在外面,跟人交往就靠这张脸作为辨认,怎么变成“不愿意告诉别人的事”,没脸见人?人脸并不是隐私,而是生物识别特征。

我们来做一个思想实验。你生活圈子里所有认识你的人,基本都是通过你的脸来识别这个人是你,他们都在脑子里储存了起你这张脸和你这个人之间的识别对应关系。那么如果有一个坏人仅仅通过戴了你的脸的面具,让门卫和银行的人误以为是你本人,门卫就会给坏人开门,银行的人就会给坏人取款。请问问题出在哪里?

这里的问题难道不在于门卫的安保措施、银行取款的身份验证措施不能只靠“认脸”吗?这些重要的东西本来就需要使用钥匙、门卡、密码进行验证。

如果有人硬要说,问题出在所有认识你的人不应该记得你这张脸,因为有可能告诉门卫和银行,这不是扯蛋么。就算门卫和银行也记得你的脸,这也是门卫和银行的正当行为。难道我知道刘德华长啥样,我就能刷脸把刘德华的银行卡刷爆吗?

GDPR提出的“被遗忘权”概念,其实是包装成“权力”的一种侵权,侵犯的是别人的记忆。记忆和记录是一个人自己享有的权力,对一个团体来说,忠实记录事实,不篡改删除历史,也是这个团体的权力。“被遗忘权”实际上就是你,必须忘了我。凭啥,敢作敢当,还不敢被人记住?

(四)

经过以上几个案例的准备之后,我们收拢一下,回到一个问题:我们为什么提倡保护隐私,保护个人信息。我们常常听见浅显直白的价值,但都经不起推敲,仍然会产生上文提出的争议。

有人说,如果不保护隐私和个人信息,就会被互联网平台杀熟、接到各种推销电话甚至是莫名被办卡办贷款。这属于”规避不良后果“。首先,这个不良后果并不存在严谨的因果性和绝对的必然性。不保护隐私,被滥用的时候会产生不良后果。那么就会争议,究竟是保护隐私这个动作,还是阻止滥用这个动作才能够针对性地规避这个不良后果呢?其次,过于严苛地阻止个人信息的流通,也会带来不良后果。正反相比,孰轻孰重,度在哪里,这就从定性变成定量的问题,而定量问题自然存在各种争议。因此“规避不良后果”不足以成为保护隐私的本质价值诉求。

有人说,己所不欲,勿施于人。我有秘密不希望别人知道,否则在人际交往中会觉得赤身裸体被人看穿浑身不舒服。这属于“诉诸常识”。这是朴素的道德观念,但是显然不严谨。

有人说,保护隐私就是保护自由、保护人的尊严和独立价值、保护个人私生活的生活安宁(《民法典》)。这属于“寻找更高层次的价值”。自由、尊严、独立、安宁这些词汇都是比较笼统的概念,不够具体。只要是价值的一种,势必会和其他价值产生碰撞,没有绝对的价值。比如自由很重要,但是在疫情面前,生命权又压倒了个人出行的自由;生命很重要,但是面对敌人的威逼利诱,尊严又压倒了生命。这就导致了“说了等于没说”,又需要具体问题具体分析了。同样,隐私如果等同于自由、尊严、独立、安宁,那么是不是为了疫情防控,所有隐私都可以被牺牲?面对敌人都威逼利诱,是不是和祖国或者组织无关的隐私也都需要被保护?李大钊被捕的时候,保守了共产党北方区的秘密,但并没有一言不发,而是将他参与国民党的一些信息供出以便周旋。显然“寻找更高层次的价值”过于笼统,并不能给我们指导。

我认为,隐私,本质上是一种社会活动中解耦的要求。

比如我们应聘一项工作,我们不希望因为家里住豪宅还是住老房子来评价工作是否胜任,家里住房条件和工作岗位应当解耦。再比如我们去点外卖,我们不希望因为曾经在哪家公司工作过,而收到不同的食物,过往工作经历应当和点外卖解耦。但是过往工作经历,对于评价工作胜任能力就是必要的,对于外卖商家是“隐私”的事情,在下家HR的眼里,就不能成为可以合理拒绝提供的信息了。有些事情,就是“关你屁事”,解耦才能更好专注于社会活动的本身,发展社会活动。有些事情,还真的分享才能促进社会活动。

社会活动有解耦的需求,那么究竟是应当一开始就阻止信息的分享,还是可以在分享之后阻止滥用呢?人类的心理构造,擅长处理相似性和联想,但难以完美处理解耦,所以即使告诉一个人,有个信息不应当纳入评价因素内,但是人类还是会不自觉地收到潜意识的影响。所以为了确保社会活动真正解耦,隐私信息非必要不分享,即使要分享,限于纳入评价因素范围内的特定信息而不是泛泛的信息。其次,因为特定需求收到个人信息的人,也不应当大喇叭向他人八卦分享,因为这些信息可能会不受控地传到本不应当被收到的人的耳朵里。

而个人信息的保护,就是在强调避免滥用而不是阻止信息的分享。

以“解耦需求”为指导方针,我们才能厘清隐私保护和个人信息保护的边界。

 

参考链接

[1] 大数据时代隐私的边界及限度-人民网
[2] 豆瓣用户给翻译打差评被举报,还让不让人打差评了?
[3] 删除:大数据取舍之道  – 读书网

反对是需要论证的

(一)

近日,浑水披露的一份匿名的89页做空瑞幸咖啡的报告堪称质疑的典范。这份报告从结论来说,用89页论述了一个众所周知的废话:瑞幸是不能赚钱的。

但是这个废话是需要论证的。

特别是在瑞幸咖啡已经在美国证监会公布了2019年Q4业绩快报,其中提到瑞幸咖啡的单店已经开始盈利了。瑞幸公司管理层是拥有最多的内部信息,他公布了多个维度的内部信息和分析支持了“瑞信咖啡单店开始盈利”的结论,审计师E&Y没有反对,美国证监会也没有反对。瑞幸咖啡已经完成了他的举证义务。

现在轮到质疑的人完成他的举证义务了。

套用陈铭说的话,你要承担反对方的责任,不是简单的挑刺。反对是需要论证的。

如果只是一个吃瓜群众,只要知道上面这句话,再等等看瑞幸咖啡官方的回应就能继续吃瓜了。但是作为一个被疫情死死按在家里的人,我来拆解了这89页报告,再锻炼下我们论证分析的能力。

附:做空报告原文(百度网盘链接)

链接:https://pan.baidu.com/s/1lJ-EuP28wWviZWD7WN7GTw
提取码:n16q

(二)

在拆解报告之前,我先普及一下瑞幸咖啡烧这么多钱,为什么还能在NASDAQ上市。对瑞幸熟悉的可以直接跳过这一部分。

瑞幸的商业模式可以放在这个框架下来拆解:利润 = (销售单价-成本) * 单店销售量 * 店面数量规模。那么之前烧钱随后如何挣钱?其中成本端简化成一个都放在了括号里了,其实严谨来说应该分为单杯变动成本、店面固定成本、公司固定成本。

  1. 原来销售价格 – 成本是负的,亏钱卖咖啡。瑞幸说,是因为折扣做得多。折扣属于促销市场活动,烧钱主要是为了建设品牌和培养用户习惯。正常价格销售,毛利是正的。
  2. 每个门店开店是有固定的房租人工成本的。为了覆盖这些固定成本,每一杯咖啡都挣钱还不行,每天还要卖足够多的量。
  3. 一直开店,开店,开店。把单店利润反复复制。

不管原来烧过多少钱,只要从近期的某个时候开始,扭亏为盈,越来越盈,那就是好公司。

这个近期,就是2019年Q4。瑞幸在上市公司Q4业绩公告中说,单店已经扭亏了。

具体而言,平均销售价格从上市时候的9元上涨到15元,平均每店每天销售的咖啡杯数从上市时的293杯上涨到493杯。同时,瑞幸的门店也开了4500家。诺你看我的财务报表,主营业务亏损缩减了,这是审计过的哦。按这个增长趋势,瑞幸会挣很多很多钱。各位投资人爸爸,买我吧!

瑞幸一直说自己在烧钱,门店数量快速上升,DAU增加,跟我们的个人感觉是相符的。直至上市的时候也是这副样子。

走在上海的街上,确实看到越来越多瑞幸蓝色的门店,确实有很多朋友同事下载了瑞幸咖啡的APP,也经常收到各种各样的折扣券,这么低的价格真的好划算。亏钱补贴消费者,真是薅资本主义羊毛的良心企业。

质疑瑞幸的文章很多,瑞幸还要亏多久,有没有盈利的一天。

瑞幸就这个态度:你说我过去在亏,我认。但是你说我未来永远会亏,未来都还没来,没人说服的了对方。

然后,在2019年Q4,瑞幸说它单店层面盈利了。

他说,我现在也不亏了。

这就打了很多人的脸。瑞幸这个模式,单店怎么可能盈利呢。

 

(三)

让我们用这样的顺序来学习。列出一句命题,先自己想想,该怎么论证它是真的。然后看看浑水怎么做的。

命题1:瑞幸说全国平均每店每天销售的咖啡493杯,数字偏大了。

错误论证1:做做Market Sizing。对标下星巴克每天能做多少杯,或者对标下其他咖啡品牌的经验。同时用每天营业时间倒推,得到每1分半能卖一杯咖啡。从理论产能极限来看,几乎已经是100%满负荷不停。

错误论证2:我们说瑞幸现在一直在烧钱,唯一的稻草就是NASDAQ的增发。要增发必须给投资者一份过得去的答卷,所以管理层绝对有充分的理由和能力调高这个咖啡销量。他可以简单改下APP数据库里的记录,也可以通过供应商占款再回流的形式做成销售收入……

不完善论证1:我身边就有几个瑞幸咖啡的门店,我去那里看看,每小时平均出多少个订单,然后折算一下。

不完善论证2:我去想办法看看某家门店的收银机统计下,看不了收银系统,看看一天打出的最后一张水单表编号也行,总之都有办法。

以上所有的论证,都有一个共同的缺点:这都只是疑点,不是证据。

  • 星巴克每天只能做300杯那能说明什么,为什么瑞幸不能比星巴克每天多50%?
  • 满负荷100%不停能说明什么,瑞幸门店就是满负荷运营啊,这是他们的竞争优势。
  • 身边这个瑞幸门店或收银机统计一天只能做300杯那能说明什么,你可能去的是偏僻的门店。
  • 管理层有理由和能力调高销量,不等于管理层实际真的已经调高了销量。

所以这些论证方法都不能成立。

让我们来看匿名报告怎么做的。

他首先从瑞幸APP上,一个城市一个城市,把瑞幸的门店名称、位置都抓了出来,做成了一张 Master Data File。

基于这张Master Data File,进行数据汇总,得到如下的汇总结果:截至2019年12月31日,从瑞幸APP上数到4409个门店,分布在53个城市,分成办公楼门店、商场店和其他店的类型。和瑞幸咖啡发的年报上的数据核对:4507家门店,只差了2%。基本上可以保证这个清单的完整性了。

接下来骚操作来了,他对这4409家店按照类型和城市进行了分层抽样,然后派人暗访了981家门店(占总样本的22%),数出每个门店的每天卖了多少杯咖啡——数出来,平均每店每天263杯,比管理层说的495杯少了将近一半。

用统计学和分层抽样,而且抽样率大大超过拥有统计显著性的抽样数。如过按审计方法,基本抽40-100个样本就可以进行统计分析了——解决样本代表性问题。

接着,如何统计订单呢。线下订单看POS机操作多少次,线上订单看纸袋数量——这个统计方式只多不少,解决“外人无法准确判断订单数”的问题。

现场的人数数,同时全程录像,回头第二个人对着视频再数一遍——双人独立复核解决“万一人工数错了呢”的问题。

再强调一遍,反对是要论证的。

同样,反对的反对也是要论证的。

假设其他人要反对这个抽样的样本代表性还是有问题,那么需要明确论证,以上抽取的981家门店,或者抽取的具体天数存在bias,需要同样或者更高强度的统计显著性。

 

(四)

命题2:瑞幸咖啡停止烧钱的补贴之后,就能挣钱了。

错误论证1:很容易想到,很多买瑞幸咖啡的顾客就是存在拉新补贴、折扣券和价格才购买瑞幸的。这些顾客都是价格敏感的顾客,价格上涨后销量肯定下降。

不完善论证1:我的某某朋友说,如果瑞幸咖啡取消这些补贴,肯定不会买瑞幸了。我莫某朋友也这样,我也这样,我认识的人都这样。

看看匿名报告怎么做——“顾客价格敏感的”这句话是要论证的。

瑞幸的年报里找到一个图表,瑞幸把客户按照注册的月份分为一个群组,并跟踪这个群租随后每个月份的留存情况。瑞幸咖啡用来说明,他的用户留存率随着用户注册时间先下降后稳定上涨,如下图,横轴表示用户注册的月份数。

报告把这个图标的横坐标微调了一下,把用户注册月份数改成具体的日历月(比如2019年1月)这样。所以每个群组的线不变,只是简单左右平移到了对应的月份,变成了下图这样:

豁然开朗,有没有。上图究竟是什么杂七杂八的线条啊。

这告诉我们,用户的留存率其实跟用户注册的月份数没有任何关系,只跟日历月有关系。

把交易量的图也平移一下,得到相似的形状:

用户留存率、销售量在2019年2月同时都深深地掉下去了。让我们看2019年2月发生了什么:瑞幸在上市后的19年没有那么狠地推补贴了。但是当瑞幸发现,补贴一取消,销量就猛掉,在2019年3月11日,开启了每周“买7件商品,抽500万现金”的大手笔补贴促销。销量和用户留存率又回来了。

把价格和销量化成二维图标,这就是经济学的价格弹性曲线。没有了补贴,销量就大幅下跌,基本可以论证“顾客是价格敏感的”了。​

这样也避免了“某某朋友觉得”这种个案代表性问题。

 

(五)

让我们看看无效的证据通常有什么样的表现形式。要时时刻刻小心这些陷阱。这些只能做Indicator,但不是Evidence。

1. 用可能性/高概率当成事实。

这事情有发生的可能性,甚至比较高的可能性,但不代表就会发生啊。这是经常会犯的错误。常见的是纯粹因为想不出第二种发生的可能性,而把可能性当成了100%,并推论成了事实。

即使既有足够能力也有充分动机,可能性到事实仍然需要一个惊险的跳跃,那就是实际发生。任何实际发生的事情都会留下各种痕迹,要证实必须找到这样的综合且无可辩驳的痕迹。

错误举例:”我家邻居阳台上晾了一块腊肉,我家猫可以跳过去,把这块肉扯碎扯到地上。我家猫以前也干过这个事情。这次不是你家猫干的还能是谁?”

错误举例:“2015年的Nature论文显示人类有能力在实验室制造病毒,武汉P4实验室又是中国病毒研究的前沿,而且我听说他们实验室管理很混乱,新冠病毒就是人为制造不小心泄露出来的。”

2. 诉之“不合常理”的低概率。

这事情概率太低,怎么可能恰好发生,说明这事情是假的。这属于产生怀疑的前置信号,但不叫证据。有了怀疑的信号,需要干的事情是寻找完整的证据和论证。信号不等于论证。

对任何事情,我可以举出无数不合理的信号。世界其实是充满了偶然。

错误举例:“你不打他,他怎么会打你呢?”

错误举例:“印度学者发现,新冠病毒2019-nCoV的基因序列发现4个独有插入的片段。这在所有其他冠状病毒中都不存在,这在自然界中不太可能是偶然的。新冠病毒是人类制造的。” / “人类这么精密的生命,在自然界通过进化变异是不可能的。人类一定是由某种高等智慧生物制造的。”

3. 以个案代表总体,却不建立个案的统计典型性

用我之前的经历,我朋友的事情,我看过有个代表性案例是怎样的,作为证据。

错误举例:“我有朋友整天不读书,最后做生意,现在有好几套房了,比绝大多数大学生都多吧。读书有啥用。早出来生意场打拼学做生意,比读书更能挣钱。”

错误举例:“报告说平均每家店每天才200多单,他一定是故意挑了流量低的店,或者在流动低的一天去统计的。淮海路百盛3楼的店,周末下午排队时间一刻钟左右,我打工的某工业区,元旦后开了一家,我们40个人的办公室每天贡献至少6杯,这个工业区大概有2000个人上班,并且有越来越多的人加入每天一杯的行列。怎么可能每天200单。”

错误举例:“报告里走访的900家店的清单里有一行:来福士广场店,统计当天是周一。这报告可真聪明,在一个mall里挑了周一,周一你们去逛mall走商场么?动脑子吧。如果这个统计每个店就挑一天,写字楼多挑周四周五,mall多选周一,那就偏差很大了。”

4. 诉诸权威、诉诸多数

某专家是这么说的,很多人都这么说。他们这么说一定有理由,隐含的意思是他们一定掌握了我所暂时不知道的证据,看过我所没看过的案例,才这么说。

错误举例:“同为被国内美股投资者熟知的做空机构——Citron Research香橼研究,也在推特表明同样收到了该报告,但他们在推特表示,他们仍然看多瑞幸。美国拥有成熟的资本市场,这么多投资人也不是傻子。”

最近的多益网络董事长《实名带可靠证据举报武汉病毒研究所》,没有一个称得上证据。看来是徐董事长对“证据”这个词有不同的理解。哎。

5. 攻击观点持有人的资质和人品

一个人有缺点、无经验、以前干坏事,所以他的观点是错的。

错误举例:多益网络董事长徐波对医学完全不懂,他的举报是无效的,所以武汉病毒研究所就是清白的。

要注意,不可信观点不等于他的对立面就是对的。

攻击观点持有人的资质恰恰是诉诸权威的反面。

观点应该与人解耦。判断一个命题的真假,有且只有一种途径:看论证,看证据。

 

(六)

总的来说,人类的感觉对于特例还是典型、总体和样本、概率和可能性、偶然和必然,其实是毫无处理能力的。

人类对栩栩如生的故事做出更大的反应,并认为这样的个案会以更大的概率发生,并且有一定的必然性。而面对统计数字的时候,会不自觉地认为,所有的个案都应该非常接近平均数。

人类对讲故事的人也会做出更大的反应。第一反应不是判断这个人讲的故事是否真实,而是判断这个人是否可信。人类更喜欢对人做判断,而不是对事件本身做判断。

对抗的方法只有一个:

Talk is cheap.

Show me the evidence, and prove it.

 

智识分子:实用的理工科世界观

今日入了同人于野的《智识分子——做个复杂的现代人》。这已经是一本老书了,2014年出版的。没错,2014年的书已经变成老书了。同人于野本身的职业是物理学博士,但是这篇文章确实在讲如何看待世界和社会的现象。同人于野的文读起来是很快的,但是我知道,写出这样的东西其实是很花时间的。因为阅读和思考的关系,观点会在脑袋里沉淀下来,但是单纯的观点是远远不足以落成完整的文章,这个过程类似学术论文的产生,在有一个基本框架的情况下,还要做扎实的研究和调查,确保引用的故事并非编造。这件事情上花费的功夫可能要远远超过把字码出来的功夫。

我总是会从前言和序开始读,而这本书的序完全可以作为正文的第零章节。序文提到,世界的现象越来越复杂,理论很多,对事物的解释程度和预测准确度缺不见提高。特别是经济学,社会学,统计学,政治学,历史学,好多理论看似正确却又常常在现实中被证否,也有相互的矛盾的理论可以同时存在。

尤其是经济金融方面的学科,和数学物理化学相比,还处于百家争鸣的初级阶段,各个理论之间相互打架,互相争吵,谁也说服不了谁。比如对金融产品价格的预测,可以用capm模型、相对估值法、无风险套利模型……每个模型可能得到截然不同的结果。究竟哪个对了,还是哪个错了,还是都错了?

20世纪80年代开始,泰特洛克搞了一项历时二十多年的研究:用科学的方法评估专家们对于政治事件的预测能力。比如,他在苏联尚为解体的时候让专家们预测苏联未来的命运会比当时更好、更差还是保持现状,并要求专家对各种情况设定一个概率。二十多年后,一切问题水落石出,再回头看当初专家们的预测:专家的预测成绩,总体来说,还不如投个硬币随机选择。

所以再预测未来方面,很多专家的确是“砖家”。

但泰特洛克这个研究最值得称道的发现却是,并非所有专家都这么不堪,有的专家预测得相当准确!这个准确与否,与专家的专业从业时间,是否能接触到机密材料,他是自由派还是保守派、乐观派还是悲观派,都没有关系。唯一有关系的是专家的思维方式。泰特洛克定义了两类思维方式:刺猬和狐狸。刺猬式的思维是只知一件大事且非常深入,在简约的名义下寻求扩大此事的解释力,以”cover“新的案例;狐狸式的思维是知道很多小事,与瞬息万变的世界保持同步,不纠结自己心里已有的大主意。

狐狸预测的准确度,远远超过了刺猬。

刺猬就是那种芒格说的“在手里只有一把锤子的人眼里,看什么都像钉子”的人。我们要做狐狸,不要做刺猬。

如何用知道的很多小事来与瞬息万变的世界保持同步呢?首先是心态上必须是开放的,不要有绝对化的信念。对任何新的信息都要乐于接受和消化,并不断修正自己的预测。这又说到著名的贝叶斯定理了。我之前中提过一种说法,要有一种数学化的判断力,用的就是贝叶斯定理的思想。用贝叶斯定理来形成对复杂体系的信念,时刻调整自己对各种事物的看法。同人于野也提到了“贝叶斯定理的胆识”,可以理性正确地看待以下的罕见病的阳性诊断:

题目如下,已知一般人群中HIV携带者的比例是0.01%,那么我们在街头随便找了个人去做检查,结果发现检测结果是HIV阳性。这种血液检测的手段的准确度有99.99%,那么请问,这个人之真的携带HIV的可能性是多大呢?答案:这个人被误诊的可能性有50%。

只有熟悉贝叶斯的思维模式,才能躲开直觉的思维陷阱。深以为然。

他并不是罗列各种理工科思维的工具,而是通过事情来阐述应该怎么看待这个世界。有一章节说到诸葛亮的舌战群儒,历来是作为诸葛亮有智有谋的正面典型。但是分析了辩论的技术之后,发现他并非通过摆事实讲道理,沙盘推演不同可能性,分析利弊,再说服东吴联蜀抗曹的。相反,诸葛亮在群嘲中处处占上风,目的是为了从气势上压过多方一头。文人这种玩法,就如同两军列阵的时候先派几个斥候先对决一番,重要的不是死伤多少,而是面子。最终诸葛亮显然未能取得东吴群儒的认同,反而拉了仇恨,无法达到对抗曹操的大业。其实日常生活中很多无谓的争吵恐怕也都是用了这些辩论的技巧,纯粹为了辩论而辩论。

说着说着,感觉和同人于野的观点越来越多相似的地方。

还是要继续读书,多读书,多多泛读。但是随着现在信息的膨胀,书籍的质素也变得参差不齐。吾生也有涯,而书也越来越无涯,以有涯随无涯,殆已!再怎么泛读会越来越迷失。所以对于阅读材料的选择也很关键。我最近用的方式是用时间换数量,不看上市不满一年的畅销书,只看经过时间检验之后有口皆碑的好书。这样的做法也有很多坏处,一是这样的书往往朝着大部头和完整性奔去,看完一本实在太累了,二是时效性不足,又需要碎片化的阅读来补充。

不过看完这本书之后,反而启发了我下一步可以怎么选“书”——或者严格来说,阅读材料:读会议paper和文摘,读年报/招股说明书,读分析报告,读原始材料。这些材料的共同点,都是一个人或者一个团队,基于特定的目标,经过认真分析、调研、实验、提炼、反复修改而成的作品。读这些材料,结论是次要的,重要的是他们的方法论以及调研和实验的“事实”。方法论自然无需多言,有目的的实验产生的事实要比单单读各种芜杂的新闻时事更加深刻。

 

豆瓣书籍链接:https://book.douban.com/review/9472503/

大部分讲大数据的都是叶公好龙

到处都在说大数据,其实大部分说的只是古老的概念。特别是数据分析用的东西,目前还没一个跟大数据搭得上边的。

大数据,首先得够大。

大数据,最重要的一个词就是“大”。要多大才算大数据呢?Google定义为超越普通电脑处理能力的数据量才是大数据。若以纯文本形式储存这些数据,至少得是1T以上才够的上入门。

而很多时候我们碰到的数据量,远远还谈不到“大数据”的门槛。现在很多行业说到的“大数据”是啥概念?

例如所谓“大数据”应用于审计:几百万笔交易记录明细导出来,通过一些条件筛选识别一些有风险的交易来检查。拜托,这1G的数据量,个人电脑卡个20分钟绝对给你筛选出来,也不是什么高频实时需求,这就是最古典的数据分析方法。不要把一个(或者若干个)excel文件就能处理的数据就叫做大数据,谢谢。

数据和算法同样重要。

处理大数据需要有巧妙的算法。“豆瓣FM”是第一个推出音乐推荐的豆瓣猜。它根据个人和其他虾米用户听歌的记录进行分析,智能推荐你可能喜欢的歌。这个推荐算法的背后是多元线性的距离公式:寻找在多元空间中距离最近的人/歌。这公式讲起来很简单,也就是高中的解析几何的难度。可是这算法的计算复杂度是N(O2),当只有3个人 + 3首歌的时候可以秒算,而当人和歌的数量急剧增长的时候,这算法需要的计算量呈几何增长。

好了,你知道了这个算法了,你可以写出一个新的电台软件了。可以吗?No.

你要有数据积淀。

Rubbish in, rubish out. 这是数据分析的第0条原则。就像大部分的互联网产品死在了第一步:冷启动。一个新用户出现在你面前,也是一个空白的profile。第一首歌你想推荐哪首?只能去金曲榜或者播放榜找排名。结果就是对于每个新用户,你只能来来回回推荐那么几首歌。算法再跑,这个数据池子亦是空空空空如也。

有了数据还要要重视数据清洗。

不要以为,每个数据集都长得整整齐齐。能长得整整齐齐的那些数据,分析老早就做完了,或者说,这些数据集在生产的时候,已经为了分析的目的而清理好了。实际中碰到的数据常常各种混乱。就算是最结构化的数据集,只要输入端/采集端来源是多个来源,就一定会出问题。不要问我为什么,填过多少坑。在使用这对数据集之前,可能需要化大量的时间对一条条记录做人工或半自动的预处理。这个时间,比实际运算的时候要大10倍。

知乎用户“清夜”曾吐槽过,处理过一段类似于这种“北京丨海淀”数据,需要将这个数据分成“北京”和“海淀”这样的字段。结果不管用什么办法,计算机都无法识别这个“丨”的分隔符,导致分词失败。他把所有的方法全都试了一遍全都不行,甚至换浏览器和电脑。最后灵光一现,通过反查Unicode编码发现,这个分隔符根本就不是电脑键盘上打出来的这个“|”,也不是全角半角的区别,而是一个拼音为gǔn的汉字……留下风中凌乱的作者。

最后总结一句,普通人距离“大数据”,是天和地的距离。还是脚踏实地从数据治理开始做起。从业务流程梳理入手,结构化体系化地生产或者采集数据,用效益成本平衡的指导原则对原始数据进行必要的审核,用90%的时间进行数据清洗,最后才用10%的时间跑算法。

日常的科学:形式逻辑还原法

有时候学习一些新东西,花了好长时间看书练习,还是觉得效果不好,没有吃透。花的时间和精力也不少,浑浑噩噩地,进步却没多少。工作也是,加班加班加班,看项目看项目看项目,像反复玩无限关卡的游戏一样,打完一关又一关,每次只是收获了一句“恭喜过关,请准备下一关”,连打游戏的技巧都没有提高。

TVB剧《爱回家》里有一段很有意思。爷爷批评学渣金城安,怎么这么笨老是学不会。金城安说人各有长处,只不过恰好有人的长处是考试,而他的长处是玩游戏罢了。为了证明这一点,他提出要跟学霸熊心如比试玩游戏。金城安挑了一个他最近玩了好几百小时的游戏,而熊心如从来没有玩过这个游戏,她只有一个晚上的时间可以用来熟悉游戏。

第二天,在全家人的见证下,金城安和熊心如开始了正式的比赛。经过激烈的比拼,出乎意料的是熊心如竟然赢了。熊心如是怎么做到的呢,她利用一个晚上的时间,上网查了各种攻略,记忆并计算一下背后的技术参数,然后再练习下几个有用的操作动作。最后的结果,一个晚上的聪明努力,胜过了几百个小时反复的重复。

连续剧中虽然有夸张的成分,但不可以否认的是,有些人在游戏上确实很有天分。顶尖选手比赛是神仙打架,绝大多数人玩游戏只是低水平地重复斗蛐蛐。所谓“天分”其实也不是完全神秘不可言的,归根结底是游戏中的即时判断——即时判断不同战术的优劣并做出决断。有时候说“大局观”和“预判”,都是基于对游戏规则和对手心理的深入理解,建立了科学的决策评价体系的结果。

做啥事情如果不带着点目的和方法,那跟咸鱼没啥区别。

人类知识的来源是什么,人类做判断和预测的准确性如何得到提高?

Read more

对诸如奇葩大会之类的辩论活动的批判

奇葩说从开播到现在我都没怎么看,主要是我对辩论活动并无好感。至于为什么我那么讨厌辩论可能跟我的个人经历有关,但简而言之,一切辩论赛/活动都是徒有其表,华而不实。虽然辩论标榜逻辑,但是和真正的严谨理性相差甚远。实际上,一名好的辩手是一个好的政治宣传家,而不是好的分析师、科学家、哲学家。

辩论无法对辩题做出有意义的分析。为了赢得辩论,双方辩手要对辩题做出对自己有利的解读,把战场划界为对自己有利的一方。可是这有什么不对的吗?问题就在于,如此辩论导致了话题的漂变,回避了真正困难的话题。例如论题为“网络游戏是利大于弊还是弊大于利”,反方可以通过话术把“网络游戏”引申为“网络游戏上瘾”,如此得出弊大于利的结论。可是这个结论有意义吗?啥东西上瘾不是弊大于利,抽烟上瘾损健康,吃饭上瘾会变胖,读书上瘾会变傻。弊大于利的是“上瘾” 而不是“网络游戏”。

反方接着列举弊端ABC,正方对应列举好处1234。根据4>3的小学数学,正方说综上所述利大于弊。反方说你的好处1234合起来都没有弊端ABC大,正方说合起来就是比ABC大。可是“大于”的标准在哪里,怎么定?通常1234和ABC都是不同范畴的事情,正方说网络游戏可以放松身心,反方说网络游戏上瘾会荒废身心,那么究竟应该怎么比较放松身心和荒废身心的效用,怎么归一化,怎么量化比较?

有人开始用统计数据来进行量化,正方列举某个统计结果,反方列举了另一个统计证据,这在审计中叫做“矛盾性证据”。出现矛盾性证据需要做什么?需要调和,英文叫做Reconcile,需要找到Common ground。矛盾是不存在世界上的,出现矛盾的唯一可能性是错误。要不是逻辑错误,要不是范畴错误,而且大多数情况是范畴错误。从根本上解决矛盾,并不能通过辩论中采用的办法,只是从表象上解决, 把对方的矛辩成茅,把盾辩成遁。

你需要正视反面的事实,制定统一的可证实证伪的规则,并以此为基础进行操作。在没有规定好评价体系规则之前,列举的任何实例和论据都等同于耍流氓。可有哪个辩论赛最终能够Agree on an uniform methodology to quantify the impact? 辩题不是利大于弊还是弊大于利么,首先要确定“大于”是什么意思,首先明确“大于”不应该是个数的多少,而应该是程度的高低深浅。其次确定弊的程度和利的程度的量纲怎么定义,应当是一维的还是多维的。第三,如果出现多个弊端或者利好,且他们之间并非一维的关系,它们之间的叠加和抵消关系是如何。第四,随着空间和时间的变化,利弊的程度出现了变化,在不同空间和时间上如何进行比较……如果连定义“大于”都没有一致意见,辩论结果有何用?最终无非是谁大声(说的好听)谁赢罢了,人类的知识并没有增进,困惑也没有消解。

辩论运用逻辑作为工具,但是不是真正拥抱逻辑。辩手需要寻找对手逻辑的漏洞,以此为攻击点,然而这是一件非常肮脏的行为。因为,任何一段试图传达有效信息的命题都是片面的,可以被攻击的。没错,任何一句。只有一种命题是让人找不到漏洞的,那就是同义反复的废话。“A是A”这个命题具有先天的正确性,我可以把“A”替换为任意的概念,然而这显然是一句废话。如果我试图表示“A是(像/具有……特征/属于/包含)B”这样的信息,由于概念A和概念B本天然就是不同的两个概念(否则为什么要分别用两种不同的词语来表达呢),所以A和B之间要建立任何联系,都要有前提和语境,而且这些前提和语境无法被语言完整说出,而只能被表现和感受出。

古有公孙先生的“白马非马”之辩,如果用A代替“白马”,B代替“马”,则得到通用命题“A是不是B”。好,整个辩论过程可以总结为:正方:定义满足A是B的语境(“这里的是字,代表从属关系”)。反方:定义满足A不是B的语境。(“这里的是字,代表同一” )。正方:你定义的语境是不存在的(“你扯蛋”)。反方:我方语境比对方的更通用(“扯的是你的蛋”)……结果我们要得到什么?我们本身就知道白马从属于马,知道马和白马这两个集合概念的层级不一样,知道语言中有约定俗成的延展(比如白马王子显然就不是什么白色的“马王子”),在实际的语境中,我们本来就能明确地区分白马和马的概念。想象一下,开马戏团的甲向养马的乙约定购买一匹“马”,最后乙给了甲一匹白马,乙违约了吗,因为白马非马?再想象一下,命题“马是被人类驯养的动物之一,有白色,棕色,黑色等多种颜色;因为白马是马,所以白马也有多种颜色”这句话,能因为白马是马而变得正确吗?最后这两个问题的答案的清晰程度,并不因为辩论的结果而有任何影响。

真理越辩越明,错。实际上辩论根本就不在意什么真理,只在意情绪。辩论的对象即不是辩题,也不是对方辩友,而是自己、观众和裁判。网络上的争吵也是一样,不要以为争辩的网友在试图说服对方,不,辩论永远无法说服对方。他们只是虚荣地展现自我给围观的人看。而围观的人,看到的其实是自己的故事罢了。