Posts Tagged ‘ 理性

智识分子:实用的理工科世界观

今日入了同人于野的《智识分子——做个复杂的现代人》。这已经是一本老书了,2014年出版的。没错,2014年的书已经变成老书了。同人于野本身的职业是物理学博士,但是这篇文章确实在讲如何看待世界和社会的现象。同人于野的文读起来是很快的,但是我知道,写出这样的东西其实是很花时间的。因为阅读和思考的关系,观点会在脑袋里沉淀下来,但是单纯的观点是远远不足以落成完整的文章,这个过程类似学术论文的产生,在有一个基本框架的情况下,还要做扎实的研究和调查,确保引用的故事并非编造。这件事情上花费的功夫可能要远远超过把字码出来的功夫。

我总是会从前言和序开始读,而这本书的序完全可以作为正文的第零章节。序文提到,世界的现象越来越复杂,理论很多,对事物的解释程度和预测准确度缺不见提高。特别是经济学,社会学,统计学,政治学,历史学,好多理论看似正确却又常常在现实中被证否,也有相互的矛盾的理论可以同时存在。

尤其是经济金融方面的学科,和数学物理化学相比,还处于百家争鸣的初级阶段,各个理论之间相互打架,互相争吵,谁也说服不了谁。比如对金融产品价格的预测,可以用capm模型、相对估值法、无风险套利模型……每个模型可能得到截然不同的结果。究竟哪个对了,还是哪个错了,还是都错了?

20世纪80年代开始,泰特洛克搞了一项历时二十多年的研究:用科学的方法评估专家们对于政治事件的预测能力。比如,他在苏联尚为解体的时候让专家们预测苏联未来的命运会比当时更好、更差还是保持现状,并要求专家对各种情况设定一个概率。二十多年后,一切问题水落石出,再回头看当初专家们的预测:专家的预测成绩,总体来说,还不如投个硬币随机选择。

所以再预测未来方面,很多专家的确是“砖家”。

但泰特洛克这个研究最值得称道的发现却是,并非所有专家都这么不堪,有的专家预测得相当准确!这个准确与否,与专家的专业从业时间,是否能接触到机密材料,他是自由派还是保守派、乐观派还是悲观派,都没有关系。唯一有关系的是专家的思维方式。泰特洛克定义了两类思维方式:刺猬和狐狸。刺猬式的思维是只知一件大事且非常深入,在简约的名义下寻求扩大此事的解释力,以”cover“新的案例;狐狸式的思维是知道很多小事,与瞬息万变的世界保持同步,不纠结自己心里已有的大主意。

狐狸预测的准确度,远远超过了刺猬。

刺猬就是那种芒格说的“在手里只有一把锤子的人眼里,看什么都像钉子”的人。我们要做狐狸,不要做刺猬。

如何用知道的很多小事来与瞬息万变的世界保持同步呢?首先是心态上必须是开放的,不要有绝对化的信念。对任何新的信息都要乐于接受和消化,并不断修正自己的预测。这又说到著名的贝叶斯定理了。我之前中提过一种说法,要有一种数学化的判断力,用的就是贝叶斯定理的思想。用贝叶斯定理来形成对复杂体系的信念,时刻调整自己对各种事物的看法。同人于野也提到了“贝叶斯定理的胆识”,可以理性正确地看待以下的罕见病的阳性诊断:

题目如下,已知一般人群中HIV携带者的比例是0.01%,那么我们在街头随便找了个人去做检查,结果发现检测结果是HIV阳性。这种血液检测的手段的准确度有99.99%,那么请问,这个人之真的携带HIV的可能性是多大呢?答案:这个人被误诊的可能性有50%。

只有熟悉贝叶斯的思维模式,才能躲开直觉的思维陷阱。深以为然。

他并不是罗列各种理工科思维的工具,而是通过事情来阐述应该怎么看待这个世界。有一章节说到诸葛亮的舌战群儒,历来是作为诸葛亮有智有谋的正面典型。但是分析了辩论的技术之后,发现他并非通过摆事实讲道理,沙盘推演不同可能性,分析利弊,再说服东吴联蜀抗曹的。相反,诸葛亮在群嘲中处处占上风,目的是为了从气势上压过多方一头。文人这种玩法,就如同两军列阵的时候先派几个斥候先对决一番,重要的不是死伤多少,而是面子。最终诸葛亮显然未能取得东吴群儒的认同,反而拉了仇恨,无法达到对抗曹操的大业。其实日常生活中很多无谓的争吵恐怕也都是用了这些辩论的技巧,纯粹为了辩论而辩论。

说着说着,感觉和同人于野的观点越来越多相似的地方。

还是要继续读书,多读书,多多泛读。但是随着现在信息的膨胀,书籍的质素也变得参差不齐。吾生也有涯,而书也越来越无涯,以有涯随无涯,殆已!再怎么泛读会越来越迷失。所以对于阅读材料的选择也很关键。我最近用的方式是用时间换数量,不看上市不满一年的畅销书,只看经过时间检验之后有口皆碑的好书。这样的做法也有很多坏处,一是这样的书往往朝着大部头和完整性奔去,看完一本实在太累了,二是时效性不足,又需要碎片化的阅读来补充。

不过看完这本书之后,反而启发了我下一步可以怎么选“书”——或者严格来说,阅读材料:读会议paper和文摘,读年报/招股说明书,读分析报告,读原始材料。这些材料的共同点,都是一个人或者一个团队,基于特定的目标,经过认真分析、调研、实验、提炼、反复修改而成的作品。读这些材料,结论是次要的,重要的是他们的方法论以及调研和实验的“事实”。方法论自然无需多言,有目的的实验产生的事实要比单单读各种芜杂的新闻时事更加深刻。

 

豆瓣书籍链接:https://book.douban.com/review/9472503/

大部分讲大数据的都是叶公好龙

到处都在说大数据,其实大部分说的只是古老的概念。特别是数据分析用的东西,目前还没一个跟大数据搭得上边的。

大数据,首先得够大。

大数据,最重要的一个词就是“大”。要多大才算大数据呢?Google定义为超越普通电脑处理能力的数据量才是大数据。若以纯文本形式储存这些数据,至少得是1T以上才够的上入门。

而很多时候我们碰到的数据量,远远还谈不到“大数据”的门槛。现在很多行业说到的“大数据”是啥概念?

例如所谓“大数据”应用于审计:几百万笔交易记录明细导出来,通过一些条件筛选识别一些有风险的交易来检查。拜托,这1G的数据量,个人电脑卡个20分钟绝对给你筛选出来,也不是什么高频实时需求,这就是最古典的数据分析方法。不要把一个(或者若干个)excel文件就能处理的数据就叫做大数据,谢谢。

数据和算法同样重要。

处理大数据需要有巧妙的算法。“豆瓣FM”是第一个推出音乐推荐的豆瓣猜。它根据个人和其他虾米用户听歌的记录进行分析,智能推荐你可能喜欢的歌。这个推荐算法的背后是多元线性的距离公式:寻找在多元空间中距离最近的人/歌。这公式讲起来很简单,也就是高中的解析几何的难度。可是这算法的计算复杂度是N(O2),当只有3个人 + 3首歌的时候可以秒算,而当人和歌的数量急剧增长的时候,这算法需要的计算量呈几何增长。

好了,你知道了这个算法了,你可以写出一个新的电台软件了。可以吗?No.

你要有数据积淀。

Rubbish in, rubish out. 这是数据分析的第0条原则。就像大部分的互联网产品死在了第一步:冷启动。一个新用户出现在你面前,也是一个空白的profile。第一首歌你想推荐哪首?只能去金曲榜或者播放榜找排名。结果就是对于每个新用户,你只能来来回回推荐那么几首歌。算法再跑,这个数据池子亦是空空空空如也。

有了数据还要要重视数据清洗。

不要以为,每个数据集都长得整整齐齐。能长得整整齐齐的那些数据,分析老早就做完了,或者说,这些数据集在生产的时候,已经为了分析的目的而清理好了。实际中碰到的数据常常各种混乱。就算是最结构化的数据集,只要输入端/采集端来源是多个来源,就一定会出问题。不要问我为什么,填过多少坑。在使用这对数据集之前,可能需要化大量的时间对一条条记录做人工或半自动的预处理。这个时间,比实际运算的时候要大10倍。

知乎用户“清夜”曾吐槽过,处理过一段类似于这种“北京丨海淀”数据,需要将这个数据分成“北京”和“海淀”这样的字段。结果不管用什么办法,计算机都无法识别这个“丨”的分隔符,导致分词失败。他把所有的方法全都试了一遍全都不行,甚至换浏览器和电脑。最后灵光一现,通过反查Unicode编码发现,这个分隔符根本就不是电脑键盘上打出来的这个“|”,也不是全角半角的区别,而是一个拼音为gǔn的汉字……留下风中凌乱的作者。

最后总结一句,普通人距离“大数据”,是天和地的距离。还是脚踏实地从数据治理开始做起。从业务流程梳理入手,结构化体系化地生产或者采集数据,用效益成本平衡的指导原则对原始数据进行必要的审核,用90%的时间进行数据清洗,最后才用10%的时间跑算法。

日常的科学:形式逻辑还原法

有时候学习一些新东西,花了好长时间看书练习,还是觉得效果不好,没有吃透。花的时间和精力也不少,浑浑噩噩地,进步却没多少。工作也是,加班加班加班,看项目看项目看项目,像反复玩无限关卡的游戏一样,打完一关又一关,每次只是收获了一句“恭喜过关,请准备下一关”,连打游戏的技巧都没有提高。

TVB剧《爱回家》里有一段很有意思。爷爷批评学渣金城安,怎么这么笨老是学不会。金城安说人各有长处,只不过恰好有人的长处是考试,而他的长处是玩游戏罢了。为了证明这一点,他提出要跟学霸熊心如比试玩游戏。金城安挑了一个他最近玩了好几百小时的游戏,而熊心如从来没有玩过这个游戏,她只有一个晚上的时间可以用来熟悉游戏。

第二天,在全家人的见证下,金城安和熊心如开始了正式的比赛。经过激烈的比拼,出乎意料的是熊心如竟然赢了。熊心如是怎么做到的呢,她利用一个晚上的时间,上网查了各种攻略,记忆并计算一下背后的技术参数,然后再练习下几个有用的操作动作。最后的结果,一个晚上的聪明努力,胜过了几百个小时反复的重复。

连续剧中虽然有夸张的成分,但不可以否认的是,有些人在游戏上确实很有天分。顶尖选手比赛是神仙打架,绝大多数人玩游戏只是低水平地重复斗蛐蛐。所谓“天分”其实也不是完全神秘不可言的,归根结底是游戏中的即时判断——即时判断不同战术的优劣并做出决断。有时候说“大局观”和“预判”,都是基于对游戏规则和对手心理的深入理解,建立了科学的决策评价体系的结果。

做啥事情如果不带着点目的和方法,那跟咸鱼没啥区别。

人类知识的来源是什么,人类做判断和预测的准确性如何得到提高?
一个人在某个领域已经干了几十年,我们会说他见多识广经验丰富。但是年限并不保证他成为该领域的专家。有很多老一辈的人,在厂房里干了一辈子,也摸了一辈子的车床,最后只是熟悉特定品牌的车床的操作;一个年轻人很聪明,很快能把握事情的关键,举一反三,但是他见过的世面不够多,常有他想不到的事情,或者不知道“还有这种操作”。

人的知识来源于对外界事物的认知,我称之为纯粹经验。知识也需要人类理智的加工,这种加工方法的存在不依赖于外界事物的具体表现形式,应当是先天自洽且自明的,我称之为纯粹逻辑。

人的逻辑理性是很懒惰的,最擅长处理的是相似性,而不是逻辑的确定性和完备性。例如:某个罕见病的初诊结果的准确率可以达到95%,如果有人初诊结果为阳性,请问他真实得了这个的病的概率是多少?可以稍微思考下再看结论。

那些回答95%的同学,请回去重修概率论,特别是贝叶斯后验概率的章节。

得病的概率近似于初诊准确率的前提假设,是该病的发病率接近为50%,或者我们没有充分的数据支撑该病的发病率显著低于或者高于50%。而一个“罕见病”是不可能有这么高的发病率的。如果脑海里反应得出是贝叶斯概率,那么很快就能发现缺少了发病率这个关键参数。所以确定正确科学的分析框架,是这个问题的关键。

形式逻辑还原法

如何确定这个分析框架呢,我称之为形式逻辑还原法。首先保持一种严谨分析的怀疑主义态度,日常碰到的结论和推理都不会天然绝对的正确,都有其成立的假设和前提条件。还原法的本质就是仔细分析每个结论和推理的逻辑过程,将推理拆分成形式逻辑和前提假设两个部分。其中形式逻辑就是先天自明的绝对正确的部分,其推理的过程不取决于任何现实情形的是与否,它的正确性已无法再质疑(比如矛盾律,同一律等形式逻辑)。剩下的前提假设就是需要做判断:现实情形是否跟前提假设一致?

Read more

对诸如奇葩大会之类的辩论活动的批判

奇葩说从开播到现在我都没怎么看,主要是我对辩论活动并无好感。至于为什么我那么讨厌辩论可能跟我的个人经历有关,但简而言之,一切辩论赛/活动都是徒有其表,华而不实。虽然辩论标榜逻辑,但是和真正的严谨理性相差甚远。实际上,一名好的辩手是一个好的政治宣传家,而不是好的分析师、科学家、哲学家。

辩论无法对辩题做出有意义的分析。为了赢得辩论,双方辩手要对辩题做出对自己有利的解读,把战场划界为对自己有利的一方。可是这有什么不对的吗?问题就在于,如此辩论导致了话题的漂变,回避了真正困难的话题。例如论题为“网络游戏是利大于弊还是弊大于利”,反方可以通过话术把“网络游戏”引申为“网络游戏上瘾”,如此得出弊大于利的结论。可是这个结论有意义吗?啥东西上瘾不是弊大于利,抽烟上瘾损健康,吃饭上瘾会变胖,读书上瘾会变傻。弊大于利的是“上瘾” 而不是“网络游戏”。

反方接着列举弊端ABC,正方对应列举好处1234。根据4>3的小学数学,正方说综上所述利大于弊。反方说你的好处1234合起来都没有弊端ABC大,正方说合起来就是比ABC大。可是“大于”的标准在哪里,怎么定?通常1234和ABC都是不同范畴的事情,正方说网络游戏可以放松身心,反方说网络游戏上瘾会荒废身心,那么究竟应该怎么比较放松身心和荒废身心的效用,怎么归一化,怎么量化比较?

有人开始用统计数据来进行量化,正方列举某个统计结果,反方列举了另一个统计证据,这在审计中叫做“矛盾性证据”。出现矛盾性证据需要做什么?需要调和,英文叫做Reconcile,需要找到Common ground。矛盾是不存在世界上的,出现矛盾的唯一可能性是错误。要不是逻辑错误,要不是范畴错误,而且大多数情况是范畴错误。从根本上解决矛盾,并不能通过辩论中采用的办法,只是从表象上解决, 把对方的矛辩成茅,把盾辩成遁。

你需要正视反面的事实,制定统一的可证实证伪的规则,并以此为基础进行操作。在没有规定好评价体系规则之前,列举的任何实例和论据都等同于耍流氓。可有哪个辩论赛最终能够Agree on an uniform methodology to quantify the impact? 辩题不是利大于弊还是弊大于利么,首先要确定“大于”是什么意思,首先明确“大于”不应该是个数的多少,而应该是程度的高低深浅。其次确定弊的程度和利的程度的量纲怎么定义,应当是一维的还是多维的。第三,如果出现多个弊端或者利好,且他们之间并非一维的关系,它们之间的叠加和抵消关系是如何。第四,随着空间和时间的变化,利弊的程度出现了变化,在不同空间和时间上如何进行比较……如果连定义“大于”都没有一致意见,辩论结果有何用?最终无非是谁大声(说的好听)谁赢罢了,人类的知识并没有增进,困惑也没有消解。

辩论运用逻辑作为工具,但是不是真正拥抱逻辑。辩手需要寻找对手逻辑的漏洞,以此为攻击点,然而这是一件非常肮脏的行为。因为,任何一段试图传达有效信息的命题都是片面的,可以被攻击的。没错,任何一句。只有一种命题是让人找不到漏洞的,那就是同义反复的废话。“A是A”这个命题具有先天的正确性,我可以把“A”替换为任意的概念,然而这显然是一句废话。如果我试图表示“A是(像/具有……特征/属于/包含)B”这样的信息,由于概念A和概念B本天然就是不同的两个概念(否则为什么要分别用两种不同的词语来表达呢),所以A和B之间要建立任何联系,都要有前提和语境,而且这些前提和语境无法被语言完整说出,而只能被表现和感受出。

古有公孙先生的“白马非马”之辩,如果用A代替“白马”,B代替“马”,则得到通用命题“A是不是B”。好,整个辩论过程可以总结为:正方:定义满足A是B的语境(“这里的是字,代表从属关系”)。反方:定义满足A不是B的语境。(“这里的是字,代表同一” )。正方:你定义的语境是不存在的(“你扯蛋”)。反方:我方语境比对方的更通用(“扯的是你的蛋”)……结果我们要得到什么?我们本身就知道白马从属于马,知道马和白马这两个集合概念的层级不一样,知道语言中有约定俗成的延展(比如白马王子显然就不是什么白色的“马王子”),在实际的语境中,我们本来就能明确地区分白马和马的概念。想象一下,开马戏团的甲向养马的乙约定购买一匹“马”,最后乙给了甲一匹白马,乙违约了吗,因为白马非马?再想象一下,命题“马是被人类驯养的动物之一,有白色,棕色,黑色等多种颜色;因为白马是马,所以白马也有多种颜色”这句话,能因为白马是马而变得正确吗?最后这两个问题的答案的清晰程度,并不因为辩论的结果而有任何影响。

真理越辩越明,错。实际上辩论根本就不在意什么真理,只在意情绪。辩论的对象即不是辩题,也不是对方辩友,而是自己、观众和裁判。网络上的争吵也是一样,不要以为争辩的网友在试图说服对方,不,辩论永远无法说服对方。他们只是虚荣地展现自我给围观的人看。而围观的人,看到的其实是自己的故事罢了。

凭什么非要买得起房呢?

北上广深,这四个大城市的房价涨到完全看不懂了。对任何一个2017届的毕业生而言,依靠工资勤俭节约几年后买房的念想算是彻底断了。要买房一定得啃老,区别在于啃到父母的肉还是啃到骨髓了。

当然我从来都不觉得一个毕业生单单依靠工资结余的积蓄能够在5年内买房是一个社会的常态。按劳动价值论,一个人,如果每天的工作时间仅仅限于能够提供他必要的生存,兼职时间全部拿来一砖一瓦地造房子,一辈子估计都造不出一间。干个一辈子,能把一间木结构的房子的砖块给烧出来就不错了,地基都打不动。《平凡的世界》里的孙少搞了多少年才搞出了个砖厂,又搞了多少年才出第一块砖,穷其一生,又能做多少呢?

进一步讲,现在社会分工已经如此细致,各个领域都有各自的熟练工,劳动效率比一个人单枪匹马不知道要高多少倍。好,就算生产设备的资本投入都现成的好了,造好一间房子需要的劳动至少是10个有社会分工的熟练工全职干2年,合计就是20人年。一个人就算不吃不喝,拿他的劳动来换一间房子,那也要花个整整二十年,考虑到他只能用日常结余来换,需要几十年不过分吧。

这还没算土地的成本呢。

换句话说,在理想情况下,房价和年收入比是20比1。一个人若能有50%的结余,则平均40年的储蓄可以买一套房子,12年可以完成三成首付款的积累,毛估估大概是这么一个数字,以此为中枢,价格会出现上下波动。3年储蓄就付得起首付,说明房价是偏低的,30年储蓄也付不起首付,说明房价是偏高的。2005年,四大新鲜人的工资是4000元,加上OT和奖金一年能拿到7、8万。而当时房价30万一套房。那时候就是3年储蓄付首付的好时光。2016年,四大新鲜人的工资是8000,OT基本没了,一年能拿到10万,扣掉生活成本能剩下2万元已经是大神。而现在房价500万一套房(绝对是客气的经济适用房),确实让人绝望。

事情的变化,就在于估算不了的土地的成本。

土地是不能用等价交换的劳动价值来衡量的。土地是自然资源,不可再生,被一个人占了就不能被另一个人用。土地的价格体现为地主方敲诈的议价能力。级差地租也好,剩余价值也好,再去翻翻马克思的资本论吧。房价不是当朝独有的问题,在中国历史上每个朝代发展到最后都是土地集中的问题。要不怎么那么多改革都是跟土地所有权有关呢?

有几个观点:

  1. 中国这30年的发展依靠的是帕累托改进,既得利益者不动或少动,做大蛋糕大家分。社会在这种和平温和发展的过程中,土地一定是越来越集中。相信中国未来很长一段时间仍能稳定发展的话,等于认同房价是降不下来了的。
  2. 高房价+高货币投放,必然高通胀。其他商品价格迟早飞涨。别看着每年能省下多少存款,10年后都是废纸。
  3. 投资跟通胀挂钩的资产。比如投资自己,让自己在社会分工中的阶层上升,可替代性下降。
  4. 如果不认同(1),尽快去新西兰,那里的草泥马还是很可爱。

一致性原则:养老金怎么才能搞得好

我不知道人的本质究竟是好还是坏,只是发现一个好人变坏是一件很容易的事情。纳粹集中营里的那些狱警原来也是普通人,卢旺达大屠杀中的凶徒昨天还是一起上学的同学同事,忽然就变成撒旦的化身。说历史太远,有些人原来在事务所的时候,被奇葩甲方客户逼得天天加班。有朝一日跳槽,摇身一变成为趾高气昂的甲方,反过来对事务所最tough。背着双手说是“你们收了专业费用,那就要解决问题,这么点事情都做不好!”

我们知道舞弊三角论,做坏事同样也需要同时具备这三要素。压力和机会要素在他进入甲方的时候就已经满足,可是借口呢?难道在做这样的事情的时候,他没有想到以前的经历然后升起一种内疚感?他首先必须自己相信这样的做法天经地义并无不妥。“做甲方就得有甲方的样子”;“不是我太作,而是现在的乙方质量真的很差。”;“不能做?市场上那么多事务所我随便找一家就可以了”;“俗话说得好,在其位则谋其职,这是一种尽忠职守的表现啊。”

道理说的都没错,就是太low了。屁股决定脑袋是人之原始性情,犹水之就下也。可原始性情不代表就是正确的事情,人类文明发展了这么久,如果还是拿原始性情说事,那跟一群咸鱼有什么区别?

人还是要有原则和理想的,希望人的生活和社会越来越好。我的原则很简单,就是做对的事情,不要做屁股决定脑袋的人。对事情对错的判断不取决于这件事情对我的利弊,而是有一个绝对的价值判断。我不希望别人对我做的事情,我不会对别人做;我自己想做的事情,别人这么做我也会支持。这,就是一致性原则。

一致性原则用两句话可以说明:

第一句话是:双重标准是不好的,是low的,是政治不正确的。

第二句话是:既然不能双重标准,那么就要有绝对的价值判断。全面、理性、中立、客观。

Read more