【概率世界】03 修正的归纳法

逻辑入门第一课:归纳法很常用。逻辑入门第二课:归纳法不是那么有效。归纳法是从众多观测的现象中总结规律,寻找现象背后等原因,以便推广到一般化的情况。这是最常用、浅显而且符合直觉的方法,而且在相当长的时间内,被视为是人类科学知识的来源。但是归纳法有致命的弱点:它无法确保正确的知识。归纳法所总结的规律是基于已经观测到的现象;而对于没有观测到的那些现象,归纳法需要假设(或者推断)它们和已经观测到的现象是一样的,这个假设是无法且不可能被归纳法所证实的。归纳法的失效最为人所知的例子就是黑天鹅的出现。在欧洲,所有的天鹅都是白色的,因此人们一直相信所有的天鹅都是白色的——直到澳大利亚发现了黑色的天鹅。若归纳法会失效,那么所有的人类知识都有可能是错误的。人们相信万有引力之所以是万有的,有可能只是因为还没有观测到不存在引力的情况。

上面所说的归纳法其实是弱归纳法,与此区别的是强归纳法,而强归纳法是能够保证正确的知识的。强归纳法通常出现在数学的证明中。强归纳法和弱归纳法的区别在于,强归纳法不需要引入那个致命的假设(未观测到的现象与已观测到的现象是一样的),因为它事实上是全体的枚举法,它将所有的现象都包含在了观测范围中,以确保没有漏网之鱼。然而强归纳法在现实中的应用非常有限,并非所有事情都能够全体枚举。特别对于未来的事情,若未发生,如何观测?

可是否定归纳法的有效性又是反直觉的。试想对于“所有的天鹅都是白色”这个说法,如果人们只看到十只天鹅都是白色的,他们或许会对这个说法产生怀疑;但是人们若看到十万只天鹅都是白色的,那么这个说法拥有更高的可信度。因此如果由于归纳法是无效的,所以不管看到多少只天鹅都不会对人们的观念的确定性产生影响,又欠缺妥当。所以又有了修正的归纳法。修正的归纳法承认知识不可能绝对正确,但是可以在“某种程度上”是正确的。如果人们只看到十只白天鹅,则有99.9%的可能性超过万分之一的天鹅不是白色的,所以人们基本都会对这个说法产生怀疑;而如果人们看到十万只白天鹅,则错误的可能性下降到万分之0.5。如果预测未来见到的下一只天鹅,那么它是白色的可能性也更大了。如此我们可以将知识从观测的部分现象有概率地推广到全体,而且不确定性也能够精确地衡量了。

确定性也只是不确定性的特例,是发生概率等于100%的特例。让我们重新审视确定性下的观念,会发生他们都是不严谨的。当我们在谈“因为A所以B”的时候,甚至不是表示因果必然性,而是在说P(B|A)趋近于1。既然只是趋近而不是相等,那就意味着凡事没有绝对,必然的因果联系下也会有特殊情况的产生。

—————

附:“已知的未知”和“未知的未知”

美国国防部长拉姆斯菲尔德说过:“据我们所知,有已知的已知;我们也知道,有已知的未知。但是同样存在未知的未知——有些事情我们根本不知道我们不知道”。这段话原本只是一位深陷伊战危机的政治家应对新闻记者的政治说辞,不过它恰好指出了修正的归纳法的弱点。修正的归纳法还是没有真正解决有效性的问题。这是后话。

【概率世界】02 实体和观测

我相信创立和研究概率论的人一定从骨子里是一个本体论者,因为概率论所展现出来的逻辑就是一种清晰的实体-现象的二元区分。也就是说,任何事件和物体都有一个“实体”,而人类要通过观测这个实体的的现象,来推断实体的性质。人类是无法直接了解实体本身的,只能通过想象和假设来创造实体的性质,然后推断应当产生的现象,与实际观测的结果进行比较。与其他的人类知识不同,概率论在实体和人类理解中间多插入了一层现象,使得人类无法直接研究实体本身,所以这导致了某些困难。

譬如化学说电解水生成氢气和氧气。所以我们做实验拿了水去电解,真的生成了氢气和氧气。我们说这个理论和观测是相符的。概率论则不然。比如在一叠充分洗匀的不含大小怪的扑克牌中随机盲抽一张牌,理论上抽到红桃牌的概率是1/4。接着我们做一个实验抽一张牌,结果可能是红桃或者非红桃,我们无法看到1/4这个数字在单次实验结果中如何体现。另外,“充分洗匀的扑克牌”在现实中存在吗?要洗匀到什么程度才叫充分?理论想象出了一副完美的扑克牌,这副扑克牌中每张牌都是绝对同一的,不会产生一张牌比其他牌更容易被抽到的情况。我们实验拿了一副扑克牌,只是对想象的那副完美扑克牌的近似替代物,是由于我们没有理由相信有哪张牌更容易被抽到,而现实中由于各种微观因素的影响,确实有可能产生人类感觉不到的差异,实验时先不要在意这些细节。能重复实验的实体还算对人类仁慈,要是遇上一次性的事物(比如在现在估计美联储在2015年前退出的可能性,比如在高考时候遇到一道不确定的题目当时要决定要选哪个好),没有给你重复实验的机会,那个实体最终可能永远无法得到确证。

常说概率论需要抽象思维,其实我相信抽象思维和形象思维是相通的,所谓不擅长抽象思维的人,只是面对抽象的东西,脑里没有浮现出正确的形象罢了。比如说到一个事件发生的概率,我脑海中浮现一个类似“事件发生器”一样的神秘内核,各种可能的事件就像五彩斑斓的光谱一样投射在一个平面上,其中某个事件的概率就是这个事件在整个平面里占据的比例大小。神秘内核就是所谓的实体,而光谱便是可被观测的现象,神秘内核像黑箱子一样无法被了解,而只有现象才是可以观测的,世间事大抵如此。所以构建出正确的平面(分母,总体)和小区域(分子,样本)就是计算概率的关键。

而实体无法直接观测,不等于实体完全无法被观测。通过间接的手段,我们可以推测实体的性质,其中一种方法就是假设检验法。我们先研究一个假设性的实体,赋予它某些特性,分析它应当产生什么样的现象,然后与实际观测到的现象进行比对。如果结果一致,我们可以推断这个真实的实体拥有这个特性;如果结果相反,则真实的实体不具备这个特性。再如上文提到的抽红桃的实验,虽然单次实验无法体现出1/4这个数字,我们需要对实验进行一点设计,即采用重复独立实验的方法。根据推论,如果出现红桃的概率确实为1/4,那么经过大量实验之后,出现红桃的次数会得到接近1/4,这样我们就可以通过数数来确证概率了。但此时实验和理论已经产生了偏离,实验做的是多次独立重复现象,而理论针对的是单次现象。实验只是间接证明了理论,实验和理论中间还是多了一层推论和假设。

【概率世界】01 不确定的世界

未来从来不告诉你会带给你什么,因此也最令人遐想。这无法预见的未来构成了这个世界的特质:不确定性。那啥叫不确定性?这个词语已经足够简单自明,而且很多别的词语都会用它来解释(例如“风险”的概念,就是指“事件发生与否的不确定性”)。可是你确定你明白不确定性吗?

“不确定”就是“不知道”。扑克牌中最好玩的事情莫过于当对手只剩下两张牌的时候,你要猜测他手里的牌型。你通过超强的记忆力和精确的演算,推断出他手里的牌是两张单张的可能性稍微大一些(可能性是2/3),虽然也有可能是一对(可能性是1/3),所以你决定接下来打对子。这样的不确定性就来自于信息的匮乏。因为在对方的眼里,他的牌型是肯定无疑的事情。要么是单张,要么是一对,非此即彼,不存在“2/3是单张,1/3是一对”的情况,对他来说,唯一答案就在那里,不确定性是不存在的。所以同一个事物的不确定性在不同人的眼里是不一样的,在缺乏足够信息的情况下,我们虽然能够基于现有的信息进行估计,但是无法推断出准确的结论;拥有的相关信息越充分,不确定性越低。比如我昨天跟同事聊天得知我们项目组刚刚从投资管理部门调来一位新同事,但是还不知道他/她是谁。如果我要猜测他/她的性别,在没有其他信息可用的情况下,我可以去查找美国人口的男女比例(0.97比1),据此我推测她是女生的可能性稍微高一点点,是50.8%。如果我又得知投资管理部门的男女比例大概是2比1,那么我可以推翻之前的估计,得出他/她是女生的可能性只有33%的结论。直到我看到她本人并了解她的背景,我才能确定她是女生,不确定性被消除了。信息的不同改变了概率的估计,但是并没有改变事实本身。在这个过程中,那个人还是那个人,她的性别并没有发生过改变,也不会出现半男半女的混合态。而随着更多信息的获取,对概率的估计逐渐调整,最后收敛到了100%。

事件的概率并不是对客体的直接测量,而是信息量的测度,甚至是对主观倾向的测量。概率的测量存在天生的一种缺点:它的对错和准确性非常难以衡量。由于概率并不是对事件本身的直接测量,因此事件的结果是不能作为直接衡量概率测量准确性的依据的。这一点和其他理论有很大的区别。其他理论比如利用牛顿力学计算一个炮弹的落点,只要让这个炮弹真的打出去,看看实际落点与理论落点是否吻合即可,两者距离越近,说明计算的准确性越高。事件概率则不然,特别是某些无法重复试验的概率。当我最终得知新同事是女生的事实,究竟说明哪个概率估计是对的?50.8%,还是33%,还是都不对——因为实际值是100%?更令人困惑的是,哪一次概率估计的准确度更高?一开始我估测是50.8%,然而由于我获得了新的信息(了解到新同事是来自于投资管理部门),我修正了概率估计到33.3%,但是这个概率估计反而更加远离了实际值,难道说明第二次的概率估计是一个相当差的计算么?

当然不能这么说,因为这叫事后诸葛亮。判断概率估计的优劣,必须回到做出概率估计的那个时刻,判断是否是当下最佳的估计。记住,概率不是对客体的直接测量,而是信息量的测量。回到前文说到的最后两张扑克牌的例子中。你如果估计对手是两个单张的概率是2/3,所以你打出了对子,结果对手恰好是一个对子,结果你输了,这只能说你的运气不好。下次再遇到这种情况,你还是会做出同样的决定。从长远的视角来看,如果你打的牌局够多,遇到同样的情况够多,你发现出现两个单张的次数还是比出现一个对子的次数多一些,这时候你说,我的概率估计是对的。

停!仔细想想,这样真的对吗?既然我们不能用单次随机事件的结果来验证概率估计的对错,为什么我们可以用多次随机事件的结果来验证呢?如果1局出现对子的可能性是33%,那么在21局中,对子的出现次数比单张多的情况也是有可能的,虽然这个可能性非常非常的低,只有大约6%。如果真的出现这个情况,还是只能说明,你的运气实在是太差了。不过从单次随机事件扩展到多次随机事件,我们也并非一无所获,至少我们更加确定你的运气实在是很差。所以精确的说法是:“‘我的概率估计是正确的’这个说法是正确的概率更大了。”哎,这谁扔的西红柿啊?

—————

附:你真的能区别不确定性是来源于信息不充分还是真正的随机吗?

前面不确定性来源于信息不充分的说法,只适用于事件已经发生的情形。对于事件尚未发生的情况,这个不确定性来自于事件本身。抛一个硬币是正面还是反面就是这种随机事件,在硬币被真的抛起之前,再多的信息也无法消除不确定性,只有等硬币落地,结果才能从客观意义上锁定。这时候,有人会说这个不确定性就不是来源于信息不充分了,而是由于抛硬币这件事情天生具有随机性。完全同意。可是做一次思想实验,如果能够知道抛硬币的力道、力矩,结合硬币的质量和惯性大小、离地的高度、地面的弹性系数等,便可以计算出硬币的翻转速度和翻转次数,从而准确说出硬币的朝向,那这样不确定性不是也会被消除吗?所以极端地来说,所有的不确定性都是来自于信息不充分。

星星闪烁的声音

最近一段时间,不时有一些奇怪的景象跳进我的脑海,场景是很久很久以前呆过的地方,故事情节如鬼魅一般闪现,然后又忽然不见了。比如昨夜11点半送走来我家作客的朋友之后,突然浑身都没了力气,于是到浴室里打开淋浴的莲蓬头,把水温开到最滚烫,闭着眼睛让水从头顶冲下,顺着脸颊流下。这时候我突然看见某个夜晚宿舍熄灯后,我从下铺爬到上铺,然后钻进被子里开始哭,过了一伙掀开被子往外一看,头顶是空旷的深黑夜空,星辰满天,迢迢银河斜跨过整个穹顶。睁开眼睛的时候,透过水帘我看到的还是纯白色的浴帘。

夜晚看星星也许是人所能想到的最浪漫的事情。躺在面朝深蓝大海的半山上,丢开城市的灯火,只有微亮的星光闪耀。我指着参宿四和参宿七说,看那几颗星星这么亮,大概就是北斗七星了吧。你能想象吗,这些星星其实跟太阳也是一样的发光发热,甚至比太阳还要大还要亮,只是离我们太远了才变成这么一个点。我拿着望远镜一个一个星星地看。每个星星在望远镜里跟肉眼看到的都是一样,闪着亮白的光。我没有转头看你,你不发一语,已经靠在我肩头睡去。 继续阅读

直肠子美国人

1.

文化冲击

在出发来美国之前,我觉得我已经做好了对于文化差异的思想准备。不过当差异渗透在日常生活的点点滴滴的时候,还是小小震惊了一下,这就是文化冲击的一种表现吧。

说一个跟文化冲击无关的小事。我知道日语中有一个词叫做wasabi,就是蘸生鱼片的绿色芥末。然而如果在任何一个汉英词典里搜索“芥末”这个词,出来的都是mustard。所以我一直认为日料芥末=wasabi=mustard,只不过是中文、日语和英文的区别罢了。所以第一天在跟他们出去买寿司的时候,当他们听说我生鱼片蘸mustard的时候都惊呆了……好吧我其实就想知道,是不是只有我不知道mustard其实是另一种与芥末截然不同的调味品,一种用于热狗的黄色的酱料。而芥末的英文就是wasabi了。

 

2.

现实

上文化差异讨论课的时候,老师提出了这么一个问题:在你的文化中,决策时是否更多考虑现实(realistic or practical)的因素还是情感(emotional)因素。 继续阅读

10分钟学会VAT出口退税

中国增值税中一个难点就是生产企业的出口退税,但是严谨的税法条文写的实在是太难懂了,光是公式就能写上好几页教材,这样的段落能记住才是怪事!所以我用10分钟的时间介绍出口退税的简化两步公式。扔掉教材中拗口的专有名称还有繁冗的步骤吧!

两步公式

1. 当期应纳税额 = 正常计算的应纳税额+净出口×(销项税率-退税率)
2. 免抵退税额(退税上限) = 净出口×退税率
其中净出口 = (出口销售额-免税进口货物)

基本原理

继续阅读