Archive for the ‘ 学塾·学术 ’ Category

大部分讲大数据的都是叶公好龙

到处都在说大数据,其实大部分说的只是古老的概念。特别是数据分析用的东西,目前还没一个跟大数据搭得上边的。

大数据,首先得够大。

大数据,最重要的一个词就是“大”。要多大才算大数据呢?Google定义为超越普通电脑处理能力的数据量才是大数据。若以纯文本形式储存这些数据,至少得是1T以上才够的上入门。

而很多时候我们碰到的数据量,远远还谈不到“大数据”的门槛。现在很多行业说到的“大数据”是啥概念?

例如所谓“大数据”应用于审计:几百万笔交易记录明细导出来,通过一些条件筛选识别一些有风险的交易来检查。拜托,这1G的数据量,个人电脑卡个20分钟绝对给你筛选出来,也不是什么高频实时需求,这就是最古典的数据分析方法。不要把一个(或者若干个)excel文件就能处理的数据就叫做大数据,谢谢。

数据和算法同样重要。

处理大数据需要有巧妙的算法。“豆瓣FM”是第一个推出音乐推荐的豆瓣猜。它根据个人和其他虾米用户听歌的记录进行分析,智能推荐你可能喜欢的歌。这个推荐算法的背后是多元线性的距离公式:寻找在多元空间中距离最近的人/歌。这公式讲起来很简单,也就是高中的解析几何的难度。可是这算法的计算复杂度是N(O2),当只有3个人 + 3首歌的时候可以秒算,而当人和歌的数量急剧增长的时候,这算法需要的计算量呈几何增长。

好了,你知道了这个算法了,你可以写出一个新的电台软件了。可以吗?No.

你要有数据积淀。

Rubbish in, rubish out. 这是数据分析的第0条原则。就像大部分的互联网产品死在了第一步:冷启动。一个新用户出现在你面前,也是一个空白的profile。第一首歌你想推荐哪首?只能去金曲榜或者播放榜找排名。结果就是对于每个新用户,你只能来来回回推荐那么几首歌。算法再跑,这个数据池子亦是空空空空如也。

有了数据还要要重视数据清洗。

不要以为,每个数据集都长得整整齐齐。能长得整整齐齐的那些数据,分析老早就做完了,或者说,这些数据集在生产的时候,已经为了分析的目的而清理好了。实际中碰到的数据常常各种混乱。就算是最结构化的数据集,只要输入端/采集端来源是多个来源,就一定会出问题。不要问我为什么,填过多少坑。在使用这对数据集之前,可能需要化大量的时间对一条条记录做人工或半自动的预处理。这个时间,比实际运算的时候要大10倍。

知乎用户“清夜”曾吐槽过,处理过一段类似于这种“北京丨海淀”数据,需要将这个数据分成“北京”和“海淀”这样的字段。结果不管用什么办法,计算机都无法识别这个“丨”的分隔符,导致分词失败。他把所有的方法全都试了一遍全都不行,甚至换浏览器和电脑。最后灵光一现,通过反查Unicode编码发现,这个分隔符根本就不是电脑键盘上打出来的这个“|”,也不是全角半角的区别,而是一个拼音为gǔn的汉字……留下风中凌乱的作者。

最后总结一句,普通人距离“大数据”,是天和地的距离。还是脚踏实地从数据治理开始做起。从业务流程梳理入手,结构化体系化地生产或者采集数据,用效益成本平衡的指导原则对原始数据进行必要的审核,用90%的时间进行数据清洗,最后才用10%的时间跑算法。

日常的科学:形式逻辑还原法

有时候学习一些新东西,花了好长时间看书练习,还是觉得效果不好,没有吃透。花的时间和精力也不少,浑浑噩噩地,进步却没多少。工作也是,加班加班加班,看项目看项目看项目,像反复玩无限关卡的游戏一样,打完一关又一关,每次只是收获了一句“恭喜过关,请准备下一关”,连打游戏的技巧都没有提高。

TVB剧《爱回家》里有一段很有意思。爷爷批评学渣金城安,怎么这么笨老是学不会。金城安说人各有长处,只不过恰好有人的长处是考试,而他的长处是玩游戏罢了。为了证明这一点,他提出要跟学霸熊心如比试玩游戏。金城安挑了一个他最近玩了好几百小时的游戏,而熊心如从来没有玩过这个游戏,她只有一个晚上的时间可以用来熟悉游戏。

第二天,在全家人的见证下,金城安和熊心如开始了正式的比赛。经过激烈的比拼,出乎意料的是熊心如竟然赢了。熊心如是怎么做到的呢,她利用一个晚上的时间,上网查了各种攻略,记忆并计算一下背后的技术参数,然后再练习下几个有用的操作动作。最后的结果,一个晚上的聪明努力,胜过了几百个小时反复的重复。

连续剧中虽然有夸张的成分,但不可以否认的是,有些人在游戏上确实很有天分。顶尖选手比赛是神仙打架,绝大多数人玩游戏只是低水平地重复斗蛐蛐。所谓“天分”其实也不是完全神秘不可言的,归根结底是游戏中的即时判断——即时判断不同战术的优劣并做出决断。有时候说“大局观”和“预判”,都是基于对游戏规则和对手心理的深入理解,建立了科学的决策评价体系的结果。

做啥事情如果不带着点目的和方法,那跟咸鱼没啥区别。

人类知识的来源是什么,人类做判断和预测的准确性如何得到提高?
一个人在某个领域已经干了几十年,我们会说他见多识广经验丰富。但是年限并不保证他成为该领域的专家。有很多老一辈的人,在厂房里干了一辈子,也摸了一辈子的车床,最后只是熟悉特定品牌的车床的操作;一个年轻人很聪明,很快能把握事情的关键,举一反三,但是他见过的世面不够多,常有他想不到的事情,或者不知道“还有这种操作”。

人的知识来源于对外界事物的认知,我称之为纯粹经验。知识也需要人类理智的加工,这种加工方法的存在不依赖于外界事物的具体表现形式,应当是先天自洽且自明的,我称之为纯粹逻辑。

人的逻辑理性是很懒惰的,最擅长处理的是相似性,而不是逻辑的确定性和完备性。例如:某个罕见病的初诊结果的准确率可以达到95%,如果有人初诊结果为阳性,请问他真实得了这个的病的概率是多少?可以稍微思考下再看结论。

那些回答95%的同学,请回去重修概率论,特别是贝叶斯后验概率的章节。

得病的概率近似于初诊准确率的前提假设,是该病的发病率接近为50%,或者我们没有充分的数据支撑该病的发病率显著低于或者高于50%。而一个“罕见病”是不可能有这么高的发病率的。如果脑海里反应得出是贝叶斯概率,那么很快就能发现缺少了发病率这个关键参数。所以确定正确科学的分析框架,是这个问题的关键。

形式逻辑还原法

如何确定这个分析框架呢,我称之为形式逻辑还原法。首先保持一种严谨分析的怀疑主义态度,日常碰到的结论和推理都不会天然绝对的正确,都有其成立的假设和前提条件。还原法的本质就是仔细分析每个结论和推理的逻辑过程,将推理拆分成形式逻辑和前提假设两个部分。其中形式逻辑就是先天自明的绝对正确的部分,其推理的过程不取决于任何现实情形的是与否,它的正确性已无法再质疑(比如矛盾律,同一律等形式逻辑)。剩下的前提假设就是需要做判断:现实情形是否跟前提假设一致?

Read more

有没有投资企业用的管理会计?

最近翻了好多经典的《管理会计》的书,并不是很满意。管理会计从概念来讲,应该是普遍适用所有类型的企业的。但落实到具体操作的层面,经典的方法和工具都是针对制造型企业的,比如成本/利润中心、作业成本法、资本预算管理、平衡记分卡、ERP信息系统……

投资企业用起这些工具,总是有生搬硬套的感觉。复杂的标准成本、制造成本、成本计划,实时成本,投资型企业基本不关心。拿这些工具来衡量项目投资的成本,基本就是一个黑人脸问号。前几年龙湖地产推行ABC(作业成本法),变革地产开发项目的成本核算,实现地产项目的精确核算。但是后来也没听说做出什么成果,因为ABC强调的是企业内部流程作业产生的间接费用的合理分摊。可对于地产开发,企业内部流程产生的间接费用是很少的,绝大多数都是单个项目的直接材料、开发和财务费用。具体到单个项目中间确实有很多成本分摊的问题,比如单个项目里有不同类型的物业(商业、高层住宅、别墅、办公、酒店、零售、公共设施……),同一种物业类型之间也有差异(一楼零售和顶楼零售;小区中心面朝花园的住宅和小区边上的住宅;朝南或朝北的住宅……)。在设计的时候,减少高层住宅增加别墅,可能导致总销售面积下降,但平均单价可能上涨。至于上涨多少,需要合理核算高层住宅和别墅的“成本价”,带来公共设施分摊的问题。但这些差异的驱动要素是房产项目的设计、定位和销售,不是实际开发活动的作业单元。所以ABC自然水土不服了。

要找到适合投资企业适用的管理会计,关键时看投资企业的核心业务活动是什么。以下可作为投资型企业的管理会计框架。

顶层设计是资产配置。每个投资项目需要被赋予额外的属性:(1) 资产类别:股票、固收、大宗商品、另类;(2) 地区、币种;(3) 流动性和期限;(4) 风险和波动率;(5) 资金和额度占用;(6) 收益水平。

中层为每个投资项目的管理,可分为投前和投后。(1) 投资决策分析框架,如DCF,IRR等,及其所需的信息。(2) 核算方法,与会计准则的异同,需要和投资决策分析框架一致。(3) 投后评价和项目团队绩效考核:对决策分析框架里的财务信息进行实时更新,不同版本之间的变化和比较。采用龙卷风模型衡量投资项目的绩效,不停地回顾,寻找投资项目价值变动的动因。不能采用瀑布模型,投前阶段结束就扔到持有阶段,持有阶段结束扔到处置阶段,泾渭分明无法实现项目的合理评估。(4) 内控矩阵建立,对不同投资项目进行风险评估,客制化管控的方式,松紧结合。

底层结构为信息系统。主要作用不是传递信息,而是消除歧义,并保持灵活性。投资企业的问题是信息过载而非信息不足。

嬗变——上海古河道和古县城

秋天的晚上,下着中雨。打着伞走过一座小桥,桥底是一条浅浅的河,看不到水花,也听不见水流,但能隐隐感觉到整条河缓缓向北在移动。岸边芦苇丛摇曳,没有石头的堤坝,草地以缓坡斜插入水里,从岸边退后三米之外是石楠和柳树。若无人的荒芜,又若有意的娴静。

这是我第一次来到顾村所见的光景。所过的桥,叫做荻泾桥,桥下的河,叫做荻泾。

图:顾村荻泾

顾村荻泾

Read more

短评William James的实用主义

William James(1842-1910),美国哲学家,对待宗教(特别是基督教)的态度是“宁可信其有”的实用主义。这样的主义与其说是一种哲学,毋宁说是一种世俗化的处事方法。例如休谟的一方面在象牙塔中秉持绝对严格的怀疑主义,但他不会将这种严格怀疑主义带入世俗的人情往来之中。实用主义不理会休谟严谨那一面的,实用主义并不算得上真正系统的哲学。

James说人应该诚实(Veracity)。所谓“诚”,包括同样重要的两方面,相信真理和避免错误。怀疑主义便错误地把避免错误的方面扩大了,而忽略了“相信真理”的方面。如果在不确定的情况下,我们了解到一种可能的解释,那么我相信这种解释就存在相信真理的可能性;如果什么都不相信,则完全不可能触碰到真理了。所以人面对一种解释,只要不存在明确的反对证据,那么应当选择相信它。适用到宗教的语义下,虽然基督教对世界的解释无法证明也无法证伪,那么一个人应当接受基督教,因为至少存在基督教是真理的可能性。

罗素的两条反驳甚为精彩,都是通过Veracity的原则推论出荒谬或者矛盾的结论。第一个例子说你想要找一个叫做“Ebeneze Wilkes Smith”的人,但你又不知道他长什么样,按照Veracity原则你应当相信第一个遇到的陌生人就是他,因为这样至少还有认对人的可能性,相比否定所有人更接近真理,而这种做法显然是荒谬的。第二个例子说的是如果不是单一的宗教占统治地位的地方,比如中国的一个人,面对儒家道家佛教基督教回教,应当要选择相信哪一种呢?这5种宗教中最多只能一种是真理,那么相信其中一种宗教,就意味着有1/5的可能相信真理,而有4/5的可能性选择了错误,这就和“相信真理和避免错误是同样重要的两方面”背道而驰了,没有一种选择能符合Varacity原则了。

既然说到William James,不得不说John Dewey(杜威)。杜威最有名的一名中国学生便是胡适先生了。“多研究些问题,少谈些主义”,这样的实用主义虽然没有在中国大陆开花结果。但是中国儒家的经世济国的思想其实跟实用主义的理念殊途同归。中国人一直都是实用主义的践行者。

房地产投资常用术语

Gross Lease:毛租赁租户所支付的租金,而业主支付物业经营过程中的费用,包括房地产税和其他有关物业的税收、保险费、维修费、保安保洁等,也就是说在所收取的租金中要包括这些费用。至于水电煤由租赁双方协商,可由承租户支付,也可以由业主支付,所以水电费不是毛租金和净租金的区别,在分析单个物业的时候要另外关注水电煤的承担方式。欧洲和澳洲等还有GST费用,毛租金特指不含GST的费用,因为GST是价外税,应当由租户承担。同理,中国房地产营改增之后,VAT的费用理论上也应该排除在毛租金的范畴内,不作为业主费用。现在就要看2016年5月1日之后具体的行业操作了。

Net Lease:净租赁。净租赁是相对于毛租赁而言,此时的承租人除了支付租金外,还要另行支付一些物业的经营费用。业主提供的净租金的形式,决定了业主要支付哪些费用,哪些是属于代收代缴的费用,哪些是按承租人所承租的面积占整个物业总出租面积的比例来收取,哪些费用主要取决于承租人对设备设施和能源的使用程度。净租赁的形式一般有以下四种:

  1. Single Net. 除租金、水电费外,承租人要按比例分摊与物业有关的税费。
  2. Double Net. 除租金、水电费外,承租人要按比例分摊与物业有关的税费和保险费。
  3. Triple Net.除租金、水电费外,所有的经营费用包括与物业有关的税项、保险费、公共设施设备使用费、物业维护维修费用、公用面积维护费、物业管理费等都由承租人直接支付,简单记忆就是T(ax), M(aintanence), I(nsurance)三费,而业主一般只负责建筑结构部分的维修费用。美国常见。
  4. Absolute Net / Bondable Net. 这是最纯粹的净租赁,租户承担和物业相关的一切风险,甚至包括物业损毁之后的重建。这种租赁比较少见,常用于售后回租的租赁中,本质上等同于将物业抵押打包成一个债券。

Read more