投资,要学会用统计思维看问题
本人2008年底金融危机时候获得统计硕士学位,然后从事统计工作至今。一直想写一篇关于统计的文章。用最通俗易懂和语言和接地气的例子来讲一些统计的基本概念。目的就是人人都能轻易看懂,不会有任何数学公式或者复杂的概念。 另外本文绝大部分内容非常浅显,没什么高大上的东西。
首先统计到底是干什么的?如果用一句话总结那么我最喜欢的就是我导师说的“evaluating weight of evidence”即衡量证据的重量。这话比较绕口,其实就是看一些现象是真实存在还是纯粹的运气凑巧。比如你得病了,吃了一种药A,然后病好了。这时到底是药物A有治疗效果还是纯粹的运气好:你不吃这个药,病可能也会好。 你根据一种你的策略买卖一个股票赚钱了,到底是这个策略是真正有效的还是你运气好?
学统计有什么好处?抛开很现实的好找工作,最大的好处是锻炼你的理性思维。统计是一门改变思维方式的学科。(相比计算机就不是改变思维的学科,而是一门提高思维敏锐度的学科。计算机高手的反应都非常快)。
学会用统计的方式看问题你就会变得越来越理性。
当别人给你一个结论你第一反应是这个结论有没有数据支持?缺乏统计思维的人很容易陷入一些常见的逻辑误区比如:
1、使用个例来得出结论。这个是最常见的逻辑错误。很多人说“高等教育没用,赚不了钱”这些人举出的例子无外乎是“XXX(名人)大学辍学现在创业多牛逼” “我隔壁的XXX从小成绩不好,现在做生意赚了很多钱” “我认识的XXX上了名牌大学现在不也是赚个平均工资而已,还不如我YYY成绩超烂的中学同学混得好”等等等等例子。实际上这些都是用个例来推导结论。正确的比较方式应该是对比各种学历的人的平均工资是多少。比如把人分为几个组:没学历,小学学历,中学学历,本科学历,硕士学历,博士学历。然后算出这些人的中位数工资(为何不用平均工资后面会解释)。我相信得到的答案应该是学历越高的组中位数工资越高。 另外类似的结论还有“学金融,经济学对投资没有任何帮助”等等,举例就是“没见过哪个金融教授发财了”
2、一些骗局也是利用人们的逻辑漏洞。假设一天你收到一个推荐股票的电话给你说他们有内幕消息知道X股下周要涨。你认为他们是骗子,但是闲着无聊还是关注了这个股票。结果这个股票真的涨了很多。第2周你又接到同样的电话给你推荐Y股下周要爆发,结果Y股走势真的很好。第3周同样给你推荐Z股,结果也是对的。你这时就开始怀疑难道他们不是骗子?真的有内幕消息?第4周又给你推荐一个新的股票而且又大涨了。这时你开始相信他们真的有内幕消息。然后第5周他们让你加入QQ股票收费群,会员费只收888!你一想888算什么,抓一个涨停8888都回来了实际上是怎么回事呢?其实很简单比如他们找到1w个股民,给他们分组推荐100个股票。一周以后可能其中50个股票涨势很好。然后给剩下的5000人打电话再分组推荐100个股票。第2周以后剩下2500个正确的组。 同理一直这么下去。到了第4周以后可能就有“幸运的”一组500人一直都蒙对了。这500人可能有50个人信了这位“有内幕消息的股神”同时加入了QQ群。这个简单的骗术就成功了。
3、一些迷信也是因为缺乏统计知识,比如“本命年要倒霉” 举得例子就是周围的“XXX本命年的了一场大病”,“XXX本命年出了车祸”等等,好像一打听很多人真的本命年倒了大霉!实际上是怎么回事呢?是因为有更多人的其实本命年也没发生什么。但是他们不会告诉你,你也不知道而已。这个就是典型的偏差。
下面我来讲讲统计中最常见的术语和概念
平均数:这个太简单小学生都知道,就是算术平均而已。
中位数:就是字面的意思,排在中间的那个数字。中位数是一个很重要的概念因为它能排除很多的特例,极端值(outliers)。
假设你有一个5个股票的组合。 其中PE是 8,12,15,25,600(盈利太差)。 你这个组合的平均PE就是(8+12+15+25+600)/5 = 132. 中位数则是15。 这时候只看平均值还以为你的组合都是超高估值的股票。原因就是一个极端值极大的提高了整体的PE。这时中位数能更好的描述你的组合估值水平。之前收入的例子用中位数也是这个原因,不让个别的巨富的人来抬高整体平均工资造成一种错觉。也就是我们经常说的“我又被平均了”。
权重:简单来说就是重要程度,占比多少。
一个典型的例子就是考试AB卷。A卷满分100分,B卷满分50分。总分是A卷*50%+B卷。 假设你A卷90分,B卷40分那么你的总分就是90/2 +40 = 85分。 股市里面的权重股就是在指数里面占比高的股票比如A股的银行,保险,券商公司。 CPI调节也是靠改变权重,比如最近食品特别是猪肉暴涨,但是为了不让CPI看起来太高引起恐慌所以就把猪肉的权重降低就好了,经常说的CPI造假其实不是用假的价格数据而是改改每个东西的权重即可。
统计期望值:这个概念在股市里面特别重要。通俗的话来说就是按照概率的纯理论值。
比如你猜硬币正反,理论上你的胜率是50%。但是你只玩2次,很可能2次都对的,或者2次都错的,你实际胜率有可能得到100%或者0%。要得到这个理论胜率50%你就必须重复玩很多次。这里就是一个极为重要的理念:你想得到理论值就必须重复试验很多次。在股票里面这个就是分散投资背后的基础理论之一。假设你认为白酒复苏了贵州茅台(SH600519)“大概率要创历史新高”你认为恒瑞医药(SH600276)“大概率有马太效应,强者恒强,未来要股票长期走牛”你也认为伊利股份(SH600887)“大概率要继续领跑,拉开和蒙牛的差距”还有几个判断“X,Y,Z股票大概率未来要赚钱”好了。这么多“大概率要赢”的投资你到底是投哪一个呢?是全力投资茅台吗?还是全力投资恒瑞或者伊利,或者XXX股票?万一你的判断是错的呢?股市里面没有100%确定的东西。这时候统计期望值就能发挥作用了,让你把分析出来的“大概率赢”实现。假设你找到15个“大概率赢“的股票组成一个组合。那么只要这些股票真的胜率是比较高的,那么你必然赚钱。但是如果你只押宝其中的1~2个结果就不一定了。
标准差:标准差是衡量波动率或者更专业的术语“离散度”的数据。 标准差大的数据说明大家距离平均值有较大的不同或者说波动大。
在现代金融理论里面这个经常被用来衡量“风险”(净值波动大=风险大,净值波动小=风险小) 当然这个是有很大争议的。 但是确实找不到另外一个更好的指标来量化衡量风险。 另外一个误区是用标准差和平均值来做简单的预测。 比如多年小明考数学平均为80分标准差为10。 这里并不能简单的预测小明下一次数学考试为70~90分。 正确的预测为: 假设小明成绩为正态分布,那么我们有95%的信心认为小明未来N次考试的平均分为 80+- 10*1.96 = 60.4~99.6 是不是等于没有预测。
正态分布:数据有多种分布,最常见的就是正态分布。
这图就是一个完美的正态分布。 线条下面的面积就是概率。这世界有一个奇妙的现象:基本上绝大多数东西都是类似正态分布。 比如工资,寿命,身高,体重等等。 统计中很多预测的假设都是数据是正态分布。比如常规的风险价值VaR(value at risk) 就是这个假设。出问题也通常是这个假设导致的。因为正态分布严重的低估了极端现象出现的几率。在股市里面实际上正态分布图会更加扁,边缘极限值有更高的几率出现。 改进的VaR用T分布(其实还是会低估风险,但是比正太分布好多了)后来人们都发明了各种更高端的模型来解决这个问题,比如收益率用椭圆形分布。
现代统计证明有效性,差异性的方法:这个就是统计学里面的最核心的东西之一。要证明一个东西的效果或者差异性是真实存在的而不是因为运气。
假设一个外星人来到地球的一个大学教室,他惊奇的发现坐在左边的人的平均身高明显比坐在右边的人高。于是他得出了来到地球的第一个理论:教室里面左边的人会比右边的人身高更高! 当然我们知道这个理论明显是错的。他只是碰巧遇见了一个这种教室。如果这个外星人多去几个教室看看就会发现有些教室左边的人个子高,有些教室右边的人个子高,有些教室左右的人身高都差不多。结论就是身高和你坐在左边或者右边其实没有任何关系。统计是如何解决这个问题的呢?
现代统计的经典模式:
做一个假设H0:比如男的和女的平均身高一样。
那么H1就是 男的和女的平均身高不一样。
然后用数据最后得出一个证据的分量(p-value)。
也就是H0成立的概率。(在“平行世界”做无数次实验。)
比如p-value=0.01 也是就是男的和女的平均身高一样的概率为1%。 那么这个就是证据就说明了H1的正确性:男的和女的平均身高不一样。 然后还能得出一个系数说明男的比女的高多少。。同理医药试验中的H0:药X没有效果, H1为药X有效果。所以你常常看见文章里面写药X p-value=0.005 说明药有效果。通常我们把小于5%的概率称为H1成立。
好了今天就写这么多。统计对于一般人真正的意义不是掌握很多复杂的数学模型(你如果不是干这行的这些数学模型也在生活中没什么用)而是让你掌握统计的思维来看世界。这是一种看问题用概率的思维,一种量化的思维,一种喜欢看数据再做结论的思维(而不是凭空想象)。
- 上一篇:各种不同的交易心理分析
- 下一篇:这个诗人,居然还是古代第一金融家