Benford定律

    今天李淼老师在他的博客上介绍了Benford定律。所谓Benford定律就是指从以1开头的数字到以9开头的数字,数字出现的频率以指数的衰减的规律。我一开始没太注意,但阿饭很激动。我本来不太相信,正好写论文写的无聊,就用Google验证了一下。我分别搜索了11, 21, 31, ..., 91这九个数字,以Google返回的结果数作为指标。下面是结果:
Benford1
    下面是归一化的结果,11的出现频率占了整个结果的33.2%, 而91只占了2.7%。我没有做函数拟合,但看起来还是符合指数衰减的。这个结果实际上已经可以回答阿饭的问题了,因为Google搜索结果可以作为词频的估计 (详见这里),而词频可以影响人的加工速度已经是很确定的结论了。
Benford2
    当然,作为一个严谨的blogger,我还做了对照。下面是用Google搜索11, 12, 13, ..., 19 这九个数字的结果。这次并没有出现指数衰减,9个数字的频率差不多。这是为什么,其实我也没太搞清楚...
Benford3

评论

  1. 哇哈哈,我也觉得这个很妙,忍不住乱说几句~~

    在第二次搜索中,变动的是末位数,末位数的衰减据说比首位数慢很多。我听说的版本是,这些数字如果是来自自然界的测量,那么多半是很好地符合指数衰减的,而如果来自人工模拟就会差很多,因为人是用平均分布来产生随机数字的。所以有人说,Benford定律反映出自然界的随机分布是指数分布而不是人们设想的平均分布,还把它和分形什么的联系起来,但好像没有人最后弄明白为什么了

    回复删除
  2. 我都忘记我的问题了。。。
    我貌似只是觉得这个应用到认知科学的数据处理和数据拟合上说不定会有有趣的结果

    回复删除

发表评论

此博客中的热门博文

如何画出漂亮的图

12平均律vs.自然律 频率vs.音高