今年も講義「統計とコンピュータ」がはじまった.
それが一般の学生なら興味を持つ話題であっても数学の学生はデータを眺めることが嫌いだ,というこの十数年の経験が気持ちを曇らせるのだけど,また新たなネタ作りを試みている.
今年はBenford則をやってみよう.というより統計教育でよく取り扱われる標準ネタであるものを今までやっていなかったことに気付いた.
ベンフォードの法則 - Wikipedia
下準備で比較的大きな桁数まで現れそうな株式市場からのデータに適用してみた.
2018年3月30日の東証一部上場企業4019社の「始値」と「出来高」それぞれの最高桁の数字の分布を眺める.
始値については「株価」としての適正な価格範囲が共通認識としてあるために理論的になるはずの分布からややずれる一方で,出来高については発行株式数が巨大な企業もあるために,Benford則が綺麗に表れている.
おお,ネタにするには良い感じだ.
一方,数学の学生が興味を持ちそうな,与えられた数のべき乗の先頭の数字についてもやってみた.
を まで行って各々先頭の数字を拾った.
こちらは更に見事にBenford則に当てはまっている.
結局のところ,これらの現象は確率変数 の の小数部分が で一様分布することが元になっているのであって,何か珍しいことが起こっているわけではないのだけど,見た目にはへ~っとなりやすい.
そもそも数 の最高桁の数が だということは適当な自然数 によって
\begin{equation}
m\cdot 10^e\le X < (m+1)\cdot 10^e
\end{equation}と書けるということであり,
\begin{equation}
e+\log_{10}m \le \log_{10}X < e+\log_{10}(m+1)
\end{equation}となるから,つまり の小数部分を眺めているに他ならない.そして
\begin{equation}
\sum_{m=1}^9\left(\log_{10}(m+1)-\log_{10}m\right)=1
\end{equation}となるものだから,ちょうど が数字 の現れる確率となる.
特に数 のべき乗ならば, が に一様分布するという良く知られたWeylの定理があることから,殊更Benford則がはっきり表れることになる.
さて,このネタ,反応あるかなぁ...