遊び tokidoki 仕事

数学と音楽と教育と遊び

Top | おしごと | ゼミ | がくせい | すうがく | かがく | きょういく | おんがく | おきにー | Tips | Photo | イベント | ものもう | あれこれ | About

私の身の回りのべき乗則

それは気のせいなだけなのかもしれないが,
何だかパソコンの動作がモッサリしてきたなぁ,
と思ったときにClean upした後デフラグをかけて,
モッサリがなくすという作業を定期的にしている.

で,そのとき分析結果として各ファイルの断片化数が報告されるわけだが,
それを分断数が多い順に並べ替えると
いわゆる「べき乗則」に従っているように以前から感じていた.
f:id:okiraku894:20170530130948p:plain

で,とある機会に実際にグラフにしてみたところ,なかなか見事な結果になった↓
f:id:okiraku894:20170526180652p:plain
ただし,デフラグのログが取り出せなかったので手打ちでデータを書き写したのだが,
分断数6以下のものは大量すぎて作業から外した.
EXCELによって与えられる近似曲線はy=5557.4x^{-0.95}で,
世にいうZipf則が成り立っているように見える.

それでも図に騙されている気がしたので両側対数軸 \log y/\log x で描いたのが↓
f:id:okiraku894:20170526180653p:plain
なかなか良い感じだ.

実はこの記事を書こうと思ったのは他でもない,
予算が削減されつつある大学の電子ジャーナルを契約更新するか否かの判断材料として
ジャーナルごとのアクセス数のデータをもらったことに始まる.
早速アクセス数の多いジャーナル順にソートして描いてみたら見事なべき乗則↓
f:id:okiraku894:20170526180655p:plain
f:id:okiraku894:20170526180654p:plain
おやおや.

この結果に気を良くして,では世間で言われているweb siteのアクセス数についても
べき乗則が見えるのかと,例えばこのブログの1日あたりアクセス数を
多い順にソートして並べてEXCELで近似曲線まで描かせると
どうもべき乗則ではなく指数分布のほうが決定係数が大きくなる.
(まぁ,決定係数が8種類もあってEXCELがどれを採用しているのか,
 とかいった厄介な話はこの際考えない.)
f:id:okiraku894:20170529121850p:plain

あれれ,何が起こっているのか?と思い両対数グラフを描いたら
\log x=2.5 あたりから急に落ち込んでいた↓
f:id:okiraku894:20170529121851p:plain

ならば\log x=2.5に該当する20アクセス未満の日を切り落とせば良いのか,と描いてみたのが↓
y=253.8x^{-0.408}と今度はべき乗則のほうが決定係数が大きくなった.
f:id:okiraku894:20170529121852p:plain
まぁ,不都合な部分を切り落としたのだから,そりゃべき乗則のほうが良くなるでしょ,
ともいえるのだけど.
そういえば最初のデフラグデータも分断数が小さいものは調べなかったから,
順位の大きい先のほうは切り落としたことになっているわけで,
世にいう「べき乗則」は順位の比較的小さい部分で起こっている話,と理解するものなのかなぁ.