2011年12月18日日曜日

『はじめての統計学』〜第7章

はじめての統計学』の復習を第7章まで消化。

第5〜7章で学んだ母数(母集団の代表値)の推定に関する事柄をまとめてみる。

  1. 母平均 μ の推定
    1. 母標準偏差 σ が既知の場合: 標本平均の分布が正規分布となる事を用いる
    2. 母標準偏差 σ が未知の場合
      1. 小標本(30以下)の場合: t 分布を用いる
      2. 大標本(30以上)の場合: 正規分布を用いる
  2. 母標準偏差 σ の推定: χ2乗分布を用いる

1-2-2 では標本数が大きくなると t 分布が正規分布に近づく事を利用している。標本数 n の∞への極限で t 分布は正規分布と一致するらしい。この辺はあとでちゃんと数学的に押さえておきたいポイント。

今回まいったのが上記 2 のχ2乗に関する理屈。この本の範囲では全く納得のいく説明はなされないので後で補う必要がある。前回勉強した時はどうしたんだったか忘れたが取り敢えず受け入れて手を動かしたのかもしれない。統計に関する数学の本を買う予定なのでそこでちゃんと押さえられれば何も問題は無いと思って先に進む事にする。

社会に出てからはどんどん先に進むというこのスタンスがかなり重要だと思っている。学生の頃は納得がいくまで考えたり他の本で勉強したり出来たが正直数学を使う立場になってみると後で理解出来ればそれで良いと達観できるようになった。というか学生時代の先生たちは手を動かして早く先に進むように言っていたがそれは正しい事なんだろうと今さらながらに納得。たくさん使って手を動かす事で感覚的な理解を得るというアプローチも良いものだと思う。

この後は仮説検定と相関分析でこの本を締める事になる。あともう少し。

RStudio を使ってみた。

統計分析ツール R の統合分析環境(?)である RStudio を使ってみる。
http://www.r-project.org から R 本体を、そしてhttp://rstudio.org から RStudio パッケージをそれぞれ取得してインストールを実施。RStudio には Desktop 版と Server 版が存在するが通常の分析作業では Desktop 版で問題ないと思う、というかそっちを使っている。
*RStudio v0.94 には
"RStudio requires R 2.11.1 (or higher). If you don't already have R, you can download it here."
という但し書きが付いているので先に R をインストールしておく

起動してみた。
スクリーンショット

2011年12月16日金曜日

『はじめての統計学』

お仕事と趣味の必要に迫られて統計が必要になったので本格的に勉強する前に以前読んだやさしめのを復習中。
今だいたい5章の途中で、標本から母集団の代表値を推定するとかなんとか。
電車の中とかで読んでふむふむするだけで特に紙で計算とかはしていないのでまあまあ進みが早い。
この後は統計学入門でもう少しまともに統計をやるか確率・統計入門で数学寄りの勉強をするか考え中。
とりあえずこの本を早く片付けようと思う。

2011年12月10日土曜日

はじめてみた。

とりあえず勉強した事を残すために始める事にする。

とりあえずは

  • 統計学
  • 機械学習
  • データマイニング
  • R
と呼ばれるものを対象にしようと思う。
あと上記のデータ基盤として BI(DataWareHouse) 関連や MongoDB, Hadoop などに関する事も残していきたい。

お仕事でソーシャル・ゲームのなんちゃって解析担当をしているのでそこにフィードバック出来れば良いと考えているがとりあえずあまり考えずに進めていこうと思う。