母集団が正規分布に従っているかを判断する手段は?

正規分布とは 正規分布とはデータを処理する上で非常に都合がいい分布です。 なので、できれば、標本のデータが正規分布に従っていると仮定できれば、統計処理する上で非常に都合がいい訳です。 自然界は正規分布に溢れていて、例えば国民の身長や雨粒の大き…

人気av女優を主成分分析して多次元変数を低次元に要約し、AV女優の特徴を簡潔に集約する

tmduto.hatenablog.com 前回はav女優さんのSNSデータを用いてクラスタリングしました。 ただ抽出データがSNSに偏っていたので、あまり参考にできませんでした。 前回の反省を活かし、今回はav女優さんが販売している動画を元に分析をしていこうと思います。 …

av女優の多次元データをSNSの活動性でクラスタリング av女優が影響力を持つために参考すべき人物像は? 

R

皆さんはavを観ますか? 僕も小さい頃から人並み以上にエロの興味がありました。 僕が小学生位の頃からよく観ていました。 小学生の時は動画を観る手段がなく、台風で早退した帰り道に落ちていたエロ本を見つけ、暴風雨の中むさぼり読んだのを覚えています。…

中心極限定理による標本平均の分布が正規分布として推定できるサンプルサイズについての検討

中心極限定理とは ある程度統計を勉強していると中心極限定理という言葉を耳にします。 定義としては、 「標本を抽出する母集団の分布が正規布分布に従っても従わなくても、サンプルサイズnが十分に大きくなれば、標本平均の分布は正規分布に近づいていく」 …

2018年NPBプロ野球の主要選手をクラスター分析してみた。

クラスター分析とは クラスター分析の種類・方法 クラスタ間の距離の選び方 距離の計算方法 2018年NPBの主要選手をクラスター分析する 概要 セ・リーグ打者のクラスター分析 パ・リーグ打者のクラスター分析 NPBの打者を別の距離の計算法を用いてクラスター…

2018年のMLB打者を主成分分析してみた。

主成分分析とは 2018年MLBの打者データを主成分分析 規定打席に到達した選手で再び主成分分析 主成分分析とは 主成分分析とは多くのデータのまとめる分析方法です。難しい言葉でいうと、複数の変数を1次式のデータに収縮させる事です。 本当は自学自習の為に…

MLBとコンカフェに通うヲタクで理解する相関係数

相関係数とは2つの値の関連の大きさを測る尺度です。一般的には大きい正の値になるほど正の相関を持ち、大きい負の値に成る程負の相関を持ちます。比例と反比例みたいな感じ。実は何種類かあるんです。 Pearsonの相関係数 正の相関~解釈添え~ 負の相関 相関…

MLB2018の安打数は正規分布を描いているのかQ-Qplotで考察する

今回はRを用いてQ-Qplotに関する話をしたいと思います。Q-Qplotは準一級の範囲だと思います。統計好きの人が問題にしたそうな内容ですよね。知りませんが。 Q-Qplotとは? Q-Qplotの実例 得られたデータが正規分布している時のイメージ step1 得られた分布を…

青木宣親から学ぶ 野球は統計学で説明できるのか?~2項分布編~

みなさんは青木宣親選手をご存知でしょうか? Noriこと青木宣親選手は日本だけでなくMLBでも活躍できた日本の野球史に名を残す現役の名選手です。 青木選手は1982年に宮崎県日向市で産声を上げました。 それからというものの、早稲田時代ではリーグ4連覇を果…

2項分布の話

2項分布は数学か賭博が好きな方ならお馴染みの分布でしょう。気長に聞いてください。 ベルヌーイ分布 2項分布 中心極限定理 ベルヌーイ分布 2項分布について説明する為に、まずベルヌーイ分布(試行)について知っておくと理解が円滑に進むでしょう。ベルヌー…

正規分布と中心極限定理について

to 正規分布は統計を学んでいく上で最も重要な連続分布であると結論付けられるでしょう。なぜならば、中心極限定理という定理によって正規分布以外の分布でも標本数nが大きければ標本の平均値の分布は正規分布に近似できるという側面を正規分布は抱えている…

研究デザイン(コホート研究・症例対照研究・横断研究)

研究について漠然と知っている方も多いと思いますが、研究の種類は多岐に渡ります。今回はその中でも最も有名な、時間軸に沿って分ける事で区別されるコホート研究・症例対照研究・横断研究の3つについて説明していきたいと思います。 コホート研究 症例対照…

ROC曲線とは?

前回の感度と特異度の話を発展させていきます。使う表は引き続き10人の癌マーカーの数値を使います。tmduto.hatenablog.com 罹患or非罹患 マーカーA濃度 罹患者 0.19 罹患者 0.17 非罹患者 0.17 罹患者 0.13 非罹患者 0.12 罹患者 0.09 非罹患者 0.07 非罹患…

感度・特異度とかの話(仮)

現在の日本の医療は西洋医学を主軸としている訳ですが、東洋医学と比較して幾つか特徴があります。例えば西洋医学では風邪を引いた患者にずっと同じ風邪薬が処方されるのに対して、東洋医学では風邪の引き始めやピーク・引き終わりは異なる状態と考えて別の…

統計検定1級 統計数理 傾向と対策・参考書

1級の統計数理とは? 統計数理分野の傾向 数理統計分野の対策・参考書 まとめ 1級の統計数理とは? 統計検定1級の分野は大学の3~4年で学ぶ数理統計学に匹敵すると言われています。理工学から医歯薬学・心理学・経済学など統計以外の学問の理解を深めるために…

統計検定1級 体験記(受験記)

2018年の11月に受験した統計検定1級の受験体験記です。今回は受験の流れを軸として書きたいと思います。勉強法や傾向等ついてはまた別の回で書きたいと思います。 まだ統計検定に関する情報が多く出回っていない印象が有るので、参考になれば幸いです。 当日…

統計検定1級を受験した契機

2018年の11月に行われた統計検定の1級を受験して統計数理分野に合格しました。 一方で統計応用分野(医薬生物学分野)には不合格でした。 少なくとも僕が参考にしていた界隈にはお強い方々しか見かけないし、そっちのレベルの話は飽和状態だと思うので、合格…