高い確率でわたししか使わなさそうなスレッド立ててすみません…
ものの試しに、「あにこれ」のデータを
基礎的な統計手法で分析をしてみたら、
予想以上に露骨なデータが出たので、ご報告&共有までに貼らせていただきます。
■疑問
参キューの総数が、キャッチの数やメッセージボードのなかでの付き合いの良さによってかわる、ということを、あにこれのユーザーはよく書いているが、本当にそうなのだろうか?
■結果1:
「参キュー獲得総数と、メッセージボードの書き込み総件数は非常につよく関わっている。」
トップ50人(※1)の、参キュー獲得総数と、メッセージボードの書き込み総件数のデータを取得して、簡単な回帰分析(※2)を行いました。
で、プロットされたデータは、添付の図の通りなのですが、かなりキレイな相関がでました。
・メッセージボードで頑張って社交的に振る舞えば、参キュー獲得総数が増えるのか。
それとも、
・参キュー獲得総数が増えれば、自然とメッセージボードが賑わうのか。
どちらかはわかりません。
ですが、両者が非常につよく関係していることは確かです。
【回帰式】
参キュー数 = 468 + 0.492 × メッセージボードの書き込み件数
調整済み決定係数(R2)=0.7689(P<0.001)
※1はずれ値として、メッセージボードの書き込みを一度全て削除したユーザーは除外
※2「R」をつかいました。
あれ、写真はりこんでも読み込まれない?
ううむ、グラフがないと、統計のことがわかる人しかわからなくなるという罠…
引き続き
■結果2:関わりがもっとも深かったモデルは下記の通り:
・メッセージボードの書き込み件数に加えて、
・「キャッチされている人の数」も考慮したモデルをつくると、
・参キュー獲得総数とのかかわりがさらに増える。
解説:
メッセージボードの書き込み件数が比較的すくないけれども、参キュー数があるていど多い人、というのもデータを眺めてみるとけっこういました(わたしとか…)。
なので、メッセージボードの書き込み件数だけではなく、他の要素も関わっているだろうな、と考えました。
・登録IDの古さ
・レビュー数
・キャッチをしている人の数
・キャッチをされている人の数
・1レビューあたりの平均参キュー数
などの数値を、上記と同様にトップ50人についてのデータを取得し、それぞれの数値が、どの程度「参キュー数」と関わりが深そうか、を調べてみました(※1)。
調べてみた結果、メッセージボードの書き込み件数の次に影響力が大きいものは、「キャッチされている人の数」でした。
【重回帰式】
参キュー獲得総数=-75.6567 + 0.3417×メッセージボードの件数 + 7.37×キャッチされている人の数
調整済み決定係数(R2)は、普通に計算すると
0.8352(P < 0.001)
となります。これでも充分にかなり強いかかわりですが、
メッセージボードの件数と、キャッチされている人の数という二つの数値はそれぞれに相互作用がある数ですので、この相互作用をなるべく排除した計算をさせてやると、
0.8622(P=0.025)
となり、このモデルがかなり当てはまりが強いことがわかります。
つまり、参キュー数が、メッセージボードの件数と、キャッチされる人数によって変動するものだ、という因果関係を仮定した場合、
メッセージボードに3件書き込みが増えると参キュー1件ふえる(かも)。
キャッチされている人の数を1人増やすと、参キュー数が7件ふえる(かも)。
ということになります。
ただし、逆もしかりで、参キュー数が増えると、それにともなってメッセージボードが賑わい、キャッチされている人の数が増える…のかもしれません。
参キュー数が先にありきなのか、メッセージボードやキャッチされている人の数が先にありきなのか、はわかりません。
※1:Rで「参キュー数」を被説明変数にして、それぞれについて回帰分析を行い、P値を算定。その後、P値の大きいものからモデルへの採用をとりのぞいていく、変数減少法を用いて重回帰分析によさげな変数をしぼりこんだ。
■その他の結果:
【レビュー数の影響】
上記に挙げた数のなかで、メッセージボードの書き込み件数と、キャッチされている人の人数、の次に関係が深そうな数は「レビューの総件数」でした。ただし、メッセージボードの人数と、キャッチされている人の人数に比べると、かなり弱い関係しかもっていない、という感じでした。
レビューの数が少なくとも参キュー総数の多い人。レビュー数が多くても参キュー総数が少ない人はけっこういます…が、レビュー数が極端に少なくて、参キュー獲得総数が多い人はほんの少ししかいません(ひじけん、逢駆さんぐらい)。たぶん、そこが関わっているのかな、という気がします。
上位50人だから影響力が少なかったのかも知れません。51位~100位でデータをとったら、レビュー数の影響はもっと大きいかも。
また、参キュー総数が多くて、レビュー数が少ない人。つまり少数精鋭でレビューを書いている人は、「メッセージボードの件数」あるいは「キャッチされている人数」のどちらかが多い、という傾向がありました。
【キャッチしている人の数の影響】
これは、けっこう影響が大きかったです。ただし、「キャッチされている人の数」と影響力の性質はほぼ同じで、キャッチしている人の数の影響のほうが、より影響力が露骨でした。
【一件あたりレビュー数の平均獲得参キュー数の影響】
「参キュー獲得総数 ÷ レビュー数」で算出した値が、何とどう関係しているのか、も調べてみました。つまり、数うちゃあたるで大量に書いている人と、少数精鋭で、10件ぐらいしか書いてないけど、1件あたりで大量に参キューを獲得している人とか。そういう人には何か傾向性があるのかな、と。
結果はあまり芳しくなかったです。参キュー獲得総数が、R2値が0.86というかなり強い関わりを示す数値がとれたのに対して、一件あたりレビュー数はそこまで強い説明ができるものがなかったです。
ただ、興味深かったの下記の二点
・「キャッチされている人の数」は、けっこう影響力があるっぽい。キャッチされている人の数が多いと一件あたりの参キュー数にいいのか?(R2=0.38)
・でも、メッセージボードの書き込み件数は、ほとんど影響力がない。参キュー獲得総数では、影響力絶大だったけれども…なぜ、違いがでるのだろう。(R2=0.14)
・大量にレビューを書いているほど、一件あたりの参キュー獲得数は少ない傾向が見られる(相関係数R=-0.39)。
【登録期間の長さ】
IDの古さから、登録期間の長さが何かに影響しているかを調べて見ましたが、これは上位50人に関していえばほとんど影響力はみられませんでした。
登録期間があまりにも短い(10日とか)の人はトップランキングには並んでいないといった傾向はありましたが、登録期間は予想以上に影響力が皆無…でした。
【データの偏りについて】
上位50人でとったので、そこがかなり偏った解析結果になっているようなところがあります。
とりわけ、上位20人ぐらいだけで解析すると驚異的にモデルがあてはまります。
一方で、下位に行けばいくほどモデルの説明力が下がります。
なので、あにこれの全ユーザーデータから、無作為抽出をしたデータを使えば、また違った分析結果になるかもしれません。
データこちらに貼っておきました
http://mimikakidesu.blog.fc2.com/blog-entry-1.html
いやぁ、なかなか面白い統計でした!
自分も最近感じてたことなんで、
なるほどやっぱりそうだったのか、という感じです。
また、こういった解析まってます!
>バッカーノさん
ありがとうございます。
次…があるかどうかわかりませんがw
今回、わたしには取得できないデータなのでやってないのですが、
「参キューをされた総数」ではなく、
もし、30人ぐらいから「参キューした総数」を教えてもらえて、
各ユーザーごとの「参キューをした総数」がわかると、
より踏み込んだ分析ができるのではないか、と思っております。
みみかきさん
面白い解析ですね。参キュー総数が被キャッチ数、ボード書き込みに相関するって、なるほどと言う気がします。
ちなみに自分の参キューした総数1365でした。参キューされた数くらいしてるんですね。つぎの統計に使うデータ用にご参考まで
それじゃ 新参で参考にする程じゃないかもですが・・・
参キューした数 291
被参キュー 45
キャッチ人数 6
・・・稲中流に言うと「愛は貰う物じゃない!あげるものなんだぁ~」
とても興味深いデータ分析、お疲れ様です。
ボードの書き込みとも相関するというのは面白いですね。
被参キュー数は、自身が参キューした数にもかなり関わってきそうな予感がします。
今確認してみたら714でした。
ご参考までに。
だいぶ御礼おくれてしまいましたが、みなさんありがとうございました。
ただ、大変恐縮ながら、サンプル数不足のため、データを作るにはちょっと足りませんでした。ご協力いただきありがとうございました。重ねて感謝いたします。
そして、データ分析第二弾…
「これはすごい!」に投票されるものの分布に特徴があるかどうかを少し調べてみました。
http://mimikakidesu.blog.fc2.com/blog-entry-8.html
けっこう、ネガティヴか、ポジティヴか、両極にわかれがちなんじゃないかな、と思っていましたが、想像していたほどではなかったです。
…が、やっぱり、ちょっと両極端に触れる傾向自体はそれなりにあるみたいですね。
注記です。
「データ量が少ないんじゃないか?」とのご質問をいただきました。
■1.確率を見る
確かにデータ量は多ければ多いほどいいですが、データ量が50とか100ぐらいでも、まあそこそこに統計的検定とかはけっこうやりますね。(10とか15だとさすがに厳しいですが…)
やや大雑把な説明をしますと、
たとえば、サイコロを2回振って、2回連続で「6」が出る確率は、1/6 × 1/6 = 1/36 ですね。小数で言うと、0.0277…(2.77%)です。まあ、運が良かったな、ぐらいのことですね。サイコロを3回振って、6が連続で出る確率は、1/216 ですね。小数で言うと、0.0046…(0.46%)です。
「オレはサイコロで6を連続三回出すぜ!」と宣言して、実際に6を三回連続出したら、おまえそれちょっとイカサマしてるか、何か、サイコロの作りがおかしいんじゃないの??という議論になるわけですよね。
こういう確率の数字を、計算しているのが、P=0.003とか、P>0.05 とか書いているあたりです。ここの値が小さければ、「この分布は何かあるな」と。ここの値が大きければ、「まあ、数回に1回はこのぐらいのことは起こるでしょ」という解釈が成り立ちます。
P=0.05 の場合は、20回に1回ぐらいの確率でしかこういう極端な状態にはなりませんよ、とか。こういう分布にはなりませんよ、とか、そういうことを言っています。P=0.01の場合は、100回に1回ぐらい、ということですね。通常、100回に1回以下の確率でしか起こらなさそうな場合は、統計的に「有意」である、としって「まあ、けっこういいんじゃない?」とされています。5%でもそれなりにいいんじゃない?という場合もけっこうあります。
ということで、データ量が少ない場合でも、考えられる確率のことは、P=…というところに書いてありますのでご参照ください。
■2.サンプルの偏りを考慮する
データ量が少ない場合、問題としてより重要になるのは、サンプルとなるデータをどうやって抽出してきたか(サンプリング)、ということの問題はとても深刻です。
たとえば、「あにこれ全体の傾向」を調べるために、「あにこれのサンキュー上位50人」を調べる、というのはご法度になります。「サンキュー上位50人の傾向」からわかるのは、「サンキュー上位50人」の特性であって、「あにこれ全体の傾向」ではありません。
一番の理想は、全データを抽出(全数調査)することで、次が無作為抽出です。ただ、実際には、どちらのやり方も難しい場合が多くありますので、層化抽出であるだとか、多段抽出など、なるべく全体(母集団)の傾向を忠実に反映するような方法を頑張ってやる、ということが必要になります。
一応、そこらへんで、誤解を積極的に招くような記述は慎んでいるつもりではあります(※それゆえに言い方が固くなっているのはご容赦ください)。
あにこれサンキュー上位50人の傾向や、これすご上位100人の傾向については、あくまでそのサンプルの傾向に限定され、「あにこれ全体の傾向」とは異なります。
記述の仕方等に、具体的に問題がある点など発見されましたら、細かくご指摘いただけましたら幸いです。