はじめに
どうも、おはこんばんちは。
お茶太郎です。
ずっとデータを取り扱う仕事・BIツールでデータを可視化することを生業としてきたんだけどな、昨今のビックデータ化・AI化の流れの中で、どのような生き方をしていくか・・・・
まあ、その道の先駆者・若者たちと戦い抜けるような年齢じゃねーからな。。。
で、おっさんなりの結論として、肩書を決めたので発表するぞ!
蓄積したデータを提供するビジネスを具体化するのは当然なんだが、「データサプライヤー」を目指すのは違和感があったんだよ。
まだ、世の中になさそうな肩書を目指したかったんだけど、その結論が『データソムリエ(自称)』だ。
散々、泥臭くデータを扱ってきた経験を活かし、データの使い方という側面からサポートするソムリエだな。
データを提供しながら、そのデータの仕様・クセ・活用方法の情報を提供するというお仕事だ!!!
データに関する知識があるかないかとでは、前処理にかかる時間って大きく変わるんだよ。
だから、そこをサポートする。
まだまだ、知らないデータ・扱った事がないデータが山ほどあり前途多難ではあるが、そして実力は遠く及ばないが、目標として目指すことはおっさんの自由だからな。
まだ、誰も名乗っていない肩書なら、おっさんは『日本で一番のデータソムリエ』ってことだ!!
という事で、「お茶太郎@データソムリエ」となりますので、今後もよろしくお願いいたします。
で。。。本題へと!!
金曜日の映画上映回数
前回のブログで宿題とした、映画の上映回数データで「金曜日の上映回数が何故か減る」という問題について、データをこねくり回してみましたので、ご報告申し上げます。
ちなみに、前回のブログは↓↓これ↓↓
今回は、関東エリアのデータを抜粋して、状況を確認していきます。
このグラフ、注目したのは群馬県
そんななかで、群馬県は変動がないんだ。そして、この傾向の方がしっくりくるんだよな。
データ読み解くなかで、「違和感」とか、「肌感」とか、「しっくり」とかって意外と大事なんだとおっさんは思うんだよ。
具体的な理由は言えないんだが、この「違和感」って結構当たるんだわ。
データのエラーや、処理の間違えなんかは、「経験」「感」に基づいた違和感から見つける事がひじょーーーーに多い。
で、謎はやっぱりデータの中にあるんだよ。
そんな時は詳細にデータをこねくり回していくんだ。
まあ色々やったんだが、そして見つけた結果がこれだ!!

縦軸に上映回数、横軸に公開日数を持った、バブルチャート。
円の大きさが、その発生件数になっている。
赤の矢印。上映回数0回になっているところが、金曜日に該当する。
金曜日には、「上映回数が0」の映画館が増えるってことだ。
で、この「上映回数0」になるデータなんだがな、
10/06(日) | 10/07(月) | 10/08(火) | 10/09(水) | 10/10(木) | 10/11(金) |
---|---|---|---|---|---|
劇場問合せ | 劇場問合せ | 劇場問合せ | 劇場問合せ | 劇場問合せ | 劇場問合せ |
こんな感じで、上映時間が「劇場問合せ」になっている場合は、上映映画館『1』、上映回数『0』でレコードを起こしている。
ということで、【サイトの構成】と【データ作成上の仕様】が原因で、金曜日の上映回数が減少していたということだ。
まあ、仕様であり、エラーではねーから、俺は謝らねーぞ!!
今、ワードプレスで使っているグラフのプラグインで、バブルチャートを描画できなかったので、エクセルのグラフ画像を張り付けました。
もっといいプラグインがあれば、良いんですけどね。
というか、ブログに埋め込めるBIツールがあればいいんだけどな。。。
もし、何か良いものあれば、情報いただけるとありがたいです。
だから、【お茶太郎@データソムリエ(自称)】が必要なんだぞ!!
で、最後にバブルチャートの元データ、テーブルにするとこんな感じです。
上映回数 | 公開初日 | 2日目 | 3日目 | 4日目 | 5日目 | 6日目 | 7日目 | 8日目 | 9日目 |
23回 | 1 | ||||||||
22回 | 1 | 1 | |||||||
21回 | 1 | 1 | |||||||
19回 | 1 | ||||||||
18回 | 2 | 2 | 2 | 1 | 1 | 1 | |||
17回 | 1 | 1 | |||||||
16回 | 1 | 3 | 2 | 1 | 2 | 2 | |||
15回 | 3 | 3 | 3 | 2 | 2 | 3 | 3 | 1 | |
14回 | 2 | 2 | 1 | 1 | 2 | ||||
13回 | 4 | 5 | 3 | 5 | 5 | 5 | 5 | 5 | 3 |
12回 | 4 | 8 | 9 | 7 | 7 | 7 | 7 | 3 | 4 |
11回 | 15 | 16 | 16 | 14 | 14 | 14 | 14 | 4 | 5 |
10回 | 16 | 18 | 18 | 21 | 21 | 21 | 19 | 9 | 13 |
9回 | 9 | 7 | 9 | 8 | 8 | 8 | 10 | 11 | 10 |
8回 | 8 | 8 | 10 | 10 | 10 | 10 | 10 | 22 | 23 |
7回 | 28 | 31 | 31 | 8 | 30 | 30 | 30 | 27 | 32 |
6回 | 6 | 12 | 12 | 35 | 13 | 12 | 12 | 12 | 18 |
5回 | 1 | 3 | 3 | 3 | 3 | 3 | 3 | 2 | 4 |
4回 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | |
1回 | 1 | ||||||||
0回 | 12 | 1 | 1 | 1 | 1 | 2 | 2 | 17 |
めんどくせーから、日本全国対関東エリアの映画館数比較とかしねーぞ。
いつか、しなくちゃならない時がきたらやる!!
あと、「シネマ○○」とか映画館の系列で分析もしてみたら面白いかもな。
今回やりかけたけど、有意差がないようなので公開しなかったけどな。
まあ、データこねくり回すのは本当に面白いな。
まとめ
ということで、まとめ。
- 金曜日に上映回数が減少する理由は、『劇場問合せ』と記載されるサイトの構成とそれを『上映館数:1』『上映回数:0』としてレコードを作成するデータ仕様によるもの。
- データには、仕様・癖・特徴があり、それを理解して活用しないと、前処理のやり直しなど多発する。
データに詳しい専門家、「データソムリエ」の必要性が問われている!!
最後に
本日は、ここまで。
お付き合いいただき、ありがとうございました。
次回は、「天気の子 vs アラジン」をYoutubeのプロモーションをデータから見ていきたいと思います。
それでは、また。。。ノシ~~~~~