はじめに
<以下、前回ブログと同じ書き出しです>
データドリブンの仕事に10年近く携わってきた。
前職の環境上、対象とする顧客・業界はとてつもなく広かったのだが、データドリブンという狭い領域で仕事をしてきて、困ったことがあった。
それは、仕事を進める上でのルールが無かったことだ。
人の生活の表面的な部分では、法律のような明示的ルール、習慣・慣習という暗黙のルール。
世の中はルールというものがあるからこそ、他者とのやりとりがスムーズにできる(それでもトラブルも多いですが)。
では、データドリブンにおける仕事のルールはいかがでしょう?
そもそも、私の前職では新しい業務の立ち上げを一人でしていたため、ルールなど存在しませんでした。
一人でやっている分にはルールなどなくても困らないのですが、業務が増えてきたり、人の出入りが発生したり、複数のプロジェクトが同時進行したりとなったところ、混乱と共有の為の負荷増大が起こりました。
そんな状況下で、走りながら作っていったルール、これからデータを扱う中でこうしていこうと思うルールをここにまとめておく。
運用ルールで目指す目標は、アドホックな業務について「共有を簡単に」「作業のデグレードによるやり直しを回避」「数年後でも作業フロー確認が容易にできること(手順がそのままフローを示すことでマニュアル作成を極力無くす)」などです。
転職により環境が大きく変わりました。
前職の経験を忘れないための備忘録、およびこれから一緒にお仕事をすることとなるかもしれないパートナーへ向けてのルールブック、そしてお仕事をする上で運用にお困りの方の一助になれば幸いです。
ビックデータの取り扱いはしていなかったので、Windowsで取り扱える2G以下のファイル、エクセルの処理が対象となります。
また、素人が経験上考え、対応してきたルールです。
大きな開発などされる企業のルールには及ばないかもしれません。
もし、もっと良いルールがあれば、ご指導いただければ幸いです。
コメント欄にコメント頂けますでしょうか?
第二回は、エクセル上でのデータ加工編です。
エクセル上でのデータ加工ルール
サンプルとして、東京都のイベントカレンダーをエクセル上で加工していきます!!
内容を選択して、Excelに張り付け加工していきます。
テキストで貼り付けて作業開始!!
https://www.metro.tokyo.lg.jp/event/index_list.html
タブの流れ
作業は、必ずタブの左から右に向かって進めていく、
一番左側にスタートとなる元データ、一番右側は最終データとなる。
最終データは、それがわかるようにシートタブのカラーをオレンジにする。
元データの左に、スペーサとしてからのシート(タブ黒色)を入れることもある。
元データが複数ある時はスペーサを入れておくと後でわかりやすい。

ステップが多くなる場合は、処理の分類別に色分けしたり、作業ステップの見出しのタブ(中身のシートは空)を準備します。

Vlookupで情報を紐づける場合、マスタ的に使うテーブルは赤色!!
マスタ関連は変更することもあるため、目立つようにしています。

関数を入れたセルは、黄色にしています。
また、ヘッダに数式をコメントで入れています。
データ量が多くなると、値貼り付けしてしまうことがあります。
コメントに関数を入れておくと、やり直しが発生した時に、数式を書く手間が省けます。
空白セルなどあると、コピーがそこで終わることがある。
データ欠損につながるからな。
そういえば、今までマスタ付与ってステップの真ん中くらいでやっていたけど、修正あることを考えたらできるだけ後にやった方が効率的だぞ。
まあ、今回はあまり気にせずいつも通りにやっちまうけどな。
不要フィールドの削除
不要な行列、列を削除しています。

この時、必ず「行全体」「列全体」を選択して、削除すること。
対象となっていると思っているセルの範囲のみを選択して削除すると、見えていない部分に不要なデータがあった時、ごみデータとして残っちまうからな。
あと、列を削除する時は最終カラムまで選択してすべてを削除する。
上の例で言えば、「C列からXFD列まで」選択可能な列全てを選んで削除する。
可視化できない変な書式の設定なんかが残っちまうと、最終シートをCSV出力する時などに無駄なカンマが出来ちまうからな。
テーブル下の行も同じように、全ての行を選択して削除しておくと安心だぞ。
セル結合解除・日付空白補間
(サンプルデータにはありませんが)結合されているセルを解除し、空白になってしまう日付を補います。
日づけは、「yyyy/mm/dd」統一です。
CSV出力して、文字として認識されたとき、yyyy/m/dにするとソート順が狂うためです。
「2020/1/11」
「2020/1/2」
って、並ぶと混乱するだろ。
特にスラッシュいれないで日付作ったりすると、順番がぐちゃぐちゃになっちまうんだよ。
もろもろ掃除
数式が残らないように値貼り付けします。
続いて、不要な行、列を削除
完成
ヘッダの体裁を整えて完成。
最後の完成シートだとわかるように、タグの色はオレンジにします。
だから、最終がわかるように、オレンジに色付けしておくんだ。
おっさんな、データ作る時はめちゃくちゃ丁寧につくるからな。
基本的に一人でやる作業でも、二重チェックの機能が働くようにチェックというステップを残すんだぞ。
あとな、シート内でいろいろ修正している時は、図形張り付けて、コメントとして①、②、③と見出しを付けて手順を記載することもあるぞ。
一通りまとめたけどな、この手順綺麗に残そうと思って作業進めた時、どこかで差し替え・やり直しが発生するとその履歴再作成が結構大変なんだよな。
マニュアル作成をさぼれるが、手順やり直した時には負荷が大きくなる。
どちらを取るかだな。。。
最後に
さて、ここまで足早に、エクセルでのデータ加工手順を説明してきました。
Accessでも、お茶太郎流の作成ルールがあるのですが、これはルールに沿ってやっていても画面上汚くなるし、システム屋さんではないためきちんとしたAccessDBも作れないため、ブログ上では割愛します。
処理の順番の流れが分かるように、テーブル、クエリの名称はじめにシークエンスナンバー振っているだけですが。。。
これやると、じっくり読み解く時は便利なんですが、テーブル/クエリとソート順になるためぱっと見た時に汚いんですよね。
ですので、画面上での説明はいたしません。
前回ご説明したフォルダ・ファイルの運用ルール、および今回のエクセル加工ルールで運用してみてください。
定着すれば、アドホックのデータ加工に関してマニュアルを残さなくとも、作業の見直し・やり直しが簡単にできるようになると思います。
皆さまのデータドリブンの一助になれれば幸いです。
それでは、本日はこれにて。。。
それではまた、ノシ~~~~~