お茶太郎のデータドリブン運用ルール(O-DDR) ファイル編

はじめに

<以下、前回ブログと同じ書き出しです>

データドリブンの仕事に10年近く携わってきた。

前職の環境上、対象とする顧客・業界はとてつもなく広かったのだが、データドリブンという狭い領域で仕事をしてきて、困ったことがあった。
それは、仕事を進める上でのルールが無かったことだ。

人の生活の表面的な部分では、法律のような明示的ルール、習慣・慣習という暗黙のルール。
世の中はルールというものがあるからこそ、他者とのやりとりがスムーズにできる(それでもトラブルも多いですが)。

では、データドリブンにおける仕事のルールはいかがでしょう?
そもそも、私の前職では新しい業務の立ち上げを一人でしていたため、ルールなど存在しませんでした。
一人でやっている分にはルールなどなくても困らないのですが、業務が増えてきたり、人の出入りが発生したり、複数のプロジェクトが同時進行したりとなったところ、混乱と共有の為の負荷増大が起こりました。

そんな状況下で、走りながら作っていったルール、これからデータを扱う中でこうしていこうと思うルールをここにまとめておく。
運用ルールで目指す目標は、アドホックな業務について「共有を簡単に」「作業のデグレードによるやり直しを回避」「数年後でも作業フロー確認が容易にできること(手順がそのままフローを示すことでマニュアル作成を極力無くす)」などです。

転職により環境が大きく変わりました。
前職の経験を忘れないための備忘録、およびこれから一緒にお仕事をすることとなるかもしれないパートナーへ向けてのルールブック、そしてお仕事をする上で運用にお困りの方の一助になれば幸いです。

注意
ビックデータの取り扱いはしていなかったので、Windowsで取り扱える2G以下のファイル、エクセルの処理が対象となります。
また、素人が経験上考え、対応してきたルールです。
大きな開発などされる企業のルールには及ばないかもしれません。
もし、もっと良いルールがあれば、ご指導いただければ幸いです。
コメント欄にコメント頂けますでしょうか?

第二回は、エクセル上でのデータ加工編です。

エクセル上でのデータ加工ルール

サンプルとして、東京都のイベントカレンダーをエクセル上で加工していきます!!

https://www.metro.tokyo.lg.jp/event/index_list.html

タブの流れ

作業は、必ずタブの左から右に向かって進めていく、
一番左側にスタートとなる元データ、一番右側は最終データとなる。
最終データは、それがわかるようにシートタブのカラーをオレンジにする。

ステップが多くなる場合は、処理の分類別に色分けしたり、作業ステップの見出しのタブ(中身のシートは空)を準備します。

Vlookupで情報を紐づける場合、マスタ的に使うテーブルは赤色!!
マスタ関連は変更することもあるため、目立つようにしています。

お茶太郎
そういえば、今までマスタ付与ってステップの真ん中くらいでやっていたけど、修正あることを考えたらできるだけ後にやった方が効率的だぞ。
まあ、今回はあまり気にせずいつも通りにやっちまうけどな。

不要フィールドの削除

不要な行列、列を削除しています。

↓ ↓ ↓ ↓ ↓

お茶太郎
不要な行や列を削除するぞ。
この時、必ず「行全体」「列全体」を選択して、削除すること。
対象となっていると思っているセルの範囲のみを選択して削除すると、見えていない部分に不要なデータがあった時、ごみデータとして残っちまうからな。
あと、列を削除する時は最終カラムまで選択してすべてを削除する。
上の例で言えば、「C列からXFD列まで」選択可能な列全てを選んで削除する。
可視化できない変な書式の設定なんかが残っちまうと、最終シートをCSV出力する時などに無駄なカンマが出来ちまうからな。

テーブル下の行も同じように、全ての行を選択して削除しておくと安心だぞ。

セル結合解除・日付空白補間

とりあえず今回は、結合されているセルを解除し、空白になってしまう日付を補います。

日づけは、「yyyy/mm/dd」統一です。
CSV出力して、文字として認識されたとき、yyyy/m/dにするとソート順が狂うためです。

お茶太郎
ソートした時、「2020/1/2」「2020/1/11」の日付が、逆に並んじまうからな。
「2020/1/11」
「2020/1/2」
って、並ぶと混乱するだろ。
特にスラッシュいれないで日付作ったりすると、順番がぐちゃぐちゃになっちまうんだよ。

(曜日)マスタ作成

本来、曜日などマスタを作って追加はしませんが、シートの運用例としてマスタのシートを準備します。

マスタ用シートのタブは、赤。ここでデータの構成がちょっとだけ変わりますので、わかりやすくします。
赤のシートはマスタのテーブルなので、作業手順の他のシートとはテーブル構成も大きくかわります。

曜日情報付与

Vlookupで、値を付与します。
どこのカラムを追加したかわかるように、たいていはハッチングをしておきます。

もろもろ掃除

数式が残らないように値貼り付けします。

続いて、不要な行、列を削除

完成

ヘッダの体裁を整えて完成。
最後の完成シートだとわかるように、タグの色はオレンジにします。

お茶太郎
最後のシートが最終の完成版だと黙っていてもわかるかも知れんが、複雑なことをやった場合、この後にデータチェックのシートが増えることがあるんだよ。
だから、最終がわかるように、オレンジに色付けしておくんだ。
おっさんな、データ作る時はめちゃくちゃ丁寧につくるからな。
基本的に一人でやる作業でも、二重チェックの機能が働くようにチェックというステップを残すんだぞ。

あとな、シート内でいろいろ修正している時は、図形張り付けて、コメントとして①、②、③と見出しを付けて手順を記載することもあるぞ。

一通りまとめたけどな、この手順綺麗に残そうと思って作業進めた時、どこかで差し替え・やり直しが発生するとその履歴再作成が結構大変なんだよな。
マニュアル作成をさぼれるが、手順やり直した時には負荷が大きくなる。
どちらを取るかだな。。。

最後に

さて、ここまで足早に、エクセルでのデータ加工手順を説明してきました。

 

Accessでも、お茶太郎流の作成ルールがあるのですが、これはルールに沿ってやっていても画面上汚くなるし、システム屋さんではないためきちんとしたAccessDBも作れないため、ブログ上では割愛します。

補足
処理の順番の流れが分かるように、テーブル、クエリの名称はじめにシークエンスナンバー振っているだけですが。。。
これやると、じっくり読み解く時は便利なんですが、テーブル/クエリとソート順になるためぱっと見た時に汚いんですよね。
ですので、画面上での説明はいたしません。

前回ご説明したフォルダ・ファイルの運用ルール、および今回のエクセル加工ルールで運用してみてください。
定着すれば、アドホックのデータ加工に関してマニュアルを残さなくとも、作業の見直し・やり直しが簡単にできるようになると思います。

皆さまのデータドリブンの一助になれれば幸いです。

それでは、本日はこれにて。。。
次回は、TableauのViz作成編。
経験が少ないので、うまい運用考えられるか不安ですが、何かしら情報公開してみます。

それではまた、ノシ~~~~~

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です