データのマイニングで何が分かるのか?
データマイニングという概念自体は割と古く、ビッグデータというバズワードがもてはやされる以前から使われていた言葉だ。
ここで言うマイニング(採掘)は、仮想通貨のマイニングのように、計算結果としてのデータそのものを作り出すという意味では無く、膨大な『データの山』から『有用な情報』を掘り出す、という意味である。
別に珍しいことでも何でも無く、今では普通に行われていることでもある。
では、データをマイニングすることで何が分かるのか、と言うと、本来であればまったく関係ないであろうことを『炙り出す』ことができるという点に意味がある。
ちょっと物騒だが、以前に良く挙げられていた例え話で、こういう物がある。
仮に、ある地域にテロリストの集団が潜入してきたとする。
大都市なので住人は近隣の人に興味が無く、怪しい人を浮かび上がらせる要素が無いし、そもそも人口が多いので警察官が全戸を訪問して回るのは、マンパワー的にも難しい。仮に実行しても玄関口で追い返されれば終わりだ。
テロリストたちは用心して外出を控え、携帯電話も極力使っていないようで、電波状況や位置情報からは行動が掴めず、居場所を突き止めることができない。
さて、どうするか?
まずは、アジトの可能性がある場所をピックアップしなければならない。
そこで水道局に行って、過去の水道使用量のデータを集めるのだ。
普通、一人の人間、一つの住居の水道使用量は割と安定している。
もちろん季節による違いなどはあるが、それも統計的にならして計算すれば、その時期の過去の平均値は容易に算出できる。
飲料水はもちろん、水洗トイレや風呂など、「一人あたりの使用量」に左右される物は、すぐに変化が分かる訳だ。
ここで、住民票の上では一人しか住んでいないアパートに、5〜6人が住んでいてもおかしくないほどの水道使用があれば、それは明らかに異常値として検出できる。
ひょっとすると昔の私のような貧乏学生が、急遽、生活コスト削減のために団体生活を始めただけかもしれないが、それは周辺を調査すれば分かる。
水の使用量を分析するだけでも、警察官が訪問する先の候補を激減できるだろう。
それでダメなら、次のデータを集めて、さらに絞り込んでいけば良い。
それは電気やガスの使用パターンであったり、近隣のスーパーマーケットのPOSデータであったり、アジト周囲の自動販売機の売り上げだったり、コインパーキングの利用率だったりするかもしれない。
こうして、その一つ一つは特に役に立ちそうにもないようなデータの山から、見事に目的に沿った『情報』が採掘されるというわけだ。
読んでいる方の興味を引くために、ちょっと極端な例を挙げてしまったが、上記のような例え話は、様々なバリエーションで大勢の人が語っているので、聞いたこともあるかもしれない。
もちろん、一般社会でこれが適応される最大分野は犯罪捜査ではなく、ビジネス、つまり経済活動だろうが、趣旨というか目的は同じような物で、一見は無関係なデータの分析によって『見えない物が見えてくる』という話だ。
目に見えない消費活動の傾向を見えるようにする、それがデータマイニングの主要な目的であるが、あなた自身は、自分が今日買った物がどういうデータを「生み出したか」を意識することは絶対に無いだろうし、仮に意識しても探求は不可能だ。
それは、見えない仮想監視カメラ(消費活動限定)のような物にもなり得るかもしれない。
- - - - - - - - - - - - - - - - - - - - - - - -
< どんなデータでも膨大な量が蓄積されれば、そこから意味を取り出すことができる、というのが、データマイニングの基本的な姿勢である。>
< 念のために書いておくが、データマイニングの社会的な効用は計り知れないし、医療や自然科学の分野の発展においても、大きく貢献している。>
< ちなみにマイニングとはちょっと違う話だが、水道使用量のように人間にとっても分かりやすい物では無く、群衆の中でのほんのちょっとした体の動かし方や、並んでいる人々の中での目線の動かし方などで、「犯罪者の可能性がある人物」を見つけ出すという試みは、すでに一般化している。>
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます