ラベル 嫌われるデータ の投稿を表示しています。 すべての投稿を表示
ラベル 嫌われるデータ の投稿を表示しています。 すべての投稿を表示

2016年2月12日金曜日

データ解析で嫌われるデータとは?

データ解析を依頼される方の多くは素人

データ解析の依頼主は、データ解析の素養がありません
依頼主さんは、データ解析の素養がありません
だから、データ解析をするデータ自体に頓着しません。とにかくパソコン・サーバーに保存されているデータを、データ解析の「データ」と呼びます。

しかし、そこらへんから取り出せるデータなど高が知れています。データとは、料理でいう材料です。

おいしい料理をシェフに依頼する時に、材料をそこらへんの食材で作ってもらうでしょうか?もしかしたら、それはゴミ(ジャンクデータ)かもしれません。

やり辛いテキストデータ

中でも、数値データではなく、テキストデータを扱うデータ解析は難しいです。

数値データなら、依頼主自体も、なんとなく解析のイメージが掴めますので、一緒にデータ解析のお話ができます。

しかし、商品説明だけのテキストを渡して、「何か利益に繋がる情報ない?」と頼まれても、「無理」と答えるしかありません。なぜなら、それは分析するデータではないからです。

もちろん、テキストマイニングというテキストを分析する手法は存在しますが、その手法は、テキストを形態素解析した前提の話になります。

これならニッコリのデータ形式とは?

では、データサイエンティストにとってうれしいデータとは何でしょうか?
簡単に言えば、先ほど申し上げた数値データです。続いてカテゴリーデータになります。
数値ではないデータを、分析しやすい数値データに変換した形が、カテゴリーデータです。

依頼主との協力で最高のパフォーマンスが出せます
依頼主との協力で最高のパフォーマンスが出せます

さらにニッコリな

data frame×CSV

データフレームとは、tableをイメージしてくればいいと思います。

しかもその形式が、Excelではなく、数値だけのcsv形式なら、さらに「GOOD!」となるわけです。Excelは、セルという装飾があります。結局ExcelのデータはExcel内で分析するしかありません。CSVなら、いろいろな統計解析ソフトに利用でき、解析の幅が広がります。