Pythonでデータサイエンスの学習流れ
データサイエンスというものは非常に専門性の高い分野ですので技術的にはかなり難しいかなと思っています。データ分析においては基礎分析のところ重要ですし、プログラミングを行いながらやればなんとなく理解は深めるかなと思います。またそれによってデータの可視化方法の具体性、最後にモデリングという予測するアルゴリズムを組んでいきます。基本初心者向けですので具体的には統計学4級と3級程度の内容でpython言語を使用して学習しましょう。
また分析する環境はPython,jupyter,matplotlibこれらによってデータのサイズ、統計量、ヒストグラム、欠損値、相関を見ていきます。その後予測として回帰分類、目的説明変数、過学習の順にプログラミンをやっていきます。これらを使用し回帰分析、重回帰分析、ダミー変数、クロスバリデーションなどを少しずつやっていきます。
基礎分析と可視化
データを読み込ん(データは分析したいものを用意)でからjupyter起動後Python3を開き、セルを選択、そうすることで事前準備としてインポすべきものはpandasとnumpyとmatplotlibというライブラリを最初に取り込むためのコマンドとして以下のプログラミングを実行する必要があります。
import pandas as pd
import dumpy as np
from matplotlib import pyplot as plt
%matplotlib inline
データを読み込む作業として事前に準備したcsvファイルをを読み込むプログラミングとしては以下の一行で可能です。
ex = pd.read.csv("ex.csv")
上記を実行することによってデータを読み込むプログラムが書き終わってex.csvのファイルをexという箱の中に入れたという命令になっています。この状態では目には見えないのでそれを実際みで見えるようにするにはまた以下のプログラミングを実施します。
ex.head()
これでデータの中身を関数コード実行することによって目で見て確認できます。先頭行が見える関数はこのコードになります。そして最終行が見たい場合は以下のコードを入れる必要があります。
ex.taill()
基本統計量の確認
基本統計量は数量を見ることができるデータ分析では相当重要になりますが、それらは英語以外は対応しきれてないところは現状です。ですのでdescrible関数を使用し基本統計量で見ます。このコードでは一瞬で情報を簡単に可視化し数千万のデータも早速可視化可能です。
ex.describle()
プログラムにおいてそれぞれのデータ一つ一つには型があり、このかたを確認するにはinfo関数を使用します。以下を使用することによって注目すべきところを抽出してくれます。
ex.info()
折れ線グラフ
可視化も重要ではありますが、何を基準にそれをやっていくのは結構な時間もかかります。ですが単純なグラフなどで可視化も一瞬で作れますので応用すればかなり成果も出てきます。
ex["y"].plot()
上記ぐらいで簡単なことはできるので是非試してみてください。