Coursera – Introduction to Data Science in Python #18 (3週目その5)

Coursera『Introduction to Data Science in Python – by University of Michigan』の学習メモ Goodhart’s Law 「Goodhart’s Law」とは、本来物事の良し悪しを測るためであった「指標」が具体的な「目標値」とされた時、それが指標として上手く機能しなくなってしまう、というセオリー。 例えば、Googleがいい検索結

Coursera – Introduction to Data Science in Python #17 (3週目その4)

Coursera『Introduction to Data Science in Python – by University of Michigan』の学習メモ Pivot Tables エクセルでもお馴染みのPivot Tablesのデータフレームでの使い方。 #http://open.canada.ca/data/en/dataset/98f1a129-f628-4ce4-b24d-6f16bf24dd64 df =

Coursera – Introduction to Data Science in Python #16 (3週目その3)

Coursera『Introduction to Data Science in Python – by University of Michigan』の学習メモ Scales データサイエンティストとして知っておくべき4つのスケール。 Ratio scale データ間の異なりが一定な尺度。例えば、身長や体重。 Interval scale データ間の異なりが一定な尺度であるが、測れないことがない。例えば、気温は0度であって

Coursera – Introduction to Data Science in Python #15 (3週目その2)

Coursera『Introduction to Data Science in Python – by University of Michigan』の学習メモ Pandas Idioms Pandasのお作法について学ぶ。高いパフォーマンスかつ読みやすいPandasコード(= Pandorableなコード)を目指す。 先週も使ったセンサスデータを用いる。 import pandas as pd df = pd.read_

Coursera – Introduction to Data Science in Python #14 (3週目その1)

Coursera『Introduction to Data Science in Python – by University of Michigan』の学習メモ Merging Dataframes 第3週目もpandasのDataFrameについて掘り下げる。ここらへんは前回の自己学習(復習)でも触れたものも多い。 使うデータは以下の通り。 import pandas as pd df = pd.DataFrame([{

Coursera – Introduction to Data Science in Python #13 (2週目その8)

Coursera『Introduction to Data Science in Python – by University of Michigan』の学習メモ Pandasの復習 第2週目のアサインメントを解いてみて、まだまだpandasの扱いに慣れてないと思ったので、基本的な操作を復習する。 numpyとpandasをインポート。 import numpy as np import pandas as pd CSVから

Coursera – Introduction to Data Science in Python #12 (2週目その7)

Coursera『Introduction to Data Science in Python – by University of Michigan』の学習メモ Assignment 2 – Pandas Introduction Part 1 引き継ぎWikipediaのオリンピックメダルのデータを使ったアサインメント。 import pandas as pd df = pd.read_csv(‘olympi

Coursera – Introduction to Data Science in Python #11 (2週目その6)

Coursera『Introduction to Data Science in Python – by University of Michigan』の学習メモ Hacked Datas 概要 ハッキングにより公開されたデータの利用可否についてのディスカッション。 利用しても良いのではという意見 データはすでに公開されている(新聞のようなもの) 公に良しとされる目的で利用する 必要なデータで、他に入手できる手段がない 利用

Coursera – Introduction to Data Science in Python #10 (2週目その5)

Coursera『Introduction to Data Science in Python – by University of Michigan』の学習メモ Indexing Dataframes indexは行のラベル。任意の項目を指定(前のオリンピックの例でれば「国名」)するか、そうでなければ、0から始まる値が連番で割り振られる。 set_index function を使ってもインデックスをセットすることができる

Coursera – Introduction to Data Science in Python #9 (2週目その4)

Coursera『Introduction to Data Science in Python – by University of Michigan』の学習メモ DataFrame Indexing and Loading 典型的なワークフローは、取り出したデータをpandas DataFrameに変換し、不要な行や列を削除すること。 前回の例からCost行だけを使ってみる。 costs = df[‘Cost’] cost