ビッグデータなどと言う言葉がニュースを飛び回るようになっていますが、内容についてはそれほど広くは理解されていないようです。
データを扱う「データサイエンス」という分野もそれが何であるかということはあまり考えられていません。
多くの人はデータサイエンスというと、AIや機械学習というものを連想してしまうようですが、著者はそれは少し違うと考えています。
ビッグデータなどを前提としてデータサイエンスというものを考えてしまうと、どうしても情報通信技術が主役でデータというものが脇役のようになってしまいます。
しかし、本書ではあくまでも「データが主役」という観点から、データサイエンスというものを伝えたいということです。
そのために、数学の予備知識があまり無くても理解できるようにしています。
データのタイプ、その収集方法といったところから解説しています。
また、「データの解析」ということが重要であるため、その解説を主とし、そこには数学的な数理展開は扱っていません。
データ解析の分類の手法、予測の手法といった点も章を設けて解説します。
なお、データをめぐる不祥事も起きていますので、データに関する倫理およびデータ改ざんの事例についても述べています。
ビッグデータと言うと「大きなデータ」という意味かと思いますが、それだけにとどまらず、「情報通信技術を通じて絶えず作成・収集・蓄積が可能な多種多様なデータ」ということになります。
したがって、通販サイトの販売データやPOSシステムのデータなどはこれに該当するわけです。
情報倫理には4つの原則があります。
1,知的所有権の尊重
2,プライバシーの尊重
3,公正なデータ提供
4,害意がないこと、危害を与えないこと
この詳細な事例も書かれていますが、これはデータを扱う人間であれば基本的なこととして記憶しておくべきことでしょう。
データサイエンスというものは、現代では誰もが知っておくべきことなのでしょう。
そのためには、分かりやすい説明であったと思います。