データサイエンスって結局なに?AI学習の観点から考えるデータサイエンス
  • データサイエンスでなにができるの?
  • AIとデータサイエンスの関係は何?
疑問に思う人

DXやAIのことを調べるとデータサイエンスという言葉をみることも多いと思います。

しかしながら、結局データサイエンスとAIの関係がわからずどちらを学習すればいいのかよくわからないということでお困りではないですか?

コツリン
俺も学習するまでは意味がわからなかったから気持ちはわかるぞ

この記事ではデータサイエンスとAIの関係を解説するほかAIやデータサイエンスを学習する際の方針などを記載しています。

この記事を読むことでデータサイエンスで
・データサイエンスとは何なのか
・AIとデータサイエンスのどっちを学習すればいいのか
・どんなことを実際にするのか

ということがわかるようになります!

ひとエちゃん
これからのAI学習やDX推進に活かしてね!

AIの学習をするかどうかで迷っている方へのアドバイス
そもそもAIの学習をするのはなぜですか?
もしかしたらAI以外のことを学習した方がいいかもしれないし、そもそも学習する必要性がないかもしれません。
また、AIの学習方法も色々ありそれぞれにメリットデメリットがあります
当サイトでは実際にAIのスクールで学んだ筆者がAIの学習理由や学習方法などを提示していますが、重要なことはAI学習までの正しい学習ステップを踏むことです。
このステップを踏まないでいると、勉強した方がいいかで迷ってしまい時間を無駄にしてしまったり間違えた学習方法でお金を浪費してしまうことになります。

コツリン
実際に俺も学習をするまでに悩んでしまって時間を浪費したり、余計な教材を買ってお金を無駄にしてしまったんだ・・・。

このSTEP自体は完全無料でできます。
みなさんはAI学習をするかどうかで迷ったり、お金を浪費することのないように当サイトのAI学習までの正しいSTEPを参考にAI学習をするかどうか決めてみてください。

データサイエンスの概要

データサイエンスとはデータを分析し分析結果から人間では気づかなかった価値を探り出す学問となります。

いわゆるビッグデータなどを分析することで人間では気づくことのできない分析をおこないます。

そのため、データサイエンティストはビジネスの観点で考えるとコンサルティング的な仕事を行う人たちということができるでしょう。

過去のデータ分析から意味を見出し、その意味をビジネスに展開することでビジネスの発展を行うことがデータサイエンスの主たる目的ということです。

コツリン
データサイエンスは過去のデータを未来に活かす学問ということだ

データサイエンスのメリット

データサイエンスのメリットとしては人間では気づくことのできない情報を提供してくれるということがあります。

具体的には次のことがメリットとして挙げられます。

  • 客観的な分析ができる
  • 人間で扱いきれない量のデータを扱える

客観的な分析ができる

人間には自分で気づかない思いこみ(=バイアス)や感情というものがあります。

こういったバイアスや感情はデータ分析においては解釈をゆがめてしまう原因にもなってしまいます。

ハロー効果をご存じでしょうか。
ハロー効果は全く関係のない異なるものの評価が影響し合うバイアスの一種です。
有名な例だと企業が宣伝で有名人を利用することで、「有名人が使うのならいい商品だ」と思わせる手法があります。

こういったバイアスを排除し、客観的な分析が行えるのもデータサイエンスの魅力です。

人間でできないデータの分析を行える

人間が扱えるデータ数というのは限りがあります。

こういった、人間では扱いきれないデータを収集し分析することができるのもデータサイエンスのメリットです。

コツリン
いわゆるビッグデータを扱えるのもデータサイエンスの特徴ということだ

データサイエンスは過去のデータを分析しますがその数は膨大で非常に複雑になります。

データの収集度合いにもよりますが、分析するデータは何万、何十万という途方もないような数になります。

また計算では、微分・積分はもちろん、指数対数など複雑な計算が行われます。

コツリン
しかも人間だと間違える可能性もあるからな

人間では不可能な計算を行い分析をしてくれるのがデータサイエンスになります。

データサイエンスの目的

データサイエンスの目的はデータを分析してビジネスに活かせる価値を見出すということになります。

ところが、このビジネスに生かすという部分で考え方が二つあると考えたほうがよいと言えます。

よくAIとデータサイエンスの違いがわからないという人を見かけますが、これは文脈によってその関係性が変わるからです。
▶︎関連記事:データサイエンスとAIの違いってどこ?様々な角度から考えるAIとデータサイエンスの違いと考えるべき基準

ここではデータサイエンスの目的達成のためには二つの基準があるということを見ておきましょう。

データを分析してビジネスに生かす

企業には様々なデータがあります。

これらのデータを統計学といった手法などで分析を行うことでデータ間の相関が見つけるなど、人間では気づくことのできなかった新しい知見を発見することができます。

この知見を実際にビジネスに活かし、新しいプロモーションを行うなどしてビジネスの発展に役立てる方法です。

コツリン
ものすごくざっくりした説明として、パソコンで統計学なんかの手法を使って分析し、人間が知見を見つけるというように考えてくれ

一般的にデータサイエンスを勉強する、企業にデータサイエンスを導入するという意味だとこのデータの分析手法を学ぶという意味合いが強くなります

分析した結果から予測や判断を行う

データの分析を行うことで、未知のデータに対してこれまでの分析結果と比べてどのようなデータなのかということを予測・判断することでもビジネスに生かすことができます。

データの分析結果をもとに未知のデータの予測・判断を行うことで、ビジネスをサポートするということになります。

この予測を行うための手法としてはデータサイエンスの中の機械学習で実装します。

ひとエちゃん
人間の代わりに予測してくれればビジネスが効率化されて支援されるということね

この機械学習は未知のデータに対して人間の代わりに予測・判断してくれるため、データサイエンスの機械学習をAIの領域で活用しているとも言えます。

そのため、AIを勉強するという意味では未知のデータを予測するための機械学習を勉強するという意味合いが強くなりますがデータサイエンスを勉強するという意味ではこの予測という部分の意味は弱くなります。

ただし、データサイエンティスト協会のスキルなどでは機械学習を一つのスキルとして考えているのでスキルとしてはデータサイエンスに所属していると考えることができます。

コツリン
最近のAIは機械学習が多いから、AIの勉強をしたらデータサイエンスの一部を勉強しているというように考えられるな

データサイエンティストに必要な能力

データサイエンティストには3つの能力が必要とされます。

日本のデータサイエンティスト協会ではデータサイエンティスト(データサイエンスを扱う人)に必要な能力として

  • データサイエンス力
  • データエンジニアリング力
  • ビジネス力

の三つを上げてます。

データサイエンス力
情報処理、人工知能、統計学などの情報科学系の知恵を理解し使う力

データエンジニア力
データサイエンスを意味のある形に使えるようにし実装・運用できるようにする力

ビジネス力
課題背景を理解した上でビジネス課題を整理し解決する力

データサイエンス力

データサイエンス力は次のように定義されています。

情報処理、人工知能、統計学などの情報科学系の知恵を理解し使う力

日本のデータサイエンティスト協会

つまり、過去のデータを実際にどのように分析するかという能力になります。

データの分析といっても分析手法はいろいろとあるので、目的に合わせてどのようにデータを分析するのか、分析結果がどうなるのかを理解しておく力とも言えます。

この中で人工知能という言葉が使われていますが、この意味は機械学習などで未知のデータに対して予想・判断するという意味合いが強いと考えられます。

データエンジニア力

データエンジニア力は次のように定義されています。

データサイエンスを意味のある形に使えるようにし実装・運用できるようにする力

日本のデータサイエンティスト協会

データ分析の概念を理解し実際にどうやって分析を行うのかという知識を保有し使いこなす能力ということになります。

データサイエンスでデータを分析しようとした場合膨大な量の計算が必要なため、データの分析ではパソコンのプログラミングを利用してパソコンに計算させることになります。

コツリン
ちなみによく使う言語はPythonとかRと呼ばれるものだ

いくら、データ分析の概念を理解していても同時にパソコンに計算させる手法を知っている必要があるということになります。

ビジネス力

ビジネス力は次のように定義されています。

課題背景を理解した上でビジネス課題を整理し解決する力

日本のデータサイエンティスト協会

データサイエンスによるデータ分析が行われたてもデータサイエンスは終わりません。

分析結果をビジネスで使えるようにするまでがデータサイエンスです。

分析結果からビジネスの課題を解決したり、売り上げを伸ばしたりするなどビジネスに生かす力ということになります。

データサイエンスで行うこと

データサイエンスでは主に次のことを行います。

  • データの収集
  • データのクレンジング・調整
  • データの分析

データの収集

データサイエンスは過去のデータを分析する学問ですので過去のデータを収集する必要があります。

この過去のデータを収集するといっても簡単に集まるものではありません。

例えば顧客の購買データを分析するために購買データを集めようとします。
購買データを集めるには普段から集めないといけないわけですが、どのように集めるのか、分析に最適な状態で集めるにはどのような形で集めるのかといったことを考えておく必要があります。

コツリン
コンビニなんかでは従業員が顧客の年代や性別を入力してるといったこともあるけどこれも収集方法の一つだ

実際のデータでは企業内で蓄積されたデータをもとに開発を行ったり、政府が公表しているデータなどをもとにデータを収集したりなど、その時の状況に合わせて収集を行います。

データのクレンジング・調整

データのクレンジングとはデータを分析するためにデータの形を整える作業のことを言います。

パソコンというのは数字の1でも半角と全角を区別して考えます。

分析しようとしているデータの形が整っていなかった場合、分析の精度が落ちる、そもそも分析できないということもあり得ます。

そのため、適切にデータを分析するための加工を行うことになります。

コツリン
データ分析のための準備というところだな

例えばエクセルで次のデータを処理しようとしたとします。

性別性別
田中 太郎32
山田花子38歳女性

この状態では次のようなことが問題として挙げられます。

  • 名前の入力が統一されていない
  • 読み仮名がないため名前順にソートができない
  • 年齢に歳が入っている場合と入っていない場合がある
  • 性別の入力方式が統一されていない

そのため
・名前入力を統一する
・よみがなを入れる
・年齢の列から"歳"を除去する
・性別の列から"性"を除去する
などの作業が必要になります。

こういったデータを整える作業をデータクレンジングといいます。

この例でいえば次のような形にデータを整えることが目指されます。

よみがな性別性別
田中太郎たなかたろう32
山田花子やまだはなこ38

実際のデータのクレンジングは情報量が多いのでプログラミングを通して実行することになります。

コツリン
もちろん、収集段階でうまく収集できていればこの工程はなくなるということだ

また、情報が数字である場合データごとに数字の分布の仕方が違うということがあります。

例えば満点が100点のテストと1,000点のテストで同じようにデータを分析しても良いでしょうか。
受験の時にも科目ごとに平均点が違うので調整を行うということもありますが、このようにデータ間のばらつきなどを揃えることでより精度を高めていきます。

他にもデータの分布の中から異常な値を外すなど、データの精度を上げるために事前にデータに対して手を加えるなどの作業が必要になります。

データの分析

データを分析する段階までこれたら、実際に統計的な学問などを駆使しデータを分析していきます。

データと言っても色々なデータがありますので、その中の相関関係などを確認するなどしてデータからビジネスに活かせる価値を模索していくことになります。

AIのプログラミングスクールにおける学習の観点から考えるデータサイエンスとAIの関係

データサイエンスを行うデータサイエンティストは、過去のデータに統計学などを利用し分析することでデータから何か情報を読み取ることができないかということを考えます。

データサイエンスは人が主体となって価値を見出すことでビジネスの発展に活かすことができないかなどを考えるという意味でデータサイエンティストはコンサルティング業に近いということが言えます。

そのため、AIのプログラミングスクールなどでデータサイエンスを学習するという観点で考えるとデータサイエンスの学習ではデータを分析し、そこからビジネスの課題などを解決できないかといったデータ分析によるコンサルティングのための知識を学習するという意味合いが強くなります。

コツリン
人が主体となって分析結果を利用するというような意味合いが大きいな

一方で、データサイエンスでは過去のデータをもとに予測をすることもできます。

そのため、AIにおける予測や判断の部分はデータサイエンスという学問の技術から利用しているということができます。

しかしながらこの予測を行うためのアルゴリズムを作るにしても過去のデータをどのように分析し、どのような予測結果を理想とするかも考える必要があります。

そのため本格的なデータサイエンスとは少し意味合いが違う部分もありますがデータサイエンスについては結果的に学ぶということになります。

とはいえ、スクールの方針などによっても学習内容が変わってきますので、自分が何をしたいのかということを明確にして事前に相談しておくことで受講後のミスマッチを減らすことができます。

コツリン
AIを勉強するかデータサイエンスを勉強するかということよりも自分が何で勉強したいかということを明確にしてスクールの人に相談してみよう

おすすめAIスクール

キカガク

アイデミー

データミックス