データサイエンスとは?活用例と課題を紹介

2019.08.01

「データサイエンスってなんだろう」「データサイエンスの具体例を教えてほしい」本記事はこのようなお悩みを持った方が対象となります。

データサイエンスという言葉は最近よく聞くようになりましたが、意味をしっかりと把握している人は少ないと思われます。そこで本記事では初心者でもわかるよう、データサイエンスという言葉を1からご説明します。

本記事を読めばデータサイエンスの基礎がわかるようになるでしょう。また、データサイエンティストになるのに必要なことについてもまとめましたので、将来データサイエンティストになりたい方は参考にしてください。

データサイエンスとは?

まずはデータサイエンスの意味についてご説明します。

データサイエンスが誕生した背景、どのような場面で使われているか、についてもまとめました。一緒にデータサイエンスの世界へ踏み出していきましょう。

データサイエンスの意味

意味

データサイエンスとは、データを分析し有益な結論を導き出す研究のことをいいます。主に数学や統計学、コンピュータ科学を使って分析するのが中心です。

企業ではデータサイエンスを事業戦略やマーケティングに利用しており、売上を伸ばすのに一役買っていることもあります

データサイエンスという言葉自体は昔からありましたが、1960年にピーター・ナウアが自分のウェブサイトで説明したことで知名度を上げました。

データサイエンスが誕生した背景

インターネット

データサイエンスはなぜここまで注目されるようになったのか。その大きな理由としてインターネットの普及率の上昇があります。

クラウド環境の充実やネットサービスの進化、及びFacebookやTwitterなどのソーシャルネットワークの流行により、ネット上に膨大な量のデータが蓄積されるようになりました。これらのウェブやソーシャルネットワークに関連した膨大な情報は、ビッグデータと呼ばれています。

ビッグデータには、ユーザーの求めているものや行動のヒントになるものが数多く眠っています。企業でビッグデータを有効活用すれば、業務の効率化、コスト削減、リスクヘッジなどが可能になる、そう考える人が多く現れました。

こうしてデータサイエンスは、注目を集めることとなったのです。

企業の統計担当者はそれまで、データ処理のみに取り掛かっていました。データサイエンスの流行により、データを分析して扱えるようになる人材へ成長せざるを得なくなりました。

それにともない、大学ではデータサイエンスの基礎となる学問が学べる講義が増えていきました。データサイエンスはこうして更に普及が進んでいったのです。

データサイエンスが使われているシーン

航空会社

データサイエンスは企業で事業戦略やマーケティングに活用がされています。データサイエンスが使われている具体的なシーンをいくつか紹介します。

東京ゲートブリッジ

東京ゲートブリッジでは、橋を通過する車両の重量を算出しデータサイエンスによって分析しました。橋への負担や事故のもととなる車両の走行を防げるような対策を打ち出すために、ビッグデータを利用しています。

全日本空輸(ANA)

航空会社であるANAは、旅客や荷物の搭載予定情報をデータサイエンスによってリアルタイムで算出しました。こうして、機内への搭載物の廃止を瞬時に割り当てることが可能になり、運航の安全性と燃費効率の改善につながりました。

楽天

また大手ECサイトである楽天では、顧客の商品購入閲覧履歴を収集し、顧客一人一人の特性を分析しました。

そして特性に合った広告を掲載することで、広告のクリック率及び購買率を向上させました。これはいわゆるレコメンドと呼ばれるもので、よく「あなたへのおすすめ」という項目でサイトに表示されます。

データサイエンティストとは

続いて、データサイエティストとはどういった仕事なのか、について解説します。データサイエンティストとは、高度なデータサイエンス技術を使って、企業の課題を解決する専門職のことです。

以下では、データサイエティストに求められる技術や、具体的な仕事内容について説明します。

求められるスキルって何?

データ分析のイメージ

データサイエンティストに求められるスキルは、大きくわけて以下の5つです。

  • ビジネススキル
  • 論理的思考力
  • コミュニケーションスキル
  • ITスキル
  • 統計解析スキル

ビジネススキル

ビジネススキルは、データ分析以前の段階で必要になってくるものです。

データサイエンティストは、企業のビジネス内容に即してデータを分析する必要があります。そのため、分析対象となるビジネスについて、深く理解することが肝心になってきます。

ビジネス内容によって分析すべき観点は変わります。どこを分析したら良いか把握するためには、そのビジネスが現在何を求めているかを知ることが重要です。

論理的思考力

論理的思考力も、データサイエンティストには欠かせないスキルの1つです。

論理的思考力とは、ものごとを道筋立てて順番に考えていく力のことです。集計したデータをみて、「なぜこのような結果になっているのか」を仮説することは、論理的思考力がないとできません

集計データと仮説が噛み合っておらず、せっかくの分析が無駄に終わるのはよくある話です。

コミュニケーションスキル

データサイエンティストは、コミュニケーションスキルも重要になってきます。

コミュニケーションスキルといっても、営業職のように相手を引き込むような話術は必要ありません。データサイエンティストに必要なのは、導き出した結論をレポートやプレゼンでわかりやすく伝える能力です。

ITスキル

ITスキルもできるだけ幅広く持っていた方が役に立ちます。

データサイエンスでは、収集したデータをデータベースに格納することが多いので、MySQLなどのデータベースを扱えるスキルが必要になります。また、データの収集や分析ツールへのデータ挿入などを効率化させるために、簡単なプログラムを書かないといけない場合があります。

具体的にはRubyやPythonといったスクリプト系の言語の知識が必要になります。

統計解析スキル

最後に、最も重要になってくるのが統計解析スキルです。統計処理手法やデータマイニング手法に関する深い知識が必要になります。

また、統計学の基礎となる数学分野の知識も身に付けておくべきでしょう。

具体的には、線形代数や微分積分、確率・統計などです。更には、「R」や「SPSS」といったデータ分析ツールの活用も行える必要があります。

これらのスキルをすべて持っているのが、データサイエンティストとしては理想的でしょう。ただし実際の現場ではある程度役割分担がされており、どれか1つを磨いている人も多くいます。

具体的な職務

データサイエンティスト

データサイエンティストの仕事内容は、大きくわけて3種類あります。

  • 分析するための環境構築
  • データ分析
  • 分析結果の発表

分析するための環境構築

まずは、データを分析するための環境を構築する必要があります。
システムのログやSNSといったソーシャルデータから収集するためのプログラムを作成します。更には、収集したデータを扱いやすいように整形するプログラムや、データをデータベースに格納するプログラムも必要です。

こういったものを作成するためには、ITスキルやプログラミングスキルが必須です。ただし環境構築に関してはデータサイエンティストではなくプログラマーが行ったり、専門会社に代行してもらうこともありえます。

データ分析

環境構築が終わったら、収集したデータを分析する作業を行います。「なぜこのデータはこうなっているのか」を論理的思考力を使って考え、ビジネスにおいて役に立つ情報が導き出せないか考えます

また、統計学を使って、データを分析した結果と実際のデータに矛盾が生じていないかも確かめていきます。

分析結果の発表

データの分析が終わったら、分析結果をレポートやプレゼンで発表します。分析した結果何が得られたのかを、統計学を知らない人にもわかりやすく説明する力が求められます

レポート内容などは、今後企業がどう運営していくかの指標になるので、的確に書く必要があります。

データサイエンティストの将来性、今後の活躍

将来

データサイエンティストは将来安定というわけでもなく、仕事内容に関しては今後変化があると推測されます。

理由としては、人工知能の台頭が挙げられます。

現在人工知能は「将来人間の様々な仕事を奪うのでは?」と言われており、データサイエンティストの仕事も一部行うようになる可能性があります。人工知能は膨大なデータを蓄積し、それらを分析して未来を予測することを得意としています。

もし人工知能の分析能力が、データサイエンティストのそれを大きく上回り、かつ信ぴょう性があると捉えられてしまうと、一気に仕事が奪われてしまうでしょう。

元々データサイエンティストという仕事は、外部の人からは業務内容が理解しにくい傾向があります。どんな仕事をしているのか把握されず、適正に評価されないこともあるのです。そんな状況で人工知能が台頭してくるとなると、データサイエンティストの立場はいよいよ危うくなってくるかもしれません。

現在データサイエンティストは日本に25万人程度いると言われています。データサイエンティストという仕事そのものがなくなることはないにしても、データサイエンティストの人数は減っていくとは推測されます。

それでは今後、データサイエンティストとして生き残るためには、どうすれば良いのか。

1つ考えられるのが、人工知能が苦手とする、クリエイティブな部分で活躍するということです。

人工知能は過去のデータを分析して法則を見出すのは得意ですが、法則から解決策を導いたりや新しい発見をすることはできません。なので、データサイエンティストは、こういったクリエイティブな分野で力を発揮できる可能性があります。

人工知能とうまく共存し、人間が得意とする作業を行っていくことが、これからのデータサイエンティストには求められています。

もう1つとして、データサイエンティストは人工知能を開発する側に回る、というものあります。データを効率的に分析するための人工知能を開発し、業務の効率化につなげていく役割を果たします。開発に携わるときは、データサイエンティストとして培った統計学などの知識を発揮できるでしょう。

人工知能は数多くの企業で導入が検討されていますので、人工知能を開発する仕事がなくなることはありません。ただしこの場合、データサイエンティストというよりも人工知能エンジニアに近くなってはしまいます。

非構造化データとデータサイエンティスト

最後に、データサイエンスの少し応用的なことについてお話します。

今後データサイエンスでは「非構造化データ」を扱うことが課題となっています。非構造化データとは何か、非構造化データはどのようにして扱えるようにするのか、それについて解説します。

非構造化データとは?

CSVファイル

構造化データとは、CSVファイルやExcelファイルのように、データ分析で使えるようにされたデータのことです。

構造化データには「列」と「行」の概念が存在し、データがどこにあるのかが明確なため、分析が簡単です。また、データは全て数字で表されているため、演算や比較が容易に行えます。

対して非構造化データとは、電子メールや検索履歴、SNSのデータといった媒体を通じて発信される文字情報及び、音声や画像などです。

このうち特に音声や画像は、データサイエンスで扱うことが非常に困難であるとされてきました。そのため非構造化データはこれまで、十分に活用できていない状況だったのです。

非構造化データとデータサイエンス

使えないデータ

非構造化データは、そのままの状態ではデータサイエンスで扱うことはできません

データサイエンスで扱うには、データを数字で表し、統一的な列と行で整理する必要があります。しかし非構造化データは整理するのが非常に難しく、高度なアルゴリズムを考えることが要求されます。また、非構造化データには様々な種類が存在するため、それら全てを変換するのには膨大なリソースが費やされます

今後、どうやって非構造化データを扱うのかが課題となるでしょう。数字データではないものも含めた非構造化データを分析することができれば、より精密な分析結果が得られます。

紙や写真のデータも分析対象に

写真

更に、非構造化データの中でも、写真のデータも分析対象となることが求められてくるでしょう。紙や写真といったデータは非構造化データの中でも、従来全く分析対象とはならないものでした。

しかし今後は、こうした情報も扱うことがデータサイエンティストに求められるでしょう。
こういったアナログなデータを分析対象とするためにはまず、コンピュータが読み取れるようにテキストデータに変換する必要があります

そのままテキスト化

そのままテキスト化のイメージ

私たちが運営するそのままテキスト化では、紙や写真などのアナログデータからでも、最大99.99%の高精度なテキストデータを作成可能です。

高度なOCR処理とテキスト化のノウハウを持っており、写真や手書きの文字を正確にテキスト化することができます。テキスト化したデータに対して担当者が校正作業を行っていき、より高精度なテキストへと仕上げていきます。

更にそのままテキスト化では、テキストを他の形式に変換することまで行います。例えば写真に映っている表をExcel形式に変換することができれば、構造化データとして扱えるようになるでしょう。

実際に、ビッグデータ用のテキスト化の依頼も受けたことがあります。日本放送協会(NHK)様より、インパール作戦特集番組の制作に当たって、作戦の戦没者をビッグデータ化したいというご相談がありました

手書きの名簿に書かれていた戦没者の情報から必要な項目を定めて、データベース化することに成功。番組内ではデータベースを元に、時系列毎の戦没者マッピングを表示することができました

このようにデータ分析の対象にできないアナログデータも、テキスト化することで分析対象とすることができるのです。ご興味のある方はそのままテキスト化をご覧ください

まとめ

データ活用シーン

本記事では、「データサイエンスとは?」について解説させて頂きました。

データサイエンスは現在、インターネットの普及と共に注目を集めてきました。ソーシャルネットワークなどに蓄積された膨大なデータを分析し、企業戦略やマーケティングに活用することは今後も重要でしょう。

今後データサイエンスは、人工知能を使ったより精度が高くスピーディーなデータ分析が求められてきます。データサイエンティストがうまく人工知能を扱い、クリエイティブな分野で力を発揮できるようになれば、更なる発展が望まれるでしょう

問題は「非構造化データをどのように扱うか」、というところです。特に紙や写真などのアナログデータを、分析対象として扱えるかどうかが重要でしょう。膨大な数があるアナログデータ、ぜひデータサイエンスの恩恵を受けられる形へ変換してその可能性を活かしたいところですね。