본문 바로가기

Data Science

Data Science의 정의

Data Science의 정의

3. Data Science의 정의

Data Science는 Data, Tool, Theory로 구성된다.


Data는 Structured Data와 Unstructured Data로 구분된다.
Structured Data는 Data Set, Data Frame 등으로 불리며, 깔끔하게 정리되어 있는 data이다.

  • ex. Structured Data
Observation Income Expendture
1 1 1
... ... ...
100 100 100

Unstructured Data는 Data Mining, Text Mining 등을 통해 얻은 data이다. E-mart 판매 바코드 기록, 대통령 연설문 명사 수 등이 이에 속한다.
Tool은 Data를 활용하기 위한 도구로 계산기, SAS, R, Python 등을 의미한다. Tool은 발전(Develropment)의 산물이다.
Theory는 사물이나 현상의 이치를 논리적으로 일반화한 체계이다.

  • Data Analytics와 Knowleadge
    • Data Analysis와 Data Analytics의 차이
Data Analysis Data Analytics
Data Structured Structured + Unstructured
Tool 기존의 Tool
Theory 기존의 Theory 기존에 쓰지 못하던 이론 확장

→ Analysis와 Analytics의 결정적 차이는 결국 Data

기존의 연구는 Data Analysis였다. Data Analysis는 Theory를 이용해 Model을 만들고 이 Model에 Structured Data를 입력함으로써 data 속의 Pattern을 찾는 방식이다. Data Analysis에서는 Model이 정교할수록 정확도가 높아져 위험을 낮춘다. 따라서 Data Analysis에서는 정교한 Model을 만드는 것이 주요 목표이며 이러한 데이터 분석 방법을 Rule Based 방식이라 한다.
Data Analytics는 Structured Data와 함께 Unstructured Data를 활용한다. Unstructured Data를 활용하기 때문에 기존에 존재했지만 사용할 수 없었던 Theory를 사용할 수 있게 되어 사용가능한 Theory가 확장된다. 이렇듯 Data Analytics에서는 기존의 Data Analysis에서는 사용할 수 없었던 Unstructured Data와 Theory를 이용하여 새로운 Knowledge를 발견한다. 또한 Data Analytics에서는 많은, 다양한, 유연한 Data를 활용하여 Model을 발견하도록 유도한다. Data를 활용해 Model을 발견하는 데이터 분석 방법을 Data Based 방식이라 한다.

  • Knowledge 종류
    • 새로운 Tool을 활용한 Knowledge
      Internet(가상공간)이라는 새로운 Tool이 개발(Development)되었을 때 기존의 이론(ex. 서점)을 새로운 Tool(Internet)에 적용하여 새로운 Knowledge(ex. Amazon)을 만들어 낸다.
    • Unstructured Data를 활용한 Knowledge
      E-mart의 바코드(New Tool)를 통해 쌓인 매출기록(Unstructured data)를 분석함으로써 구매자가 기저귀와 맥주를 함께 사는 성향이 있다는 사실(Knowledge)을 발견한다. → KDD(Knowledge Discovery in Database)
  • Knowledge 발견
    • Data : 현대 사회는 대부분의 산업분야에서 전산화가 되어 Data가 많아졌으며, 공개되어 있다.
    • Tool : R, Python 등 Data를 분석할 수 있는 무료 프로그램이 많아 이러한 Tool에 접근하기 쉽다.
      → 결국 새로운 Knowledge를 발견하는데 가장 결정적인 차이는 Theory다.


'Data Science' 카테고리의 다른 글

데이터 분석과 선형대수  (0) 2018.07.07
노동패널 data 구성 전처리 방법 정리  (3) 2018.02.07
Data Science의 필요성  (0) 2017.11.13
확률과 베이즈 정리  (0) 2017.11.09
'코딩' 교육  (0) 2017.10.13