본문 바로가기

Data Science

데이터 분석과 선형대수 오늘부터 스터디가 시작됐다.Khan Academy의 linear algebra를 공부하는 스터디다.3달에 23만원을 지불한다.이 스터디를 주관하는 곳은 카이스트 나온 사람들이 만든 연구소로 연구소에서 용돈벌이 하는 듯 하다.이쪽 분야에는 참 카이스트 나온 사람들이 많은 것 같다.작년에도 학원을 다녔으나, 처참하게 실패한 이후 공부를 해야겠으나, 영어와 마찬가지로 난 여전히 하지 않는다.그래서 비싼 돈 내고 주말에 가는 스터디를 신청했으니 열심히 해봐야겠다. 사족인데 영어의 중요성이 점점 더 커지는 듯하다.과거에는 국내에서 쓴 논문이나, 책으로만 충분히 공부가 가능했으나, 대부분의 교육자료와 참고자료가 모두 영어다.과거에도 지금도 영어가 필수는 아니지만 영어를 할 줄 안다는 것의 유용성이 훨씬 높아진 것같.. 더보기
노동패널 data 구성 전처리 방법 정리 노동패널 data를 다운 받는다.가구자료와 개인자료를 merge하고 merge한 가구자료를 append한다.가구자료와 개인자료의 변수명을 바꾼다. 2차조사 가구자료의 경우 변수명이 h02XXXX의 앞 3글자가 h02로 시작한다.h는 가구자료라는 것을 의미하고 02는 조사차수를 의미한다.개인자료의 경우 변수명이 p02XXXX로 되어 있다.노동패널 data는 각 차수별로 파일이 따로 구성되어 있다. 분석을 위해서는 각 조사차수의 data를 하나의 파일로 합쳐야 하기 때문에 각 파일마다 전처리를 해줘야 한다. 1. 변수명을 통일해야 한다.h02XXXX의 경우 hXXXX로 바꿔준다 조사차수를 없애는 것이다.*변수앞에 조사년도 p19, h19에서 19를 삭제rename h09???? h???? 2. 패널분석을 하.. 더보기
Data Science의 정의 Data Science의 정의 3. Data Science의 정의¶Data Science는 Data, Tool, Theory로 구성된다. Data는 Structured Data와 Unstructured Data로 구분된다. Structured Data는 Data Set, Data Frame 등으로 불리며, 깔끔하게 정리되어 있는 data이다. ex. Structured Data Observation Income Expendture 1 1 1 ... ... ... 100 100 100 Unstructured Data는 Data Mining, Text Mining 등을 통해 얻은 data이다. E-mart 판매 바코드 기록, 대통령 연설문 명사 수 등이 이에 속한다. Tool은 Data를 활용하기 위한 도구.. 더보기