데이터와 기계학습
데이터 산업
데이터 과학: 데이터 만들고 만들어진 데이터를 이용하는 일 -> 데이터 자체를 다룸
데이터 공학: 데이터를 다루는 도구를 만들고 데이터를 관리 -> 데이터 다루는 것을 도와준다.
데이터 시각화의 가장 중요한 툴 : 표
가로를 행(row) 세로를 열(column) -> 표를 데이터셋이라 하기도 함 행은 개체(instance), 관측치(observed value), 기록(record), 기록(record), 사례(example), 경우(case) 열은 특성(feature), 속성(attribute), 변수(variable), field 등으로 표현되기도 함.
독립변수 종속변수
변수 variable 표에서 변수는 열이다. 독립변수 : 원인 종속변수 : 결과
독립변수와 종속변수의 관계를 인과관계라고 한다. 인과관계<상관관계 상관관계가 더 큰 개념 특성을 파악하는 것이 중요하다.
기계학습은 지도, 비지도, 강화학습으로 이루어져 있다. 지도학습(supervised learning)은 분류(classification)과 회귀(regression) -> 정답이 있는 문제를 해결 -> 기존 정보 기반 비지도학습(unsupervised learning)은 군집화(clustering), 변환(transform), 연관(association)으로 이루어져 있다. -> 통찰력을 통해 새로운 의미나 관계를 밝힘 -> 대상의 특성 파악 강화학습(reinforcement learning) 과정을 계속 반복해 스스로 성장, 더 좋은 보상을 위해 수련 -> 행위의 상벌 기반
Neural Network 신경망
지도학습 과거 데이터 필요 데이터를 독립변수와 종속변수로 구분 학습을 통해 공식을 유도-> 이를 모델이라 함 회귀(regression) 예측하고 싶은 종속변수가 숫자일때 주로 사용. 분류(classification)
군집화(clustering) 비슷한것을 찾아서 그룹을 만드는것