Post

데이터와 기계학습

데이터 산업

데이터 과학: 데이터 만들고 만들어진 데이터를 이용하는 일 -> 데이터 자체를 다룸

데이터 공학: 데이터를 다루는 도구를 만들고 데이터를 관리 -> 데이터 다루는 것을 도와준다.

데이터 시각화의 가장 중요한 툴 : 표

가로를 행(row) 세로를 열(column) -> 표를 데이터셋이라 하기도 함 행은 개체(instance), 관측치(observed value), 기록(record), 기록(record), 사례(example), 경우(case) 열은 특성(feature), 속성(attribute), 변수(variable), field 등으로 표현되기도 함.

독립변수 종속변수

변수 variable 표에서 변수는 열이다. 독립변수 : 원인 종속변수 : 결과

독립변수와 종속변수의 관계를 인과관계라고 한다. 인과관계<상관관계 상관관계가 더 큰 개념 특성을 파악하는 것이 중요하다.

기계학습은 지도, 비지도, 강화학습으로 이루어져 있다. 지도학습(supervised learning)은 분류(classification)과 회귀(regression) -> 정답이 있는 문제를 해결 -> 기존 정보 기반 비지도학습(unsupervised learning)은 군집화(clustering), 변환(transform), 연관(association)으로 이루어져 있다. -> 통찰력을 통해 새로운 의미나 관계를 밝힘 -> 대상의 특성 파악 강화학습(reinforcement learning) 과정을 계속 반복해 스스로 성장, 더 좋은 보상을 위해 수련 -> 행위의 상벌 기반

Neural Network 신경망

지도학습 과거 데이터 필요 데이터를 독립변수와 종속변수로 구분 학습을 통해 공식을 유도-> 이를 모델이라 함 회귀(regression) 예측하고 싶은 종속변수가 숫자일때 주로 사용. 분류(classification)

군집화(clustering) 비슷한것을 찾아서 그룹을 만드는것

This post is licensed under CC BY 4.0 by the author.