Data Mining Processing
Data Mining Processing은 9가지의 과정을 거친다.
- Define/understanding purpose
- 여기서 키포인트는 프로젝트의 목적을 정의하고 이해하는 것이다. 또한 분석한 결과가 누구에게 어떤 영향을 받는지 식별해야 한다.
- Obtain data
- 분석에 사용할 데이터셋을 확보해야 한다. 여기서 샘플데이터는 대표성을 띠어야한다. 그래서 나중에 다른 데이터에도 일반화할 수 있기 때문이다.
- Explore, clean, preprocess data
- 데이터가 reasonable(합리적)이고 기대 범위내에 있는지 확인해야 한다.
- Reduce the data(필요시)
- 각 변수가 무엇을 의미하는지 이해하고 불필요한 변수를 제거하거나 변환한다.
- Specify task
- 첫번째 단계에서 정한 목적을 더 구체적인 방식으로 정의(classification, prediction, clustering)하고 목적과 일치하는지 확인
- Choose the techniques
- regression, neural networks, hierarchical clustering 등 데이터 마이닝 기법을 선택하는 과정이다.
- Iterate implementation and tuning
- 최적의 적합성을 찾기휘해서 반복적으로 구현과 튜닝을 하는 단계이다. 검증 데이터를 사용해서 피드백을 하는 단계
- Access results - compare models
- 결과를 평가하는 단계이다. 평가 지표를 바탕으로 가장 우수한 모델을 선택하는 단계
- deploy best model
- 모델을 배포하는 단계
Data Preparation
데이터를 준비하는 과정에서는 데이터가 reasonable한지 확인하기 위해 데이터 탐색, 데이터 정리, 데이터 전처리 작업을 한다.
여기서 데이터 관련된 이슈들이 발생한다.
- Data types(Exploring) : 데이터의 속성은 서로 다른 타입일 수가 있다.
- Data quality(Cleaning) : 데이터는 종종 이상치나 결측치 등울 포함하여 완벽하지 않을 수 있다.
- Data Processing : raw 데이터를 분석에 적합한 데이터로 만들어야 한다.
- Measures of similarity : 데이터 마이닝은 종종 데이터의 유사성을 측정해야 한다.
Data Types
데이터는 크게 두가지 타입으로 나눌수 있다.
- Categorical(qualitative) attribute(범주형, 질적)
- Nominal variables(명목형 변수) : 순서나 등급이 없는 변수이다. ex) 남성, 여성
- Ordinal variables(서열형 변수) : 값들 사이에 순서나 등급이 있는 변수 ex) 낮음< 보통< 높음
- Binary variables(이진 변수) : 선택지가 두개뿐인 변수 ex) 합격, 불합격
- Numerical(quantitative) attribute(숫자형, 양적)
- Discrete attribute : 유한하거나 셀 수 있는 값 ex) 1,2,3 ..
- Continuous attribute : 무한한 실수값, 일반적으로 float-point(부동 소수점)로 표시 ex) 1.23m
Most Common Types of Data Sets
- Record data : data objects들의 집합체
- Graph data : 데이터 간의 연결관계들을 보여주는 데이터
- Sequential data : 시간적, 공간적인 순서대로 정렬되어 있는 데이터
General Characteristics od Data Sets
- Dimensionality(차원) : 데이터셋에서 attributes의 수를 나타낸다. 차원이 높아지면 차원의 저주가 발생할 수 있다. 차원이 높을수록 데이터가 sparse(희소)해진다. 그래서 데이터 간의 밀도가 낮아져서 충분한 데이터가 없다면 예측력이 떨어지는 차원의 저주에 걸릴수 있다. 이를 해결하기 위해서 차원축소를 진행한다.
- Distribution(분포) : 데이터셋 내에서 데이터들이 어떻게 퍼져 있는지를 나타낸다.
Data Quality
데이터는 여러가지 요인들로 인해서 완벽하지 않다.
대표적인 data quality 문제들
- 결측치(Missing data) : 데이터 값이 누락된것
- 잘못되거나 중복된 데이터
- 불일치 : 사람의 키가 9미터이거나 몸무게가 0.1키로그램인것들
그러므로 data quality 이슈들의 다양성에 대해서 알고 있는 것은 중요하다.
Noise and Artifacts
Noise : 측정한 오류의 랜덤적인 요소, 노이즈를 완벽하게 제거하는 것은 어렵기 때문에 우리는 robust한 알고리즘을 구축하는 것에 초점을 둬야한다. robust(강건성) : 학습데이터에 없더라도 원하는 대로 예측이 가능한것
Artifact : 결정적인 데이터의 왜곡을 의미 ex) 사진에 나타나는 줄무늬
Bias-Variance Tradeoff(편향과 분산의 tradeoff)
Bias(편향) : 모델이 학습데이터의 패턴을 얼만큼 학습했는지를 나타낸다
Precision(정밀도) : 측정값들이 서로 얼마나 가까이있는지를 나타낸다.
Accurancy(정확도) : 측정값이 실제 값에 얼마나 가까운지를 나타낸다.
Low Bias + Low Variance = 정확하고 정밀한 상태
Low Bias + High Variance = 과적합 상태(학습 데이터는 잘 맞지만 실제 데이터에는 떨어짐)
High Bias + Low Variance = 과소적합 상태(데이터는 모여 있지만, 실제 데이터와는 멀리 떨어짐)
High Bias + High Variance = 가장 성능이 떨어짐(편향과 분산이 모두 높아서 뷸규칙함)
'Computer Science > 데이터 사이언스' 카테고리의 다른 글
Data Science Lifecycle and Core Ideas (0) | 2024.09.12 |
---|