Data Mining Processing and Visualization

Computer Science/데이터 사이언스

Data Mining Processing and Visualization

seungwon9201 2024. 9. 24. 21:08

Data Mining Processing

Data Mining Processing은 9가지의 과정을 거친다.

Define/understanding purpose
- 여기서 키포인트는 프로젝트의 목적을 정의하고 이해하는 것이다. 또한 분석한 결과가 누구에게 어떤 영향을 받는지 식별해야 한다.
Obtain data
- 분석에 사용할 데이터셋을 확보해야 한다. 여기서 샘플데이터는 대표성을 띠어야한다. 그래서 나중에 다른 데이터에도 일반화할 수 있기 때문이다.
Explore, clean, preprocess data
- 데이터가 reasonable(합리적)이고 기대 범위내에 있는지 확인해야 한다.
Reduce the data(필요시)
- 각 변수가 무엇을 의미하는지 이해하고 불필요한 변수를 제거하거나 변환한다.
Specify task
- 첫번째 단계에서 정한 목적을 더 구체적인 방식으로 정의(classification, prediction, clustering)하고 목적과 일치하는지 확인
Choose the techniques
- regression, neural networks, hierarchical clustering 등 데이터 마이닝 기법을 선택하는 과정이다.
Iterate implementation and tuning
- 최적의 적합성을 찾기휘해서 반복적으로 구현과 튜닝을 하는 단계이다. 검증 데이터를 사용해서 피드백을 하는 단계
Access results - compare models
- 결과를 평가하는 단계이다. 평가 지표를 바탕으로 가장 우수한 모델을 선택하는 단계
deploy best model
- 모델을 배포하는 단계

Data Preparation

데이터를 준비하는 과정에서는 데이터가 reasonable한지 확인하기 위해 데이터 탐색, 데이터 정리, 데이터 전처리 작업을 한다.

여기서 데이터 관련된 이슈들이 발생한다.

Data types(Exploring) : 데이터의 속성은 서로 다른 타입일 수가 있다.
Data quality(Cleaning) : 데이터는 종종 이상치나 결측치 등울 포함하여 완벽하지 않을 수 있다.
Data Processing : raw 데이터를 분석에 적합한 데이터로 만들어야 한다.
Measures of similarity : 데이터 마이닝은 종종 데이터의 유사성을 측정해야 한다.

Data Types

데이터는 크게 두가지 타입으로 나눌수 있다.

Categorical(qualitative) attribute(범주형, 질적)
- Nominal variables(명목형 변수) : 순서나 등급이 없는 변수이다. ex) 남성, 여성
- Ordinal variables(서열형 변수) : 값들 사이에 순서나 등급이 있는 변수 ex) 낮음< 보통< 높음
- Binary variables(이진 변수) : 선택지가 두개뿐인 변수 ex) 합격, 불합격
Numerical(quantitative) attribute(숫자형, 양적)
- Discrete attribute : 유한하거나 셀 수 있는 값 ex) 1,2,3 ..
- Continuous attribute : 무한한 실수값, 일반적으로 float-point(부동 소수점)로 표시 ex) 1.23m

Most Common Types of Data Sets

Record data : data objects들의 집합체
Graph data : 데이터 간의 연결관계들을 보여주는 데이터
Sequential data : 시간적, 공간적인 순서대로 정렬되어 있는 데이터

General Characteristics od Data Sets

Dimensionality(차원) : 데이터셋에서 attributes의 수를 나타낸다. 차원이 높아지면 차원의 저주가 발생할 수 있다. 차원이 높을수록 데이터가 sparse(희소)해진다. 그래서 데이터 간의 밀도가 낮아져서 충분한 데이터가 없다면 예측력이 떨어지는 차원의 저주에 걸릴수 있다. 이를 해결하기 위해서 차원축소를 진행한다.
Distribution(분포) : 데이터셋 내에서 데이터들이 어떻게 퍼져 있는지를 나타낸다.

Data Quality

데이터는 여러가지 요인들로 인해서 완벽하지 않다.

대표적인 data quality 문제들

결측치(Missing data) : 데이터 값이 누락된것
잘못되거나 중복된 데이터
불일치 : 사람의 키가 9미터이거나 몸무게가 0.1키로그램인것들

그러므로 data quality 이슈들의 다양성에 대해서 알고 있는 것은 중요하다.

Noise and Artifacts

Noise : 측정한 오류의 랜덤적인 요소, 노이즈를 완벽하게 제거하는 것은 어렵기 때문에 우리는 robust한 알고리즘을 구축하는 것에 초점을 둬야한다. robust(강건성) : 학습데이터에 없더라도 원하는 대로 예측이 가능한것

Artifact : 결정적인 데이터의 왜곡을 의미 ex) 사진에 나타나는 줄무늬

Bias-Variance Tradeoff(편향과 분산의 tradeoff)

Bias(편향) : 모델이 학습데이터의 패턴을 얼만큼 학습했는지를 나타낸다

Precision(정밀도) : 측정값들이 서로 얼마나 가까이있는지를 나타낸다.

Accurancy(정확도) : 측정값이 실제 값에 얼마나 가까운지를 나타낸다.

Low Bias + Low Variance = 정확하고 정밀한 상태

Low Bias + High Variance = 과적합 상태(학습 데이터는 잘 맞지만 실제 데이터에는 떨어짐)

High Bias + Low Variance = 과소적합 상태(데이터는 모여 있지만, 실제 데이터와는 멀리 떨어짐)

High Bias + High Variance = 가장 성능이 떨어짐(편향과 분산이 모두 높아서 뷸규칙함)

'Computer Science > 데이터 사이언스' 카테고리의 다른 글

Data Science Lifecycle and Core Ideas (0)	2024.09.12

현재글Data Mining Processing and Visualization

yyyyss

Security & CS

dovecot, 데이터베이스 보안, 후킹, bandit16, bandit21, 메일 서버, XSS, metasploit, sqlmap, bandit31, 방화벽, reverse shell, bandit26, 프리다, Directory Listing, sql injection, bandit11, 정적 분석, 파일 공유 서버, MariaDB,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

yyyyss