Computer Science/데이터 사이언스 2

Data Mining Processing and Visualization

Data Mining ProcessingData Mining Processing은 9가지의 과정을 거친다.Define/understanding purpose여기서 키포인트는 프로젝트의 목적을 정의하고 이해하는 것이다. 또한 분석한 결과가 누구에게 어떤 영향을 받는지 식별해야 한다.Obtain data분석에 사용할 데이터셋을 확보해야 한다. 여기서 샘플데이터는 대표성을 띠어야한다. 그래서 나중에 다른 데이터에도 일반화할 수 있기 때문이다. Explore, clean, preprocess data데이터가 reasonable(합리적)이고 기대 범위내에 있는지 확인해야 한다. Reduce the data(필요시)각 변수가 무엇을 의미하는지 이해하고 불필요한 변수를 제거하거나 변환한다.Specify task첫번째..

Data Science Lifecycle and Core Ideas

빅데이터가 폭발적으로 증가하는 시대를 맞이하면서 데이터를 수집하는 것과 저장하는 기술의 급속한 발전으로 빅데이터라는 용어가 나오게 되었다.이렇게 많은 양의 데이터를 분석해서 actionable한 insights를 도출하는 것이 중요해졌다. 빅데이터의 4VsVolume(양) : 저장해야 하는 데이터의 방대한 양을 의미한다. ex) 2.5GBVelocity(속도) : 데이터 생성과 처리 속도가 빠르다. ex) 초당 99000건의 검색Variety(다양성) : 데이터의 형식이 다양하다. ex)이미지, 비디오, 오디오 등 Veracity(진실성) : 데이터의 품질과 신뢰성을 나타낸다. Motivating Challenges데이터 사이언스와 마이닝에서 마주하는 주요한 도전 과제들Scalability(확장성) : ..