요약: 웨이퍼 제조 과정에서 측정된 다양한 기계 데이터를 수집하고 이에 따라 양품과 불량품, 2개의 클래스 0과 1로 구분된 데이터가 제공된다. 양품이 불량품 데이터보다 더 많은 불균형 데이터이며, 굉장히 많은 features들을 포함한 데이터 이다.
많은 features들을 처리하고 불균형된 데이터 문제를 해결하자.
About Dataset
해당 데이터는 인도의 주요 웨이퍼(반도체) 제조업체 중 하나의 데이터셋이다.
수집된 데이터셋에서 feature는 보안으로 인해 이름이 익명으로 처리되었으며, 이를 이해하려면 깊은 도메인 지식이 필요하다. 그리고 이는 1558가지 features들이 존재한다.
본 캐글 해커톤에서 AUC를 평가지표로 사용하여 anomalies를 올바르게 분류하는 ML/DL 모델 생성을 추구한다.
Dataset Description:
- Train.csv - 1763 rows x 1559 columns - Test.csv - 756 rows x 1558 columns - Sample Submission.csv - Please check the Evaluation section for more details on how to generate a valid submission
Attribute Description:
Feature_1 ~ Feature_1558 : 제조 기계에서 수집된 다양한 속성을 나타냅니다.
Class - (0 or 1) : 양품과 불량품 클래스 라벨을 나타냅니다.
Skills :
High Dimensionality Data, Overfitting-vs-Underfitting