JSP's Deep learning

[DACON] 1. 중고차 가격 예측 경진대회(rank : 53/390) 본문

AI Competition/DACON

[DACON] 1. 중고차 가격 예측 경진대회(rank : 53/390)

_JSP_ 2022. 6. 11. 00:34

https://dacon.io/competitions/official/235901/overview/description

 

중고차 가격 예측 경진대회 - DACON

좋아요는 1분 내에 한 번만 클릭 할 수 있습니다.

dacon.io

 

1. 주제 : 중고차 가격 예측

나이지리아 중고차의 차종, 주행거리, 생산연도, 엔진, 사용여부, 연료, 도색, 파는지역의 데이터를 가지고 그 가격을 예측하는 문제이다. 

 

나는 자동차에 대한 도메인 지식이 거의 전무했기 때문에 도메인 지식을 가진 사람에 비해 불리하다.

하지만 지금까지 배운 통계적 검증방법을 통해서 이를 극복하고자 했다.

 

2. 시도했던 데이터 분석

 

1) 단순 시각화를 통한 분석

 

 모든 데이터를 target과 비교하여 시각화하는 방법으로 대략적으로 파악하기는 용이하나 상세한 관계를 정의하기는 어려웠고 신뢰성이 떨어지는 분석방법이다.

 

2) 빈도수를 통한 분석

 데이터의 빈도수로 데이터의 형태를 분석할 수는 있었지만 마찬가지로 의미를 찾기에는 부족한 방법이다.

 

3) 모수적 방법(통계수치)를 이용한 분석

 통계적 지식만 있다면 가장 간단하면서 세부수치를 파악하여 가장 정확한 방법이다. 나는 최종제출로 이 방법을 선택하였다. 

 

3. 시도했던 모델

 

1) sklearn의 선형회귀 모델 

 

sklearn에서 제공하는 선형회귀 모델과 그리드서치, 앙상블 기법을 통하여 수작업의 모델을 생성했다. 하지만 더 많은 모델을 시도하지 못했기때문에 그만큼 시간이 들어갔고 성과도 별로였다.

 

2) 딥러닝 선형회귀

 

사실 공부할때도 느꼈지만 딥러닝에서의 선형회귀는 머신러닝보다 성능이 좋지 못하다. 그래서 혹시나 하는마음에 시도했지만 매우 좋지못한 성능을 보였다.

 

3) pycaret을 이용한 모델선정 자동화, 모델튜닝 자동화

 

pycaret은 대회에 참여하신 분이 코드공유를 통하여 알려준 방법이다. 

머신러닝의 모델선정을 자동화하며 튜닝도 자동으로 진행하여 매우 편리함과 동시에 강력한 성능을 보여준다.

이 방법을 알게된 뒤로는 모델선정에는 힘쓰지 않고 데이터 분석에 더 힘을 쓸 수 있었다.

 

4. 느낀점

 

나는 데이터 분석을 할 때, statsmodels 패키지에서 제공하는 ols 함수를 사용하였다. 

이 함수를 통해서 이상치를 자동으로 제거하고, 유의수준을 0.05, 0.1, 등으로 설정하여 유의미한 독립변수를 선정하여 학습에 이용하였다.  이 방법은 매우 유용했던것같고 앞으로도 자주 이용할 것 같다.

 

+ OneHotEncoder의 handle_unknown 옵션을 사용하면 범주형 변수를 원-핫 인코딩할 때, 컬럼을 일치시킬 수 있어 매우 편리한 방법이다.

 

내가 스스로 데이터를 분석하고 모델을 만들어보면서 선형회귀문제의 데이터 분석에 조금은 자신감이 생겼고 더 열심히 공부해서 입상을 목표로 진행해야겠다.

 

https://github.com/wjsrlahrlco1998/DACON-code

 

GitHub - wjsrlahrlco1998/DACON-code

Contribute to wjsrlahrlco1998/DACON-code development by creating an account on GitHub.

github.com

 

 

Comments