2023년 2학기 통계분석학회 P-SAT 딥러닝팀 주제분석
<예측 기상&발전량을 활용한 태양광 발전량 예측>☀️
POSTECH과 H energy가 함께 주최하는 태양광 발전량 예측 대회 - 대학 및 대학원생 대상 제5회 OIBC CHALLENGE
활용 데이터: 예측된 발전량, 예측대상 발전소 실제 발전량, 운량/기온/습도 등을 포함한 13개의 기상데이터, 예측된 발전량에 대한 인센티브(모델평가 점수)
데이터 출처: 주최 측
프로젝트 기간(duration): 23.10.22 ~ 23.11.17
- 이정환(팀장): 태양전지 도메인 조사, 파생변수(시간변환/계절변환), LGBM, LSTM, MLP+LGBM 앙상블,RNN+LGBM 앙상블,SCINet
- 김동환: 태양전지 도메인 조사, 시계열 클러스터링, 회귀+LGBM 앙상블,구조적시계열모형
- 권가민: 앙상블, XGB, 상관분석, x변수 클러스터링(오차율/계절), 오차율/발전량 패턴파악(시간별/계절별),
- 박채원: 앙상블,LGBM, 상관분석, 선형회귀계절, x변수 군집화(오차율/계절), 변수선택(계절)
- 박준영: 앙상블, 상관분석, 선형회귀시간/계절, 유사도예측, x변수 군집화(오차율/계절)
- 도메인 조사
- EDA (모델별 발전량 예측/시간대별 예측량의 분산,평균/계절 별 오차율/상관관계)
- 변수 선택/모델링 - 성능향상을 위해 다양한 방법 활용
- 예측 결과 시각화 및 분석/점수 계산
일반적으로 정오에 발전량이 최대치를 보이는 커브 형태를 띠지만, 특정한 날에는 그렇지 않을 때가 있음
💡 해결을 위한 노력들
- 단순 그러한 특수한 패턴을 띄는 날들을 클러스터링,변수선택법 등을 통해 분리하고자 하였음(시계열 클러스터링, 오차율기반 클러스터링, 계절별, 시간별, 변수선택법), 이후 클러스터별 개별 모델링 진행
- 특수한 패턴을 띄는 날들이 과거에 하루는 존재할 것이다 판단하고, 백터 유사도를 이용하여 파생변수를 생성