본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
연구 활동/AI 데이터연구단 과제

[홍수 알고리즘 및 피처 파악] Flood disaster risk assessment based on random forest algorithm-Neural Computing and Applications

by 꿀먹은데이터 2023. 11. 15.

-Rpython 동시 사용

본 연구에서는 랜덤 포레스트 알고리즘과 RF모델을 기반으로 한 홍수재해 위험평가에 대해 논의.

 

본 연구에서는 GIS의 특수기능을 활용하여 데이터를 수집, 관리, 분석하여 GIS 기반의 홍수재해위험도 평가방법을 제안함

이 방법은 연구 지역의 자연재해 발생요인의 특성을 바탕으로 적절한 그리드를 선택하여 최종적으로 지역재난위험도를 시각적으로 표현하는 기능을 구현함.

 

  1. ArcGIS10.1을 사용하여 각 위험 요소를 분석하고 홍수재해 보고서 인덱스 모델에 통합함.
  2. 랜덤 포레스트 알고리즘은 홍수재해 지수 모델의 각 매개변수의 가중치로 사용
  3. ArcGIS 공간 분석 도구 맵 대수 기능을 사용하여 모델링하고, 다양한 기간의 홍수 위험 평가를 수행하고, 공간 분석 기능을 사용하여 특정 시나리오에서 연구 지역의 홍수 깊이를 추출하는 포인트 함수에 중앙값을 추출함.

실험 부분에서는 레이어 오버레이를 사용하여 영향을 받는 영역의 수와 유형을 결정함. ArcGIS 10.1 플랫폼의 자연 브레이크 포인트 방식을 사용하여 홍수 재해 위험 값의 크기에 따라 연구 지역을 나눔.

 

연구 결과 랜덤 포레스트 알고리즘과 GIS 기술의 결합은 홍수 위험의 공간 패턴 및 내부 법칙 분석에 편리하고 적용 가능성이 좋은 것으로 나타났음.

Data sources

본 연구에 사용된 자료는 원격탐사자료, 지리 기초자료, 통계자료를 포함.

1. 원격탐사 데이터는 주로 토지이용 데이터를 포함, 이는 EDRAS 소프트웨어를 사용하여 2000Landsat 원격탐사 이미지를 감독 없이 분류 및 해석하여 얻은 것

2. 기본 지리 데이터에는 디지털 선 지도( 행정구역 경계, 교통, 하천 및 기타 요소 포함), 지형 데이터(등고선, 표고점)가 포함되며 지형 데이터는 1:250,000 지형도에서 벡터화

3. 통계에는 강우 데이터, 인구 데이터, 경제 데이터 및 농업 데이터가 포함

Feature selection

본 논문에서는 고도, 강우량은 1월 강우량 ~ 12월 강우량 등 12차원으로 총 15개의 기능으로 구분됨.

모델 계산 전에 15개 차원의 기능 간에 상관관계가 있는지 확인하기 위해 연결 여부, 상관관계가 있는 경우 사전 데이터 정리 작업을 수행

 

강우량 12+ 고도 3= 15개의 피처로 파악.

Model sample data selection

모형표본자료는 2000년부터 2010년까지 34개 시·군에 대한 과거 홍수재해자료를 선정

홍수재해가 발생한 지점을 1, 발생하지 않은 지점을 0으로 하여 총 375개소를 선정

샘플 데이터. 15개의 기능이 최종 샘플 데이터 세트를 구성

Selection of risk samples

재해규모 속성, 재해지점 밀도, 위협인원수, 위협재산, 피해가구 수, 피해면적에 따라 조사지역 각 군별 재해영향계수를 산정

 

충격계수의 상세조사 자료에서 각 군의 재난위험도를 고··저로 규정

  1. 홍수재해가 없는 군은 저위험지역으로 분류.
  2. 각종 평가지표, 관련 정부자료 및 선행연구결과를 통해 분류위험도를 수정함
  3. 선택된 샘플의 다양한 지표와 위험 수준을 모델에 입력하여 재해 위험 분류
  4. 위의 규칙에 따라 연구 지역에서 테스트할 모든 데이터를 RF 모델에 다시 입력하여 연구 지역의 홍수재해 위험 수준을 예측. (가중치 및 분류 기준은 데이터의 고유 규칙에 내포되어 있음)

-> 랜덤 포레스트로 트레이닝 후 RF모델을 적용하여 AUC 0.952 나옴

 

연구 지역의 산사태 및 산사태 위험 지역 기울기 단위를 기반. 위험 구역 레이어는 중첩 및 그리드 처리, 각 그리드 할당한 뒤 그리드에 해당하는 위험 값에 따른 셀로 위험성을 평가함.

위험등급별 면적 분포 통계

지역 및 산사태 재해 분포 데이터

그림에서 볼 수 있듯이 각각 다른 레벨 범위, 극도로 위험한 지역, 고위험 지역, 중간 위험 구역 및 저위험 구역으로 나뉨.

LSTM 기법 사용

Role of unstructured data on water surface elevation prediction with LSTM: case study on Jamsu Bridge, Korea

(LSTM 기법을 활용한 수위 예측 알고리즘 개발 시 비정형자료의 역할에 관한 연구: 잠수교 사례)

RNN 기법에서 발생하는 가중치 소실 문제를 해결하여 시계열 자료 처리에 특화되어 있다.

LSTM 기법 내에 있는 매개변수를 이용해 민감도 분석을 수행하였다. 설정한 매개변수는 반복횟수(Iteration), 시퀀스 길이(Sequence length), 학습률(Learning rate), 은닉층 (Hidden layer)으로 총 4가지

feature 값은 파악 못함. 위성영상을 이용한 강우량 & 대기 예측

- LSTM 기반의 알고리즘 적용 선형회귀 모형에 비해 ConvLSTM* 모형 이용 시 23% 성능 개선 * ConvLSTM(Convolutional LSTM): 기존 LSTM 알고리즘의 입출력 변수의 차원을 확장시킨 알고리즘

LSTM Conv2Deconv*-LSTM 알고리즘 적용 RMSE: LSTM 36.89, Conv2Deconv-LSTM 22.42로 기존 LSTM 모형 대비 39.2% 개선 * Conv2Deconv(Convolution to Deconvolutional): 이미지와 같은 다차원 배열의 형태로 이루어진 데이터의 사이즈를 압축이나 해제하는 알고리즘