[박기자's 스마트팜 클로즈업] 제안된 분류기 알고리즘

박찬식 기자 2019-01-10 11:34:00


사결정 트리 구조의 재귀적인 하향식 접근법은 인기 있는 데이터 마이닝 방법이 되는 탐욕스러운 알고리즘에 의해 사용된다.

ID3와 그 후계자인 C4.5 의사결정 트리 알고리즘은 규칙 구성으로 잘 알려져 있고 기계 학습 과정에 일반적으로 적용된다. 그 점에서 J. 로스 퀸랜의 알고리즘은 머신러닝 커뮤니티에서 가장 인기 있는 의사결정 트리 알고리즘이다. ID3 및 C4.5 의사결정 트리 알고리즘의 장단점은 다음과 같다.

실험 결과는 기존의 의사결정 트리 알고리즘과 비교된다.

그러나 데이터 마이닝 알고리즘은 대량의 데이터 세트(예)를 처리하지 않는다. 데이터 크기 – 2.00MB, 20,000개의 데이터 인스턴스)가 가장 대표적이다.

그래서 MapReduce 개념은 엄청난 양의 데이터를 처리하는 데 사용된다. 형상을 선택한 후 예측 프로세스에 관련 속성을 취할 수 있다.

C5.0: ADT 분류기는 나무를 자르는 기술을 위해 사용된다. 이 기법은 C4.5와 ID3 알고리즘의 단점을 극복하기 위해 사용되며, 트리 부분을 제거함으로써 의사결정 트리 크기를 줄인다. 제안된 방법에 사용된 프리 프루닝 방법은 초기 나무 성장을 방지하고 훈련 세트를 올바르게 분류한다.

자르기 단계의 이중 목표는 최종 분류자의 복잡성을 줄이고 노이즈 데이터 제거 및 오버 피팅의 감소에 의해 예측 정확도를 향상시키는 데 사용된다.



박찬식 기자 park@thekpm.com

댓글

(0)
※ 댓글 작성시 상대방에 대한 배려와 책임을 담아 깨끗한 댓글 환경에 동참에 주세요. 0 / 300