장기간 data의 오차(금액/율) trend를 비교 할려고 합니다.
오차(금액/율)이 일정치 않고 벌어지는 data만을 찾아 문제점을 파악할려고합니다.
그런데 문제는 어느정도의 오차(금액/율)을 벗어나야 문제가 있는것인지 판단을 하기가 어렵네요.
워낙 data양이 많다보니 매번 눈으로 찾기에는 한계가 있습니다.
그래서 엑셀에서 사용할 수 있는 함수를 활용하여 trend를 벗어나는 것을 바로 체크할 수 있게만들고 싶습니다.
[예시]
| 구분 | 1월 | 2월 | 3월 | 4월 | 5월 | 6월 | 7월 | 8월 | 9월 |
| Data 1 | 2,791,625 | 2,377,625 | 2,587,500 | 2,958,375 | 2,297,125 | 2,461,000 | 2,619,125 | 2,949,750 | 2,619,125 |
| Data 2 | 1,946,375 | 2,035,500 | 2,325,875 | 2,576,000 | 2,001,000 | 2,461,000 | 1,604,250 | 2,515,625 | 2,305,750 |
| 오차금액 | 845,250 | 342,125 | 261,625 | 382,375 | 296,125 | 0 | 1,014,875 | 434,125 | 313,375 |
| 오차율 | 30.3% | 14.4% | 10.1% | 12.9% | 12.9% | 0.0% | 38.7% | 14.7% | 12.0% |
이상치 제거에는 여러가지 방법이 있고, 실무에서는 보편적으로 4분위수 방법이 사용됩니다.
IQR (3사분위-1사분위)를 계산 후, 1Q-1.5*IQR, 3Q+1.5*IQR 을 벗어나는 관측치를 이상치로 보는 방법이고 거의 대부분의 상황에서 사용하는 매우 보편적인 방법입니다. 아래 그림에서는 8% 이하, 19% 이상이 이상치가 됩니다.
만약 데이터가 정규분포를 갖는다면 표준편차로 이상치를 제거할 수도 있으나, 실제로는 데이터 집단이 정규분포를 가질 정도로 관측값이 충분치 않은 경우가 대부분이여서 4분위수로 제거하는게 편리합니다.
이상치제거 관련하여 이전 라이브 강의에서 자세히 설명해드린 적 있으니, 아래 적어드린 강의도 한께 참고하시면 많은 도움 되실겁니다.
https://www.oppadu.com/%ec%97%91%ec%85%80-live-35%ea%b0%95/
수식은 아래 함께 첨부해드린 파일을 확인해보세요. 제시해드린 답변이 도움이 되셨길 바랍니다. 감사합니다.