이 연구는 앙고프(Angoff) 방법에 의한 수준설정의 절차적 측면에서 타당성을 점검하는 연구로, 평정자의 기대 정답률 예측에 대한 라운드별 예측 정확성을 탐색하였다. 2010년 중‧고등학교 학업성취도 평가의 수준설정에서 라운드별 평정자가 각 문항별로 예측한 기대 정답률 자료와 문항 응답 자료를 활용하여 기대 정답률 예측의 정확성 지수를 문항 난이도, 문항 유형별로 산출한 결과, 수준설정 라운드가 진행됨에 따라 평정자들의 기대 정답률과 실제 정답률간 오차가 점차 감소하여 절차적 측면에서의 타당성 증거를 확인하였다. 평정자들은 문항이 쉬울 경우 기대 정답률을 과소 추정하였고, 문항이 어려울 경우 과대 추정하는 경향을 보였으며, 문항 유형에 따라서는 학교급, 교과, 성취수준별로 라운드에 따른 오차 경향이 다양하게 산출되었다. 이러한 결과에 기반하여 내용 전문가의 문항 정답률 예측을 필요로 하는 수준설정 방법을 적용할 때 기대 정답률 예측에 대한 평정자 훈련의 고려사항을 제언하였다.This study investigated procedural validity of NAEA(National Assessment of Educational Achievement) standard setting by examining an accuracy of expected probability for MAP(minimally acceptable person). The expected probability for MAP obtained from standard setting procedure in NAEA were compared with real proportion for students who earned cut-score at each achievement level in terms of item difficulty and type. As a results, we confirmed the procedural validity of standard setting in NAEA based on the fact that the magnitude of overall difference between expected probability and real proportion were decreased as a round was progressed. We also found panels overestimated the correct probability in difficult items and underestimated the correct probability in easy items. The magnitude of accuracy in item type showed different patterns across subjects and achievement levels. We also suggested to train the panel in order to obtain more authentic cut scores in standard setting based on the results of this study.