초록
이 연구에서는 과학 영재 선발 도구로 사용된 지필검사(기초 지식 및 탐구 능력 검사, 창의성 검사) 문항의 질적 특성과 양적 특성을 살펴봄으로써 타당하고 신뢰로운 영재 선발 도구로서 지필검사의 적합성을 탐색하는데 필요한 기초자료를 얻고자 하였다. 문항의 질적 특성을 분석하기 위해 내적 및 외적 문항 분석틀을 구안하여 적용하였으며, 문항의 양적 특성과 질적 특성의 연관성을 분석하였다. 연구 결과, 다수의 문항이 중학교 교육 과정을 벗어난 속진 맥락으로 출제되어 내용 타당도에 문제가 있는 것으로 분석되었다. 또한 출제되는 내용이나 맥락에서 교과별 및 연도별로 상당한 차이가 있어 검사 도구의 안정성에도 문제가 있는 것으로 나타났다. 기초 지식 및 탐구 능력 검사의 경우는 지식이 차지하는 비율이 가장 높으며, 탐구 과정 중에서는 자료 해석 및 분석에 치중됨으로써 고른 탐구 능력을 측정하고 있지 못한 것으로 드러났다. 창의성 검사에서는 대다수의 문항이 발산적 사고나 연관적 사고보다는 수렴적 사고를 주로 측정하고 있는 것으로 나타났다. 한편, 분석된 대부분의 문항이 그래프보다는 그림이나 표를 이용하여 표현되는 것으로 나타났으며, 문항 유형에서는 서술형보다는 선다형이나 단답형의 비율이 훨씬 높았다. 문항의 변별도는 두 검사 모두 양호하였으나, 문항별 난이도 편차는 매우 큰 것으로 나타났다. 교과 간 및 검사도구 간 상관은 매우 낮았으며, 신뢰도 또한 낮은 것으로 나타났다. 또한 난이도는 낮아 쉬운 문제였지만 변별도가 양호한 유형의 문항이 가장 많았으며, 속진 맥락의 문항이 심화 맥락에 비해 변별도가 더 양호한 것으로 나타났다. 이와 같은 분석 결과들은 영재 교육 기관에서 학생 선발에 적합한 지필 검사 도구를 개발하는 데 기초 자료로 활용될 수 있을 것이다.
The purpose of this study was to analyse the qualitative and quantitative characteristics of paper-pencil tests for exploring its appropriateness as a selection tool of the gifted in science. For this purpose, we developed two (internal and external) item analysis frameworks, and applied these frameworks to analyse qualitative characteristics. Also, we analysed the relationship between two characteristics. The results of analysing qualitative characteristics revealed that the portion of items with acceleration context exceeding middle school curriculum level was relatively large, which caused low content validity. Furthermore, there was considerable deviation in content and context by subject matter and year, which caused test unstability. Items measuring knowledge domain was the most prevalent, and too much weight on data interpretation & analysis domain in inquiry process skills. In case of creativity test, the portion of items measuring convergent thinking was much larger than that of divergent or associative thinking. Most of these items were represented by using pictures and tables rather than using graphs. Item types of multiple-choice and short answers were superior to essay types. Discrimination index, on the whole, was appropriate (above 0.3), but item difficulty showed a vast deviation ($0.01{\sim}0.90$). Correlation coefficients among subject matters and test tools were very low, and test reliabilities were also low. Low item difficulty & high discrimination index item types were distinguishable. Items with acceleration context were more discriminating than enrichment context. Implications of developing quality paper-pencil test items in the selection of gifted students are discussed.