Developing Scoring Rubric and the Reliability of Elementary Science Portfolio Assessment

초등 과학과 포트폴리오의 채점기준 개발과 신뢰도 검증

  • Kim, Chan-Jong (Chongju National University of Education, Daeso Elementary School) ;
  • Choi, Mi-Aee (Chongju National University of Education, Daeso Elementary School)
  • 김찬종 (청주교육대학교, 대소초등학교) ;
  • 최미애 (청주교육대학교, 대소초등학교)
  • Published : 2002.03.30

Abstract

The purpose of the study is to develop major types of scoring rubrics of portfolio system, and estimate the reliability of the rubrics developed. The portfolio system was developed by Science Education Laboratory, Chongju National University of Education in summer, 2000. The portfolio is based on the Unit 2, The Layer and Fossil, and Unit 4, Heat and Change of Objects at fourth-grade level. Four types of scoring rubrics, holistic-general, holistic-specific, analytical-general, and analytical-specific, were developed. Students' portfolios were scored and inter-rater and intra-rater reliability were calculated. To estimate inter-rater reliability, 3 elementary teachers per each rubric(total 12) scored 12 students' portfolios. Teachers who used analytical-specific rubric scored only six portfolios because it took much more time than other rubrics. To estimate intra-rater reliability, second scoring was administered by two raters per rubric in two and half month. The results show that holistic-general rubric has high inter-rater and moderate intra-rater reliability. Holistic-specific rubric shows moderate inter- and intra-rater reliability. Analytical-general rubric has high inter-rater and moderate intra-rater reliability. Analytical-specific rubric shows high inter- and intra-rater reliability. The raters feel that general rubrics seems to be practical but not clear. Specific rubrics provide more clear guidelines for scoring but require more time and effort to develop the rubrics. Analytical-specific rubric requires more than two times of time to score each portfolio and is proved to be highly reliable but less practical.

본 연구의 목적은 초등학교 과학과 포트폴리오를 채점할 수 있는 다양한 채점기준을 개발하고, 개발된 각 채점기준의 신뢰도를 검증해 보고자 하는 것이다. 채점기준을 개발하기 위한 포트폴리오는 4학년 2학기 '단원 2. 지층과 화석', '단원 4. 열과 물체의 변화' 를 중심으로 청주교대 과학교육 연구실에서 2000년 여름에 개발한 체제를 같은 해 가을, 경기도 중도시의 한 초등학교 4학년 한 학급에 적용하여 얻은 것이다. 총괄-일반, 총괄-특수, 분석-일반, 분석-특수의 4가지 채점기준을 개발하고, 각 채점기준에 근거하여 학생들이 작성한 포트폴리오 증거물을 채점하여 각 채점 기준별 채점자간 신뢰도와, 채점자내 신뢰도를 구하였다. 1차 채점에서는 총 12명의 채점자들이 각 채점기준별로 3명씩 그룹을 나누어 그룹당 12권의 포트폴리오 증거물을 채점하였다. 단, 분석-특수 채점기준의 경우 6권의 포트폴리오 증거물만을 채점하였다. 채점자내 신뢰도를 알아보기 위해 실시한 채점시기별 신뢰도에서는 l차 채점에 참가한 채점자 중 각 채점기준별로 2명씩 총 8명이 2차 채점에 참가하여 l차 채점과 동일한 방식으로 채점을 실시하였다. 채점결과를 SPSS 통계 프로그램에 입력하여 상관계수를 구한 결과, 총괄-일반 채점기준은 채점자간 신뢰도가 높고 채점자내 신뢰도가 있는 것으로 나타났고 총괄-특수 채점기준은 채점자간 신뢰도와 채점자내 신뢰도가 있는 것으로 나타났다. 분석-일반 채점기준은 채정자간 신뢰도가 높고 채점자내 신뢰도는 있는 것으로 나타났으며, 분석-특수 채점기준은 채점자간 신뢰도와 채점자내 신뢰도가 모두 높은 것으로 나타났다. 일반적인 채점기준들(총괄-일반, 분석-일반)의 경우, 하나의 채점 기준으로 모든 포트폴리오 목표를 채점할 수 있으므로 매우 경제적이고 실용적이나, 채점자들은 채점시 모호함을 느낀다고 하였다. 반면에, 특수적인 채점기준들(총괄-특수, 분석-특수)의 경우, 채점은 더 명확하게 할 수 있으나, 목표별로 채점기준을 개발해야 하므로 많은 시간과 노력이 필요하게 된다. 채점기준의 실용도 측면에서는 분석-특수 채점기준이 다른 기준보다 2배 이상의 시간이 결려 실용도는 낮은 것으로 나타났다.

Keywords

References

  1. 교육부(1998). 수행평가의 이해. 서울: 교육부
  2. 국립교육평가원(1996). 수행 평가의 이론과 실제. 국립교육평가원 : 서울
  3. 김성숙(1995). 논술문항 채점의 변동요인 분석과 일반화가능도 계수의 최적화 조건. 교육평가연구, 8(1), 35-57
  4. 김찬종(1999). 교과교육 학술세미나: 수행평가의 이론 및 현장 적용 사례-자연, 과학 교과-. 한국교원대학교 부설 교과교육공동연구소
  5. 김찬종, 김진규, 임형(2001). 과학과 수행평가의 이해와 활용. 서울: 경문사
  6. 김찬종, 오영선(2001). 초등학교 자연과 상호작용 강화 학습일지의 학교 수준 적용 방안. 한국초등과학교육학회, 20(2), 187-196
  7. 남명호(1995). 수행평가의 타당성 연구: 과학 실기평가, 실험보고서 평가, 컴퓨터 시뮬레이션 평가의 비교. 고려대학교 대학원 박사학위 논문
  8. 남현우(1998). 수행평가의 측정학적인 문제들에 관한 고찰. 교육평가연구, 11(2), 1-21
  9. 성태제(1994). 논술형 고사와 예체능계 실기고사를 위한 채점자간 신뢰도 추정. 교육평가연구, 7(1), 43-56
  10. 성태제(1999). 교육 평가 방법의 변화와 결과 타당도에 대한 고려. 교육학연구, 37(1), 197-218
  11. 유선희(1998). 수행평가의 일반화가능도, 채점 결과의 신뢰도 및 지필검사와의 상관관계에 관한 연구. 교육평가연구, 11(2), 23-41
  12. 최미애(2001). 초등학교 과학과 포트폴리오의 채점 기준개발과 신뢰도 검증. 청주교육대학교 교육대학원 석사학위 논문
  13. 최연희, 권오남, 성태제(1998). 중학교 영어 . 수학 교과에서의 열린 교육을 위한 수행평가 적용 및 효과 분석 연구. 교육부 초등교육정책과 열린 교육연구 과제 보고서
  14. Cronbach, L. J., Linn, R. L., Brennan, R. L., & Haertel, E. H.(1997). Generalizability analysis for performance assessmen t of student achievement for school effectiveness. Educational and Psychological Measurement, 57(3), 373-399 https://doi.org/10.1177/0013164497057003001
  15. Fairbrother, R.(1997). Is this the right answer? International Journal of Science Education, 19(8), 887-894 https://doi.org/10.1080/0950069970190802
  16. Feldman, A., Kropf, A., Alibrandi, M.(1998). Grading with points: The determination of report card grades by high school science teachers. School Science and Mathematics, 98(3), 140-148 https://doi.org/10.1111/j.1949-8594.1998.tb17407.x
  17. Haertel, E. H.(1999). Performance assessment and education reform. Phi Delta Kappan, 80(9), 662-666
  18. Kulm, G. & Malcolm, S. M.(1992). Science assessment in the service of reform. Washington, D. C.: American Association for the Advancement of Science
  19. Lederman, N. G., & Niess, M. L.(1999). Rubric's cube. School Science and Mathematics, 99(3), 113-115 https://doi.org/10.1111/j.1949-8594.1999.tb17458.x
  20. Shavelson, R. J., Gao, X., & Baxter, G. P. (1996). On the content validity of performance assessments: Centrality of domain specification. In Birenbaum, M., & Dochy, F. J. R. C. (Eds.), Alternatives in assessment of achievements. learning processes and prior knowledge, (pp. 131-141). Boston: Kluwer Academic
  21. Shaw, J. M.(1997). Threats to the validity of science performance assessments for English language learner. Journal of Research in Science Teaching, 34(7), 721-743 https://doi.org/10.1002/(SICI)1098-2736(199709)34:7<721::AID-TEA4>3.0.CO;2-O
  22. Swartz, C. W., Hooer, S. R., Montgomery, H.J., & Wakelye, M. B.(1999). Using generalizability theory to estimate the reliability of writing scores derived from holistic and analytical scoring methods. Educational and Psychological Measurement, 59(3), 492-506 https://doi.org/10.1177/00131649921970008
  23. Third International Mathematics and Science Study(1994). Performance assessment administration manual for the main survey. Boston, Author
  24. Wiggins, G.(1998). Educative assessment: Designing assessmen ts to inform and improve student performance. San Francisco: Jessey-Bass