• 제목/요약/키워드: 통계 오류

검색결과 384건 처리시간 0.031초

하이브리드 방법을 이용한 개선된 문장경계인식 (Advanced detection of sentence boundaries based on hybrid method)

  • 이충희;장명길;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.61-66
    • /
    • 2009
  • 본 논문은 다양한 형태의 웹 문서에 적용하기 위해서, 언어의 통계정보 및 후처리 규칙에 기반 하여 개선된 문장경계 인식 기술을 제안한다. 제안한 방법은 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 문서에 적용하기 위해서 문장경계로 사용될 수 있는 모든 음절을 대상으로 학습하여 문장경계 인식을 수행하였고, 문장경계인식 성능을 최대화 하기 위해서 다양한 실험을 통해 최적의 자질 및 학습데이터를 선정하였고, 다양한 기계학습 기반 분류 모델을 비교하여 최적의 분류모델을 선택하였으며, 학습데이터에 의존적인 통계모델의 오류를 규칙에 기반 해서 보정하였다. 성능 실험은 다양한 형태의 문서별 성능 측정을 위해서 문어체와 구어체가 복합적으로 사용된 신문기사와 블로그 문서(평가셋1), 문어체 위주로 구성된 세종말뭉치와 백과사전 본문(평가셋2), 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 사이트의 게시판 글(평가셋3)을 대상으로 성능 측정을 하였다. 성능척도로는 F-measure를 사용하였으며, 구두점만을 대상으로 문장경계 인식 성능을 평가한 결과, 평가셋1에서는 96.5%, 평가셋2에서는 99.4%를 보였는데, 구어체의 문장경계인식이 더 어려움을 알 수 있었다. 평가셋1의 경우에도 규칙으로 후처리한 경우 정확률이 92.1%에서 99.4%로 올라갔으며, 이를 통해 후처리 규칙의 필요성을 알 수 있었다. 최종 성능평가로는 구두점만을 대상으로 학습된 기본 엔진과 모든 문장경계후보를 인식하도록 개선된 엔진을 평가셋3을 사용하여 비교 평가하였고, 기본 엔진(61.1%)에 비해서 개선된 엔진이 32.0% 성능 향상이 있음을 확인함으로써 제안한 방법이 웹 문서에 효과적임을 입증하였다.

  • PDF

추론통계를 사용한 문헌정보학 연구에서 데이터 수집과 분석에 관한 비평적 고찰 (A Critical Review of the Use of Inferential Statistics in Library and Information Science Research in Korea)

  • 노정순
    • 한국문헌정보학회지
    • /
    • 제40권2호
    • /
    • pp.217-242
    • /
    • 2006
  • 본 연구는 국내 문헌정보학분야의 대표적인 4개 학술지에 2001부터 2004까지 발표된 792편의 연구논문 중 추론통계를 사용한 86편의 연구논문에서 활용한 데이터 수집방법과 추론통계기법을 비평적으로 고찰하였다. 표집방법별로 그리고 신뢰도검사와 가설과 모형의 검정에 사용된 통계기법별로 대표 연구논문을 소개하고, 사용된 기법으로 데이터를 수집하고 분석하는 과정에서 보인 문제점들을 논의하였다. 분석된 연구에서 표집방법으로는 확률표집보다는 비확률표집이 주로 사용되었으며, 질문지를 이용하여 데이터를 수집한 연구의 평균응답률은 74.47%로 분석되었으나, 응답률이 낮을 경우 무응답으로 인한 표집과정의 오류를 밝히려는 노력은 부족한 것으로 파악되었다. 추론통계기법 중 특히 신뢰도검사, 교차분석, 다중회귀분석, 요인분석, 다차원척도를 사용하는데 문제가 있는 것으로 분석되었다.

수학 I 검정교과서 확률통계 영역에 대한 연구 (A Study on 7th Probability and Statistics Education In Mathematics 1 Textbooks in Korea)

  • 이상복;손중권;정성석
    • 응용통계연구
    • /
    • 제18권1호
    • /
    • pp.197-210
    • /
    • 2005
  • 본 연구에서는 중등학교 통계교육을 위하여, 제7차 수학과 교육과정 중 고등학교에서 사용하는 검정교과서 수학 1과 국정교과서 확률과 통계의 확률통계 영역을 중심으로 용어와 개념 및 표현을 비교, 연구하였다. 검정과 국정교과서의 표본표준편차의 정의가 일치되지 않았으며, 표분평균의 분산과 중심극한정리에 대한 개념설명이 교과서마다 상이하였다. 또한, 확률변수 개념 설명이 불분명 한 교과서도 발견되었다. 본 연구에서는 오류의 수정과 더불어 표본분산으로 불편추정량을 사용할 것을 제안하였다.

학교 숲을 활용한 산림치유프로그램 활동이 다문화배경 학생들의 언어습득 향상과 자아탄력성에 미치는 영향 (Effects of Forest Healing Programs Using School Forests on Language Acquisition and Ego-resilience of Multicultural Background Students)

  • 장철순;신창섭;장병순
    • 한국환경생태학회지
    • /
    • 제33권3호
    • /
    • pp.333-340
    • /
    • 2019
  • 다문화 배경 학생들이 늘어남에 따라 이들의 교육에 대한 관심이 높아지고 있다. 본 연구에서는 숲이 가지고 있는 산림치유인자들과 요인들을 활용하여 다문화 배경 학생들의 언어습득향상과 자아탄력성에 미치는 영향을 알아보고자 하였다. 실험대상은 청주시 ${\bigcirc}{\bigcirc}$동에 위치한 다문화예비학교 중학생 남녀 각각 10명을 대상으로 방과 후에 산림치유프로그램을 운영하였다. 실험기간은 2018년 4월12일부터 2018년 6월26일까지 매주 1회씩 12회기로 1시간 (60분)씩 실시하였다. 산림치유프로그램은 숲에 존재하는 다양한 환경요소를 활용하여 인체의 면역력을 높이고 신체적 정신적 건강을 회복시키는 활동이다. 프로그램 실시 전과 후에 자아탄력성의 차이를 알아보기 위해 대응표본 t-test를 실시하고 그 자료는 SPSS 18.0 프로그램으로 분석하였다. 그 결과 자아탄력성은 긍정사고능력, 문제해결능력, 친밀행동능력, 감정조절능력, 자율행동능력 등 하위요인 모두에서 통계적으로 유의미하게 향상되었다(p<.001). 언어능력향상은 기술통계로 알아본 결과 쓰기의 오류, 발음의 오류, 문장의 오류, 시제의 오류, 조사 접속사의 오류 모두에서 향상되었다. 본 연구결과가 향후 중도입국자녀들이나 다문화 배경 학생들의 자아탄력성과 언어습득향상에 기초자료로 활용되기를 기대한다.

국내 노인의 인지기능 향상 프로그램의 효과연구: 체계적 문헌고찰과 메타분석 (Effects of Cognition Improvement Programs on Normal Elderly in Korea: A Systematic Review and Meta-Analysis)

  • 김경윤;이은주
    • 한국노년학
    • /
    • 제37권2호
    • /
    • pp.431-444
    • /
    • 2017
  • 본 연구는 국내 노인의 인지기능 향상 프로그램의 효과를 확인하기 위해 수행되었다. 2000년부터 2016년까지 4개의 데이터베이스에서 9,624개의 논문을 검색하였고, 최종 14개의 논문이 메타분석을 위해서 선정되었다. 선정된 연구의 질 검증을 위해서 Scottish Intercollegiate Guidelines Network의 controlled trial checklist를 사용하였다. R 프로그램 version 3.3.2(2016-10-31)를 사용하여 효과크기와 이질성 검증, 출간오류를 분석하였다. 인지기능 향상 프로그램의 전체 효과크기는 중간 효과크기를 나타냈고 이질성은 중간 정도의 이질성을 나타냈다(SMD=0.759, 95% CI: 0.506~1.013, $I^2=34%$). 전체 논문의 이질성 검증을 위한 조절효과분석을 실시한 결과 중재종류에 따라 통계적으로 유의한 차이를 보였으며 복합운동중재가 가장 큰 효과크기를 나타냈다(SMD=1.231, 95% CI: 0.658~1.804, $I^2=40.8%$). 출간오류는 Funnel plot과 Egger's regression test를 통해서 통계적으로 유의한 오류가 발견되었지만 오류의 심각정도를 확인하기 위해 Trim-and-Fill 분석을 실시한 결과 전체연구 결과를 번복할 정도의 심각한 오류는 확인되지 않았다. 따라서 노인을 대상으로 한 인지기능 향상 프로그램 중 복합운동중재는 노인의 인지기능 향상에 도움이 될 것으로 사료된다.

LBS 성능 보장을 위한 모듈형 관리기 구현 (A Modular Type Manager Implementation for LBS Performance Guarantee)

  • 이종득
    • 디지털융복합연구
    • /
    • 제10권5호
    • /
    • pp.275-281
    • /
    • 2012
  • 본 논문에서는 모바일 환경에서 LBS 성능을 보장하기 위한 모듈형 관리기를 제안한다. 제안된 시스템은 시나리오 관리 모듈, 이동성 관리 모듈, 그리고 통계 관리 모듈로 구성되어 있으며, 각각의 모듈은 시나리오 리스트에 따라 성능을 최적화하기 위하여 이동성을 제어한다. 그리고 통계 관리 모듈은 이동성 정보, 오류 해결, 그리고 여러 문제들을 기록하고 저장한다. 따라서 제안된 구현 시스템은 수작업을 통하여 시스템 성능을 체크하는 것에 비해서 관리 비용을 감소시키고, 관리 성능을 향상시키는 장점을 제공하게 된다.

정확검정들에 대한 고찰 (Investigation on Exact Tests)

  • 강승호
    • 응용통계연구
    • /
    • 제15권1호
    • /
    • pp.187-199
    • /
    • 2002
  • 표본의 크기가 작아 검정 통계량의 근사분포의 정확성이 의심스러울 때, 정확검정이 종종 사용된다. 정확검정의 장점은 1종의 오류 확률이 항상 유의수준보다 작거나 같음을 보장해 준다는 것이다. 본 논문에서는 정확검 정을 만드는 여러방법, 계산 알고리듬, 그리고 상업용 소프트웨어를 살펴보겠다. 그리고 정확검정에서 얻어지는 exact p-value와 원래 우도(true likelihood)에서 얻어지는 true p-value와의 관계도 살펴보겠다.

인공신경망에 기반한 제주시 신재생 에너지 발전량 예측 모델 (A forecast model of renewable energy generation based on artificial neural networks in Jeju city)

  • 강민주;변세정;김지환;이정훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.583-584
    • /
    • 2020
  • 본 논문은 신재생에너지와 전기자동차의 보급이 활발한 제주시에서 태양광 발전량과 기후변화 기록들을 활용할 수 있는 데이터처리 프레임워크를 구축하고 인공신경망으로 태양광 발전량 예측모델을 구축한다. 이 인공신경망 모델은 일조시간, 일사량, 전운량 등을 입력 노드로 설정하고 일별 생산량을 출력 노드로 설정한다. 가장 상관관계가 높은 발전기 3개에서 학습 패턴을 추출하였으며, 모든 대상 발전기에 대해 최대 평균 오류율은 평균 36.7 %를 보이고 있다.

제 3상 임상시험에서 여러 형태 반응변수의 다변량 검정법인 P값 병합법 (Methods of Combining P-values for Multiple Endpoints of Various Data Types)

  • 김수영;송혜향
    • 응용통계연구
    • /
    • 제21권1호
    • /
    • pp.35-51
    • /
    • 2008
  • 제 3상 임상시험에서 치료효과가 여러 반응변수(endpoints)로 측정될 때, 이들 반응 변수가 대둥하게 중요하여 주요 반응변수(primary endpoint)를 선택할 수 없는 상황이 발생할 수 있다. O'Brion (1984)은 이들 반응변수 모두를 종합하여 치료효과에 대한 단축검정(one-tailed testing) 통계량으로서 반응변수가 연속형(continuous) 자료로 측정되었을 때 Ordinary Least Square(OLS)와 Generalized Least Square(GLS) 검정 통계량을 제시하였다. Pocock 등 (1987)은 여러 형태, 즉 연속형, 이산형(binary), 생존(survival) 자료의 반응변수를 함께 분석할 수 있음을 언급하고 있으나 실제로 이와 같이 여러 형태의 반응변수 병합에 대한 문제점을 설명하거나 구체적으로 모의 실험으로서 이러한 경우의 OLS와 GLS통계량의 효율성을 알아보지는 않았다. 본 논문에서는 특히 여러 형태의 반응변수를 종합하여 치료효과에 대한 결론을 내리는데 P값의 병합 통계량을 제안하며, 이때 각 반응변수의 치료효과에 대한 검정 결과인 P값은 서로 상관성이 존재하는 P값이다. OLS 및 GLS 검정 통계량보다 장점을 지닌 P값의 병합방법 중, 방법 F와 G는 제 1종 오류가 유의수준보다 커서 검정의 결론이 잘못 내려질 수 있는 경우가 있고 방법 B는 제 1종의 오류가 잘 통계되고 또한 효율성이 높은 것으로 나타났다.

SW산업의 일자리 창출역량 분석 (A Study on the Analysis of Power of Job Creation of SW Industry)

  • 노규성
    • 디지털융복합연구
    • /
    • 제10권6호
    • /
    • pp.41-47
    • /
    • 2012
  • 오늘날 일자리 창출은 최대 국정 과제라 해도 과언이 아니다. 그러나 정부의 갖은 노력에도 불구하고 일자리는 쉽게 창출되지 않는다. 그 원인 중의 하나는 일자리에 대한 통계의 문제점과 그로 인한 정책 오류라 할 수 있다. 따라서 본 연구는 현 정책 기반인 일자리 통계의 문제점을 점검하고 정확한 일자리 통계와 일자리 창출역량을 기반으로 일자리 창출 정책을 실행하도록 하기 위해 일자리창출력을 분석하는 데에 목적을 가지고 있다. 특히 본 연구는 여러 산업 분야 중 최근 일자리 창출 측면에서 그 중요도가 더욱 커진 SW산업의 일자리창출력을 집중적으로 조명하기 위해 일자리 통계의 현황과 과제의 점검하고 일자리 증가 추이와 일자리창출효과 등의 분석을 통해 SW산업의 일자리 창출력을 분석해보고자 한다.