• 제목/요약/키워드: Korean Spacing-error Correction

검색결과 10건 처리시간 0.034초

띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델 (A Joint Statistical Model for Word Spacing and Spelling Error Correction Simultaneously)

  • 노형종;차정원;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.131-139
    • /
    • 2007
  • 본 논문에서는 띄어쓰기 오류와 철자 오류를 동시에 교정 가능한 전처리기를 제안한다. 제시된 알고리즘은 기존의 전처리기 알고리즘이 각 오류를 따로 해결하는 데에서 오는 한계를 극복하고, 기존의 noisy-channel model을 확장하여 대화체의 띄어쓰기 오류와 철자 오류를 동시에 효과적으로 교정할 수 있다. N-gram과 자소변환확률 등의 통계적 방법과 어절변환패턴 사전을 이용하여 최대한 사전을 적게 이용하면서도 효과적으로 교정 후보들을 생성할 수 있다. 실험을 통해 현재 단계에서는 만족할 만한 성능을 얻지는 못하였지만 오류 분석을 통하여 이와 같은 방법론이 실제로 효용성이 있음을 알 수 있었고 앞으로 더 많은 개선을 통해 일상적인 대화체 문장에 대해서 효과적인 전처리기로서 기능할 수 있을 것으로 기대된다.

한국어 경량형 띄어쓰기 교정 시스템의 구현 (An Implementation of a Lightweight Spacing-Error Correction System for Korean)

  • 송영길;김학수
    • 컴퓨터교육학회논문지
    • /
    • 제12권2호
    • /
    • pp.87-96
    • /
    • 2009
  • 본 논문에서는 기존의 규칙 기반 방법과 통계 기반 방법의 장점을 취하면서도 메모리 사용량이 적은 한국어 띄어쓰기 교정 시스템을 제안한다. 또한 철자 오류와 조사 생략이 빈번히 발생하는 모바일 구어체에 강건하도록 모델을 학습시키기 위해서 일반 구어체 말뭉치로부터 가상의 구어체 말뭉치를 자동으로 구축하는 방법을 제안한다. 제안 시스템은 새로운 음절 패턴에 대한 적용 범위를 증가시키기 위해서 음절 유니그램 통계 정보를 이용하며, 정밀도 향상을 위해서 음절 바이그램 이상의 오류 교정 규칙을 이용한다. 가상의 모바일 구어체 문장에 대한 실험 결과에 따르면 제안 시스템은 1MB 내외의 적은 메모리를 사용하면서도 92.10%(일반 구어체 말뭉치에서 93.80%, 일반 균형 말뭉치에서 94.07%)라는 비교적 높은 정밀도를 보였다.

  • PDF

교정사전과 신문기사 말뭉치를 이용한 한국어 철자 오류 교정 모델 (A Spelling Error Correction Model in Korean Using a Correction Dictionary and a Newspaper Corpus)

  • 이세희;김학수
    • 정보처리학회논문지B
    • /
    • 제16B권5호
    • /
    • pp.427-434
    • /
    • 2009
  • 인터넷 및 모바일 환경의 빠른 발전과 함께 신조어나 줄임말과 같은 철자 오류들을 포함하는 텍스트들이 활발히 통용되고 있다. 이러한 철자 오류들은 텍스트의 가독성을 떨어뜨림으로써 자연어처리 응용들을 개발하는데 걸림돌이 된다. 이러한 문제를 해결하기 위해서 본 논문에서는 철자오류 교정사전과 신문기사 말뭉치를 이용한 철자 오류 교정 모델을 제안한다. 제안 모델은 구하기 쉬운 신문기사 말뭉치를 학습 말뭉치로 사용하기 때문에 데이터 구축비용이 크지 않다는 장점이 있다. 또한 교정사전 기반의 단순 매칭 방법을 사용하기 때문에 띄어쓰기 교정 시스템이나 형태소 분석기와 같은 별도의 외부 모듈이 필요 없다는 장점이 있다. 신문기사 말뭉치와 실제 휴대폰에서 수집한 문자 메시지 말뭉치를 이용한 실험 결과, 제안 모델은 다양한 평가 척도에서 비교적 높은 성능(오교정률 7.3%, F1-척도 97.3%, 위양성율 1.1%)을 보였다.

딥러닝 기반 한국어 맞춤법 교정을 위한 오류 유형 분류 및 분석 (Classification and analysis of error types for deep learning-based Korean spelling correction)

  • 구선민;박찬준;소아람;임희석
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.65-74
    • /
    • 2021
  • 최근 기계 번역 기술과 자동 노이즈 생성 방법론을 기반으로 한국어 맞춤법 교정 연구가 활발히 이루어지고 있다. 해당 방법론들은 노이즈를 생성하여 학습 셋과 데이터 셋으로 사용한다. 이는 학습에 사용된 노이즈 외의 노이즈가 테스트 셋에 포함될 가능성이 낮아 정확한 성능 측정이 어렵다는 한계점이 존재한다. 또한 실제적인 오류 유형 분류 기준이 없어 연구마다 사용하는 오류 유형이 다르므로 질적 분석에 어려움을 겪고 있다. 이를 해결하기 위해 본 논문은 딥러닝 기반 한국어 맞춤법 교정 연구를 위한 새로운 '오류 유형 분류 체계'를 제안하며 이를 바탕으로 기존 상용화 한국어 맞춤법 교정기(시스템 A, 시스템 B, 시스템 C)에 대한 오류 분석을 수행하였다. 분석결과, 세 가지 교정 시스템들이 띄어쓰기 오류 외에 본 논문에서 제시한 다른 오류 유형은 교정을 잘 수행하지 못했으며 어순 오류나 시제 오류의 경우 오류 인식을 거의 하지 못함을 알 수 있었다.

SMS 변형된 문자열의 자동 오류 교정 시스템 (Automatic Error Correction System for Erroneous SMS Strings)

  • 강승식;장두성
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권6호
    • /
    • pp.386-391
    • /
    • 2008
  • 휴대폰과 메신저 등 통신 환경에서 문자 메시지를 전송할 때 표준어가 아닌 왜곡된 어휘들을 사용하고 있으며, 이러한 변형된 어휘들은 음성 인식, 음성 합성, 문서 정보 추출 등 언어처리 및 관련 분야의 응용 시스템에서 많은 문제점을 유발시킨다. 본 논문에서는SMS 문장들의 변형 및 띄어쓰기 오류를 자동으로 교정하여 형태소 분석 및 품사 태깅의 성능 저하 문제를 방지하는 문자열 오류의 교정 방법을 제안하고 시스템을 구현하였다. 시스템의 성능에 가장 큰 영향을 미치는 변형된 문자열 사전을 구축하는 방법으로 (1) 통신 어휘집을 기반으로 수동으로 구축하는 방법, (2) 수작업으로 구축된 말뭉치로부터 자동으로 변형된 문자열을 추출하는 방법, (3) 자동으로 변형된 문자열을 추출할 때 좌우 문맥을 고려하는 방법에 대하여 시스템을 구현하고 실험을 통하여 비교-분석 및 성능 평가 결과를 제시하였다.

셀프 서보 라이팅을 위한 상태공간 외란 관측기 기반의 제어기 설계 (State space disturbance observer based controller design for self servo writing)

  • 정연성;강현재;이충우;정정주;조규남;서상민;오동호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.129-130
    • /
    • 2007
  • Self servo track writing(SSTW)은 servo track writer(STW)를 이용하지 않고 hard disk drive의 내부 VCM을 이용하여 servo track을 기록하는 방식이다. SSTW는 이전 servo track을 상대적인 reference로 하여 기록하게 되므로 초기에 발생된 error와 외부의 disturbance의 영향으로 error는 급속하게 증가된다. 이것을 radial error propagation 이라 한다. 본 논문에서는 radial error propagation을 억제하기 위한 correction signal을 설계하고 servo writing 과정에서 발생하는 disturbance의 영향을 제거하기 위하여 disturbance observer(DOB)를 add-on type으로 구성하여 tracking 제어기를 설계하였다. 또한 DOB를 적용한 경우와 유사한 gain margin, phase margin과 sensitivity function을 갖는 제어기를 설계하여 그 성능을 비교하였다. 제안된 방식은 radial error propagation을 억제 하였을 뿐만 아니라 disturbance의 최소화하여 쓰여진 track의 DC track spacing과 AC track Squeeze가 개선된 것을 모의실험을 통하여 검증하였다.

  • PDF

Collimator Detector Response(CDR) 회복이 적용된 SPECT/CT에서 검출거리에 따른 정량적 정확성 평가 (The Evaluation of Quantitative Accuracy According to Detection Distance in SPECT/CT Applied to Collimator Detector Response(CDR) Recovery)

  • 김지현;손현수;이주영;박훈희
    • 핵의학기술
    • /
    • 제21권2호
    • /
    • pp.55-64
    • /
    • 2017
  • 최근 SPECT/CT의 보급과 함께 다양한 영상보정 방법들을 빠르고 정확하게 적용할 수 있게 되면서, 영상품질 향상과 더불어 정량적 정확성까지 기대할 수 있게 되었다. 그중 Collimator Detector Response (CDR) 회복(recovery)은 검출기면의 거리로부터 발생된 blurring 효과를 보상하여 분해능 회복을 목적으로 하는 보정방법이다. 본 연구에서는 SPECT/CT 영상에서 CDR recovery 가 적용되었을 때 검출거리 변화에 따른 정량적 변화를 알아보고자 하였다. 검출거리의 변화에 따른 획득 계수의 차이를 알아보고자 검출거리를 궤도방식(obit type)에 따라 Circular는 X, Y축 반경 30 cm, Non-Circular는 X, Y축 반경 21 cm, 10 cm, Non-Circular Auto(=Auto Body Contouring_ ABC, spacing limit 1 cm)로 설정하였고, 재구성 방법은 CDR recovery(CDRr)의 사용 유/무에 따른 계수 회복 차이를 알아보고자 OSEM (w/o CDRr)와 Astonish(3D-OSEM with CDRr)로 구분하여 적용하였다. 이 때 감쇠, 산란, 붕괴 보정은 모든 영상에 공통 적용하였다. 정량적 평가를 위해 교정인자(calibration factor_CF) 산출을 목적으로 교정영상(cylindrical phantom, $^{99m}TcO_4$ 123.3 MBq, 물 9293 ml)을 획득하였고, 팬텀 실험을 위하여 50 cc 주사기에 물 31 ml를 채우고 $^{99m}TcO_4$ 123.3 MBq를 설정하여 팬텀영상을 획득하였다. 팬텀 영상에서 주사기 전체 체적에 VOI(volume of interest)를 설정하여 각 조건별로 총 계수 값을 측정하였고, CF를 적용시켜 설정된 참값 대비 추정값의 오차를 구하여 보정에 따른 정량적 정확성을 확인하였다. 산출된 CF는 154.27 (Bq/ml/cps/ml)이며, 각 조건별 영상에서 참값 대비 추정값은 OSEM에서 Circular 86.5%, Non-Circular 90.1%, ABC 91.3% Astonish에서 Circular 93.6%, Non-Circular 93.6%, ABC 93.9%으로 분석되었다. OSEM은 검출거리가 가까울수록 정확성이 높아졌으며, Astonish의 경우에는 거리와 상관없이 거의 유사한 값을 나타내었다. 오차는 OSEM Circular(-13.5%)에서 가장 크고, Astonish ABC(-6.1%)에서 가장 적었다. SPECT/CT영상에서 CDR recovery 적용을 통한 거리보상이 이루어 졌을 때 검출거리가 먼 조건에서도 근접검출과 거의 동일한 정량적 정확성을 보였고, 검출거리의 변화에 영향을 받지 않고 정확한 보정이 가능한 것을 확인 할 수 있었다.

  • PDF

음성 인식 후처리를 위한 띄어쓰기 오류의 교정 (Word Spacing Error Correction for the Postprocessing of Speech Recognition)

  • 임동희;강승식;장두성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.25-27
    • /
    • 2006
  • 음성인식 결과는 띄어쓰기 오류가 포함되어 있으며 이는 인식 결과에 대한 이후의 정보처리를 어렵게 하는 요인이 된다. 본 논문은 음성 인식 결과의 띄어쓰기 오류를 수정하기 위하여 품사 정보를 이용한 어절 재결합 기법을 기본 알고리즘으로 사용하고 추가로 음절 바이그램 및 4-gram 정보를 이용하는 띄어쓰기 오류 교정 방법을 제안하였다. 또한, 음성인식기의 출력으로 품사 정보가 부착된 경우와 미부착된 경우에 대한 비교 실험을 하였다. 품사 미부착된 경우에는 사전을 이용하여 품사 정보를 복원하였으며 N-gram 통계 정보를 적용했을 때 기본적인 어절 재결합 알고리즘만을 사용 경우보다 띄어쓰기 정확도가 향상되는 것을 확인하였다.

  • PDF

도시효과를 고려한 일 최저기온의 월별 평년값 분포 추정 (Implementing the Urban Effect in an Interpolation Scheme for Monthly Normals of Daily Minimum Temperature)

  • 최재연;윤진일
    • 한국농림기상학회지
    • /
    • 제4권4호
    • /
    • pp.203-212
    • /
    • 2002
  • 주로 도시에 소재하는 표준기상관측소 자료의 공간 내삽에 의해 일 최저기온의 평년값을 추정할 때, 도시 열섬효과의 전이에 의해 전원지역에서 과다추정 되는 오류를 수정하기 위해 본 연구를 수행하였다. 도시열섬효과의 공간적인 확산을 모의하기 위해 먼저 불연속적인 변량인 시군 행정구역단위 인구를 지표피복도 상의 시가지 픽셀에만 할당하여 규칙적인 격자점 단위의 평균인구로 변환함으로써 연속적인 변량인 수치인구모형(DPM)으로 표현하였다. 다섯 가지 평활화 DPM 가운데 최적으로 판명된 사방 2.5 km DPM과 기온추정 오차간 회귀식을 기존의 거리-고도 보정 내삽과정에 결합하였다. 이 방법을 적용하여 추정된 평년(1971-2000) 월별 일 최저기온의 추정오차는 기존방법에 비해 최소 50%가 개선되었다.

산악지대의 일 최저기온 공간내삽모형 (A Spatial Interpolation Model for Daily Minimum Temperature over Mountainous Regions)

  • 윤진일;최재연;윤영관;정유란
    • 한국농림기상학회지
    • /
    • 제2권4호
    • /
    • pp.175-182
    • /
    • 2000
  • 표준관측소의 점 단위 기온 관측 및 예보값을 농업분야에서 활용하기 위해서는 공간내삽이 필요한 경우가 많지만 기후학적 평년값 같은 장기간의 평균값 내삽과는 달리 지형효과를 반영하기 어려워 거리역산가중법이 수정 없이 사용되고 있다. 우리 나라처럼 지형이 복잡한 산악지역에서는 수평 거리에만 의존한 내삽 결과에 심각한 오류가 포함될 수 있으므로, 영농지원 정보로서 중요한 일 최저기온을 대상으로 추정오차의 최대근원인 해발고도의 영향을 보정 할 수 있는 간단한 공간내삽모형을 작성하였다. 먼저 남한 육지 상에 위치한 63개 표준관측소에서 수집된 일 최저기온자료와 관측소의 위치, 해안으로부터 거리, 경사향, 표고 등 국지기온 결정인자를 회귀분석 하여 표고에 따른 기온감율 추정식을 날짜의 함수로 표현하였다. 63개 관측점의 표고값을 공간내삽 하여 재구성한 전국의 가상 지형으로부터 1 km$\times$ 1 km 공간단위의 전국 수치고도값 편차를 계산하고, 여기에 해당 날짜의 기온감율을 적용하여 보정값을 계산한다. 기존의 거리역산가중법에 의한 기온추정값을 이 보정값에 의해 수정함으로써 최종 기온값을 얻는다. 임의로 선발된 1999년의 월별 하루씩 총 12일에 대하여 이 모형과 기존 거리역산가중법을 각기 적용하여 267개 자동기상관측지점의 일 최저기온을 추정한후 실측값과 비교하였다 오차평균, 절대오차평균, 그리고 평방근오차평균 등 세가지 추정오차를 분석한 결과 이 방법이 거리역산가중법에 비해 산악지역에서의 일 최저기온 추정에 있어 뚜렷한 개선효과를 보였다.

  • PDF