• 제목/요약/키워드: N-그램 언어 모델

검색결과 18건 처리시간 0.021초

마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리 (Korean Word Segmentation and Compound-noun Decomposition Using Markov Chain and Syllable N-gram)

  • 권오욱
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.274-284
    • /
    • 2002
  • 한국어 대어휘 연속음성인식을 위한 텍스트 전처리에서 띄어쓰기 오류는 잘못된 단어를 인식 어휘에 포함시켜 언어모델의 성능을 저하시킨다. 본 논문에서는 텍스트 코퍼스의 띄어쓰기 교정을 위하여 한국어 음절 N-그램을 이용한 자동 띄어쓰기 알고리듬을 제시한다. 제시된 알고리듬에서는 주어진 입력음절열은 좌에서 우로의 천이만을 갖는 마코프 체인으로 표시되고 어떤 상태에서 같은 상태로의 천이에서 공백음절이 발생하며 다른 상태로의 천이에서는 주어진 음절이 발생한다고 가정한다. 마코프 체인에서 음절 단위 N-그램 언어모델에 의한 문장 확률이 가장 높은 경로를 찾음으로써 띄어쓰기 결과를 얻는다. 모든 공백을 삭제한 254문장으로 이루어진 신문 칼럼 말뭉치에 대하여 띄어쓰기 알고리듬을 적용한 결과 91.58%의 어절단위 정확도 및 96.69%의 음절 정확도를 나타내었다. 띄어쓰기 알고리듬을 응용한 줄바꿈에서의 공백 오류 처리에서 이 알고리듬은 91.00%에서 96.27%로 어절 정확도를 향상시켰으며, 복합명사 분리에서는 96.22%의 분리 정확도를 보였다.

무선 마크업 언어 문서의 객체 모델링을 통한 자바 기반 브라우징 시스템의 설계 및 구현 (Design and Implementation of Java based Browsing System using Wireless Markup Language Document Object Modeling)

  • 최은정;한동원;김태주;임경식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.271-273
    • /
    • 2001
  • 본 논문에서는 무선 마크업 언어의 특성을 고려하여 무선 환경에 적합한 무선 인터넷 컨텐츠인 바이너리 무선 마크업 언어 문서를 브라우징하기 위한 시스템을 설계, 구현하였다. 카드 랜더링 및 사용자와의 상호작용 시 브라우징 처리를 단순화하기 위해 문서를 개체 모델링하였다. 무선 마크업 언어 문서 객체 모델은 무선 마크업 언어 특성을 고려하여 설계되었으며, 브라우징 처리 시에 문서의 검색 및 편집을 용이하게 하는 장점을 가진다. 또한 문서객체 모델은 컨텐츠의 파싱과 브라우징 처리를 분리하는 역할을 하기도 한다. 본 논문의 브라우징 시스템은 자바를 기반으로 설계 및 구현되었기 때문에 플랫폼 독립적이며, 메모리나 디스크가 제한되어 있어 한번에 여러 개의 프로그램을 상주시킬 수 없는 단말의 경우 네트워크를 통해 동적으로 프로그램을 실행시킬 수 있다는 장점이 있다.

터치스크린 환경에서 쿼티 자판 오타 교정을 위한 n-gram 언어 모델 (N-gram based Language Model for the QWERTY Keyboard Input Errors in a Touch Screen Environment)

  • 옹윤지;강승식
    • 스마트미디어저널
    • /
    • 제7권2호
    • /
    • pp.54-59
    • /
    • 2018
  • 스마트폰과 태블릿PC 등 터치스크린을 활용한 휴대기기의 사용이 늘어나면서 데스크탑 컴퓨터나 노트북으로 수행하던 작업을 스마트폰과 태블릿PC를 이용하여 수행하는 일이 많아졌다. 그런데 휴대성을 갖춰야하는 스마트기기의 특성상, 쿼티 자판은 작은 화면 안에 조밀하게 배치된다. 그리고 이러한 점은 기계식 쿼티 자판을 사용할 때와는 다른 양상의 오타가 발생하는 원인으로 작용한다. 각 버튼이 차지하는 공간이 충분했던 기계식 쿼티 자판과 달리, 터치스크린에서의 쿼티 자판은 각 버튼에 할당되는 영역이 작아 사용자가 누르려고 의도했던 버튼이 아닌 주변의 버튼이 입력되는 경우가 자주 발생하게 된다. 본 논문에서는 어절 유니그램과 바이그램 확률을 이용한 n-gram 언어 모델 방법으로 터치스크린 환경에서 쿼티 자판으로 입력되는 문자 입력 오류를 자동으로 교정하는 방법을 제안하였다.

언어 모델 네트워크에 기반한 대어휘 연속 음성 인식 (Large Vocabulary Continuous Speech Recognition Based on Language Model Network)

  • 안동훈;정민화
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.543-551
    • /
    • 2002
  • 이 논문에서는 20,000 단어급의 대어휘를 대상으로 실시간 연속음성 인식을 수행할 수 있는 탐색 방법을 제안한다. 기본적인 탐색 방법은 토큰 전파 방식의 비터비 (Viterbi) 디코딩 알고리듬을 이용한 1 패스로 구성된다. 언어 모델 네트워크를 도입하여 다양한 언어 모델들을 일관된 탐색 공간으로 구성하도록 하였으며, 프루닝(pruning) 단계에서 살아남은 토큰들로부터 동적으로 탐색 공간을 재구성하였다. 용이한 후처리를 위해 워드그래프 및 N개의 최적 문장을 출력할 수 있도록 비터비 알고리듬을 수정하였다. 이렇게 구성된 디코더는 20,000 단어급 데이터 베이스에 대해 테스트하였으며 인식률 및 RTF측면에서 평가되었다.

다중스레드 모델의 스레드 코드를 분산환경에서 실행 가능한 자바 바이트 코드로 변환하기 위한 번역기 설계 (Design of Translator for generating Java Bytecode in Distributed environment from Thread code of Multithreaded Models)

  • 김기태;조선문;고훈준;이갑래;유원희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.49-51
    • /
    • 2001
  • 다중스레드 모델은 데이터플로우 모델의 내부적인 병렬성, 비동기적 자료 가용성과 폰 노이만 모델의 실행 지역성을 결합하여 병렬처리 시스템의 성능을 향상시켰다. 이 모델은 프로그램의 실행을 위하여 컴파일러에 의해 생성된 스레드를 수행하며, 스레드의 생성 방법에 따라 자원 활용 빈도나 동기화 빈도와 같은 스레드의 질이 결정되는 특징이 있다. 하지만 다중스레드 모델은 실행 모델이 특정 플랫폼에 제한되는 단점을 가지고 있다. 이에 반해 자바는 플랫폼에 독립거인 특징을 가지고 있어 다중스레드 모델의 스레드 코드를 실행 단위인 자바 언어로 변환하여 다중스레드 모델의 특징을 여러 플랫폼에서 수정 없이 사용할 수 있게 된다. 자바는 분산된 환경에 적합한 언어이기 때문에 본 논문에서 제안한 번역기에 의해 다중스레드 모델의 스레드 코드를 자바 언어로 변환한 후 자바의 원격 매소드 호출을 이용하여 다중스레드 모델의 스레드 코드를 분산된 환경에서 처리하였다. 본 논문은 다중스레드 코드가 로컬 컴퓨터에서 여러 스레드를 생성하여 처리하던 것을 자바의 원격 메소드 호출을 이용하여 분산된 환경에서 실행 가능하도록 한다. 다중스레드 모델의 스레드 코드를 분산 환경에서 실행 가능한 자바 바이트 코드로 변환하는 번역기를 설계, 구현한다.

이종의 통계정보를 이용한 품사 부착 기법 (Part-Of-Speech Tagging using multiple sources of statistical data)

  • 조세형
    • 한국지능시스템학회논문지
    • /
    • 제18권4호
    • /
    • pp.501-506
    • /
    • 2008
  • 통계적 방식의 품사부착 문제는 보통 N-그램과 같을 단일 통계정보를 활용하지만 단순한 통계 정보라는 원천적인 한계가 있어 많은 오류가 발생한다. 따라서 다양한 정보를 활용하는 것이 정확도를 높일 가능성이 있다는 데는 이론의 여지가 없다. 그러나 다른 종류의 통계 자료는 배타적 자료가 아닌 한 상충되는 정보를 가질 수밖에 없으므로 이러한 정보들로부터 어떻게 종합적인 결론을 내는가가 문제이다. 본 논문에서는 이러한 상이한 통계정보를 통합하는 방법으로 언어 모델의 구성에서 활용된 바 있는 최대엔트로피 모델의 한국어 품사 부착에의 사용 가능성을 제시한다. 여기서는 이종의 통계정보로서 N그램과, 트리거 쌍을 사용하게 된다. 이러한 트리거 쌍 통계정보를 N그램과 함께 최대엔트로피 모델링을 했을 경우 퍼플렉시티가 어떻게 변화하는지에 대한 실험결과를 관찰하게 될 것이다. 트리거 쌍은 또한 다양하게 문맥사이즈를 변화할 수 있으며, N그램의 확률 모델도 다양하기 때문에 여러 종류의 실험을 통한 많은 향상을 예상 할 수 있다. 본 실험에서는 단일 모델 사용시 94.9 %의 정확도를 가진 3-그램 모델에 트리거 쌍을 최대 엔트로피 방식으로 추가한 견우 95.6% 의 정확도를 보여 0.7% 포인트의 정확도 향상을 기록하였다. 따라서 향후 다양한 정보원을 개발하여 최대엔트로피 방식으로 통합할 경우 지속적인 정확도 향상을 가져 올 수 있는 가능성을 보여준다고 할 수 있다.

FastText 와 BERT 를 이용한 자동 용어 추출 (FastText and BERT for Automatic Term Extraction)

  • 최규현;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.612-616
    • /
    • 2021
  • 자연어 처리의 다양한 task 들을 잘 수행하기 위해서 텍스트 내에서 적절한 용어를 골라내는 것은 중요하다. 텍스트에서 적절한 용어들을 자동으로 추출하기 위해 다양한 모델들을 학습시켜 용어의 특성을 잘 반영하는 n 그램을 추출할 수 있다. 본 연구에서는 기존에 존재하는 신경망 모델들을 조합하여 자동 용어 추출 성능을 개선할 수 있는 방법들을 제시하고 각각의 결과들을 비교한다.

  • PDF

C++ 언어를 위한 체계적 단정문 기능 (A Systematic Assertion Mechanism for C++)

  • 김재우;김명호;김중배;김성훈;박찬규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.434-436
    • /
    • 1998
  • 본 논문에서는 C++ 언어를 이용한 부품 개발 과정에서 단정문을 체계적으로 활용할 수 있도록 하는 기능을 제안하였다. 제안된 기능을 Eiffel의 Design-by Contract시스템과 유사하게 동작하므로 C++ 언어의 객체 모델을 이용하여 구현되었으며 별도의 소프트웨어 없이 라이브러리 형태로 간편하게 사용할 수 있도록 설계하였다. 또한 이를 C++의 표준라이브러리를 사용하여 실험적으로 구현하였다. 제안된 기능을 사용하는 경우 단정문 처리를 위한 복잡한 코드가 추상화되어 실제 프로그램 코드와 체계적으로 분리되므로 작성된 프로그램을 문서화하고 개발된 부품을 유지보수를 용이하게 한다.

호텔예약을 위한 자동통역 시스템 (An Experimental Speech Translation System for Hotel Reservation)

  • 구명완;김웅인;김재인;도삼주;강용범;박상규;손일현;김우성;장두성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.105-108
    • /
    • 1995
  • 한국에 있는 손님이 한국어 만을 사용하여 일본 호텔을 예약할 수 있도록 해 주는 한일간 자동통역 시연 시스템에 관해 기술하였다. 이 시스템은 한국어 음성인식부, 한일 기계번역부, 한국어 음성합성부로 구성되어 있다. 한국어 음성인식부는 기본적으로 HMM을 이용하는 화자독립, 약 300단어급 연속음성인식 시스템으로서 전향 언어 모델로 바이그램 언어 모델, 후향 언어 모델로는 의존 문법을 사용하여 N-BEST 문장을 생성해낸다. 실험결과, 단어 인식률은 top1 문장에 대해 약 94.5%, top5 문장에 대해 약 94.7%의 인식률을 얻었다. 인식 시간은 길이가 다른 여러 문장들에 대해 약 0.1~3초가 걸렸다. 기계번역부에서는 음성인식에서 의존 문법을 사용하여 분석된 파싱 결과를 이용, 직접 번역 방식을 채택하여 일본어를 생성한다. 음성 합성부는 반음소를 합서의 기본단위로 하고, 합성방식으로는 주기 파형 분해 및 재배치 방식으로 하였다. 실험 환경은 2 CPU를 장착한 SPARC 20 workstation 이었으며 실시간 특징 추출을 위해 TMS320C30 DSP 보드 1개를 이용하였다.

  • PDF

복합명사의 통계적 처리에 대한 평가 (The evaluation of statistic processing on korean compound nouns)

  • 남세진;이지연;신동욱;채미옥
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.36-41
    • /
    • 1996
  • 한글을 대상으로 하는 검색 시스템의 강우 문서의 대부분을 차지하는 복합명사는 원칙적으로 단어와 단어 사이를 띄어 써야 하지만 붙여쓰기 또한 허용하므로 정보 검색 시스템에서는 이를 고려하여야 한다. 본 논문에서는 MIDAS/IR 정보검색 시스템에서 통계적인 정보를 이용하여 복합명사를 처리하는 방법을 구현하고 이를 실험을 통하여 평가하고자 한다. MIDAS/IR은 크게 복합명사의 통계적인 정보를 이용하는 색인 부분과 확장 불리한 모델 및 벡터 공간 모델을 제공하는 검색 부분으로 이루어져 있다. 색인기에서는 복합명사를 처리할 뿐 아니라 고유명사와 같이 사전에 등록되지 않은 명사를 처리하는 작업을 하게 되며 검색 부분은 클래스 라이브러리로 구현되어 있어 임의의 검색 모델도 쉽게 추가 될 수 있도록 설계하였다. 본 연구에서는 KTSET을 이용하여 불리한 모델 및 벡타 공간 모델에서의 성능을 실험을 통하여 평가하였으며, n-그램을 사용한 시스템과 비교 분석하였다.

  • PDF