• Title/Summary/Keyword: 한국어 어절

검색결과 364건 처리시간 0.023초

형태소 분석을 이용한 문자인식 에러의 검출 (A Method of Detecting of OCR error using Morphological Analysis)

  • 김윤호;이종국;김항준;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.545-553
    • /
    • 1992
  • 문자인식에 있어서 인식율을 높이기 위한 후처리의 한 방법으로서, 문법 정보를 이용하는 후처리를 제안하고자 한다. 즉, 문자 인식 시스템에 의해 인식된 국어문에 대해서 오인식된 문자를 포함하는 어절을 검출하고, 오인식된 문자의 적절한 후보를 선정하여 그에 따라 자동수정을 행하는 것을 전채 후처리 과정으로 전제한다. 본 논문에서는 형태소 분석을 통해 오인식된 부분을 검출하는 과정을 보임으로써 문자인식에 있어서 문법 정보를 이용하는 후처리의 가능성과 그 유효성을 보이는 것을 목적으로 한다.

  • PDF

한글 텍스트 검색을 위한 요약 화일 기법에 관한 연구 (A Reasearch on Signature File Methods for Korean Text Retrieval)

  • 송병호;이석호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.231-237
    • /
    • 1991
  • 텍스트에 대한 내용 본위 검색 기법으로서 요약 화일(signature file) 기법은 역화일(inverted file)이 허용되지 않을 때 매우 유용하다. 그러나 한글은 영문과 달리 어절의 형성이 복잡하고 띄어쓰기 형태가 고정되지 않음에 따라 기존의 단어 위주 영문 본위 요약 화일 기법을 그대로 적용시킬 수 없다. 본 논문에서는 이를 위하여 띄어쓰기를 무시하고 중복된 2음절 패턴을 도출하여 요약 화일을 구성, 검색하는 기법을 제안한다. 이 기법은 일본어, 중국어 등 비슷한 문제를 가진 외국어에도 적용될 수 있다.

  • PDF

시간 표현에 대한 부분 문법 기술 및 FST를 이용한 시간 구문 분석 (Representation of Local Grammar for Temporal Expression and Analysis of Temporal Phrase with FST)

  • 김윤관;윤준태;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.231-236
    • /
    • 1999
  • 시간표현은 문장에서 다른 명사와 결합하여 복합어를 이루는 경우가 있고, 용언과 결합하여 시간 부사의 역할을 하는 경우가 있는데, 이는 구문 분석에 있어서 중의적 해석이 두드러지며, 그 결과 구문 분석의 오류를 빈번히 야기하기도 한다. 본 논문에서는 이러한 시간 관계의 표현을 대량의 말뭉치로부터 획득하고 이들을 부분문법(local grammar)으로 표현한 후, 이것을 FST(Finite State Transducer)를 이용하여 부분 구문분석을 하고자 한다. 이를 위해 5천만 어절의 말뭉치에서 259개의 시간 단어를 추출하였고, 시간 단어들의 의미적 또는 기능적 사용에 의해서 26개의 어휘 범주로 분류하고 각 범주들의 결합관계를 일반화하였다. 실험을 통하여 인식을 위한 시간표현의 결합관계는 최고 97.2%의 정확률을 보였고, 품사태깅에 있어서는 평균 96.8%의 정확률을 보였다. 이는 시간 표현의 결합관계가 부분 구문분석에 있어서 유용한 정보임을 보여준다.

  • PDF

단어 임베딩을 이용한 단위성 의존명사 분별 (Disambiguation of Counting Unit Noun using Word Embedding)

  • 이주상;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-248
    • /
    • 2016
  • 단위성 의존명사는 수나 분량 따위를 나타내는 의존명사로 혼자 사용할 수 없으며 수사나 수관형사와 함께 사용하는 의존명사이다. 단위성 의존명사가 2가지 이상인 동형이의어의 경우 기존의 인접 어절을 이용한 동형이의어 분별 모델에서는 동형이의어 분별에 어려움이 있다. 본 논문에서는 단위성 의존명사 분별을 위해 단어 임베딩을 사용했으며 총 115,767개의 단어를 벡터로 표현하였으며 분별할 의존명사 주변에 등장한 명사들과의 유사도를 계산하여 단위성 의존명사를 분별하였다. 단어 임베딩을 이용한 단위성 의존명사 분별이 효과가 있음을 보았다.

  • PDF

글자꼴, 글줄길이, 글줄모양과 한글의 가독성 (The Factors In Reading Hangul Text : font width-to-height ratio of a letter, line length)

  • 이수정;정우현;정찬섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.193-205
    • /
    • 1993
  • 한글의 글자꼴과 장평율 그리고 글줄 길이와 글줄꼴 처리 방식이 가독성에 미치는 효과를 측정하였다. 글자꼴은 명조체, 고딕체, 샘물체를 사용하였고, 장평율은 글자의 가로 대 세로 비율을 1 대 1, 1 대 2 그리고 2 대 1로 변형시킨 세 가지를 사용하였다. 글줄 길이는 60mm와 120mm의 두 가지로 하였고 글줄 끝에서 음절 단위로 끊어 쓴 문장과 어절 단위로 끊어 쓰되 띄어쓰기 여백을 조절한 문장과 조절하지 않은 문장을 사용하였다. 연구결과, 글자꼴에서는 명조체와 고딕체의 가독성이 샘물체보다 좋았고, 가로 대 세로의 비율이 1 대 1이거나 1 대 2인 글자의 가독성이 2 대 1인 글자의 가독성보다 우수하였다. 이러한 연구 결과는 한글 정보 처리 과정에서 자모보다 글자가 중요한 시각 정보로 사용되고 한번 응시하는 동안에 표집되는 글자수가 가독성에 영향을 미칠 수 있다는 사실을 시사한다. 글줄 길이는 120mm일 때의 가독성이 더 좋았고 글줄 끝처리 방식은 가독성에 영향을 미치지 않는 것으로 나타났다.

  • PDF

띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델 (A joint statistical model for word spacing and spelling error correction)

  • 노형종;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.25-31
    • /
    • 2006
  • 본 논문에서는 띄어쓰기 오류와 철자 오류를 동시에 교정 가능한 전처리기를 제안한다. 제시된 알고리즘은 기존의 전처리기 알고리즘이 각 오류를 따로 해결하는 데에서 오는 한계를 극복하고, 기존의 noisy-channel model을 확장하여 대화체의 띄어쓰기 오류와 철자오류를 동시에 효과적으로 교정할 수 있다. N-gram과 자소변환확률 등의 통계적 방법과 어절변환패턴 사전을 이용하여 최대한 사전을 적게 이용하면서도 효과적으로 교정 후보들을 생성할 수 있다. 실험을 통해 현재 단계에서는 만족할 만한 성능을 얻지는 못하였지만 오류 분석을 통하여 이와 같은 방법론이 실제로 효용성이 있음을 알 수 있었고 앞으로 더 많은 개선을 통해 일상적인 대화체 문장에 대해서 효과적인 전처리기로서 기능할 수 있을 것으로 기대 된다.

  • PDF

자동 정렬을 통한 영한 복합어의 역어 추출 (Extraction of English-Korean Compound Noun Translation through Automatic Alignment Method)

  • 이주호;최기선;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.309-314
    • /
    • 2000
  • 본 논문에서는 양국어로 된 병렬 코퍼스로부터 복합어의 역어를 추출하기 위한 정렬 방법을 제시한다. 여기에서는 개념어에 대한 양국어 공기정보를 사용하여 기본 정렬을 하고, 인접한 개념어로 정렬의 단위를 확장했다. 또한 재추정 기법을 사용하여 대역 확률을 계산함으로써 보다 높은 정확률을 얻을 수 있었다. 본 논문에서 제안한 방법을 적용하여 139,265개의 영어 어절로 이루어진 우루과이 라운드 영한 병렬 코퍼스에 대해서 실험한 결과 2,290개의 대역어 쌍을 얻었고, 그 정확률은 74%였다.

  • PDF

의학용 영어 품사 태거 구현 (Implementation of an English POS Tagger for Medical)

  • 이현구;안혁주;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.155-156
    • /
    • 2015
  • 자연어처리의 여러 분야에서 기본요소로 사용되는 영어 품사 태거를 UMLS의 의학용어 어휘정보와 OANC(Open American National Corpus) 말뭉치를 이용해 의학용 문서도 분석 가능한 의학용 영어 품사 태거를 제안한다. TRIE구조를 이용한 단어 묶음 모델로 여러 어절의 의학용어를 하나로 묶고 HMM(Hiden Markov Model)을 이용한 품사 태거로 해당하는 품사를 부착한다.

  • PDF

어절 내부 의존관계를 고려한 확률 의존 문법 학습 (Probabilistic Dependency Grammar Induction using Internal Dependency Relation in Words)

  • 최선화;박혁로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.507-510
    • /
    • 2001
  • 본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 특히 의존 문법 생성을 위해 확률 재추정 알고리즘을 의존문법생성에 맞도록 변형하여 학습하였으며 정확한 문법 생성 및 회귀데이터(Data Sparseness)문제 해결을 위해서 구성요소의 대표 지배소들 간의 의존관계 만을 학습했던 기존 연구와는 달리 구성요소 내부의 의존관계까지 학습하는 방법을 제안한다. KAIST 의 트리 부착 코퍼스 31,086 문장에서 추출한 25,000 문장의 Tagged Corpus 을 가지고 한국어 확률 의존 문법 학습을 시도 하였다. 그 결과 초기문법을 10.97% 에서 23.73% 까지 줄인 2,349 개의 정확한 문법을 얻을 수 있었다. 문법의 정확성을 실험 하기 위해 350 개의 실험문장을 Parsing 한 결과 69.61%의 파싱 정확도를 보였다. 이로서 구성요소 내부의 의존관계 학습으로 얻어진 의존문법이 더 정확했으며, 회귀데이터 문제 또한 극복할 수 있음을 알 수 있었다.

  • PDF

기계 번역 의미 대역 패턴을 이용한 한국어 복합 명사 의미 결정 방법 (A Method of Word Sense Disambiguation for Korean Complex Noun Phrase Using Verb-Phrase Pattern and Predicative Noun)

  • 양성일;김영길;박상규;나동렬
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-251
    • /
    • 2003
  • 한국어의 언어적 특성에 의해 빈번하게 등장하는 명사와 기능어의 나열은 기능어나 연결 구문의 잦은 생략현상에 의해 복합 명사의 출현을 발생시킨다. 따라서, 한국어 분석에서 복합 명사의 처리 방법은 매우 중요한 문제로 인식되었으며 활발한 연구가 진행되어 왔다. 복합 명사의 의미 결정은 복합 명사구 내 단위 명사간의 의미적인 수식 관계를 고려하여 머리어의 선택과 의미를 함께 결정할 필요가 있다. 본 논문에서는 정보 검색의 색인어 추출 방법에서 사용되는 복합 명사구 내의 서술성 명사 처리를 이용하여 복합 명사의 의미 결정을 인접 명사의 의미 공기 정보가 아닌 구문관계에 따른 의미 공기 정보를 사용하여 분석하는 방법을 제시한다. 복합 명사구 내에서 구문적인 관계는 명사구 내에 서술성 명사가 등장하는 경우 보-술 관계에 의한 격 결정 문제로 전환할 수 있다. 이러한 구문 구조는 명사 의미를 결정할 수 있는 추가적인 정보로 활용할 수 있으며, 이때 구문 구조 파악을 위해 구축된 의미 제약 조건을 활용하도록 한다. 구조 분석에서 사용되는 격틀 정보는 동사와 공기하는 명사의 구문 관계를 분석하기 위해 의미 정보를 제약조건으로 하여 구축된다. 이러한 의미 격틀 정보는 단문 내 명사들의 격 결정과 격을 채우는 명사 의미를 결정할 수 있는 정보로 활용된다. 본 논문에서는 현재 개발중인 한영 기계 번역 시스템 Tellus-KE의 단문 단위 대역어 선정을 위해 구축된 의미 대역패턴인 동사구 패턴을 사용한다. 동사구 패턴에 기술된 한국어의 단문 단위 의미 격 정보를 사용하는 경우, 격결정을 위해 사용되는 의미 제약 조건이 복합 명사의 중심어 선택과 의미 결정에 재활용 될 수 있으며, 병렬말뭉치에 의해 반자동으로 구축되는 의미 대역 패턴을 사용하여 데이터 구축의 어려움을 개선하고자 한다. 및 산출 과정에 즉각적으로 활용될 수 있을 것이다. 또한, 이러한 정보들은 현재 구축중인 세종 전자사전에도 직접 반영되고 있다.teness)은 언화행위가 성공적이라는 것이다.[J. Searle] (7) 수로 쓰인 것(상수)(象數)과 시로 쓰인 것(의리)(義理)이 하나인 것은 그 나타난 것과 나타나지 않은 것들 사이에 어떠한 들도 없음을 말한다. [(성중영)(成中英)] (8) 공통의 규범의 공통성 속에 규범적인 측면이 벌써 있다. 공통성에서 개인적이 아닌 공적인 규범으로의 전이는 규범, 가치, 규칙, 과정, 제도로의 전이라고 본다. [C. Morrison] (9) 우리의 언어사용에 신비적인 요소를 부인할 수가 없다. 넓은 의미의 발화의미(utterance meaning) 속에 신비적인 요소나 애정표시도 수용된다. 의미분석은 지금 한글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\ulcorner$한국어사전$\lrcorner$ 등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다.반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에 따라 단백질(蛋白質) 함량(含量)도 증가(增加)하였다. 7. CHS-13 균주(菌株)의 RNA 함량(

  • PDF