• 제목/요약/키워드: lexical information

검색결과 324건 처리시간 0.027초

접속 특성과 말마디 사전을 이용한 형태소 분석 (Morphological Analysis with Adjacency Attributes and Phrase Dictionary)

  • 임권묵;송만석
    • 한국정보처리학회논문지
    • /
    • 제1권1호
    • /
    • pp.129-139
    • /
    • 1994
  • 본 논문은 형태소의 접속 특성과 대형 말뭉치(corpus)로부터 추출된 중의성 말마 디의 인접 정보를 이용해서 한국어 형태소 분석기를 구현한다. 일반적으로 말마디는 형태소의 접속 특성과 결합규칙을 적용함으로써 하나의 결과로 분석될 수 있으나 중 의성 말마디는 가능한 결과들로부터 적절한 하나를 선택하기 위해서 인접말마디 정보 나 문법 정보 또는 문맥 정보 등이 요구된다. 그러나 문법 정보와 문맥정보는 구문 분석과 의미분석 단계를 거쳐야만 가능하기 때문에 여기서는 표층적인 정보로서 인접 말마디 정보를 이용한 중의성 해결을 시도하였다. 형태소의 접속 특성과 중의성 말마 디의 인접 정보를 사전에 수록함으로써 축약어와 불필요한 결과를 제시하는 말마디 그리고 중의성 말마디까지도 형태소 분석이 거의 가능하게 된다. 본 분석기의 효능은 정확하고 풍부한 정보를 사전에 효율적으로 수록함으로써 이룩될 것이며, 이를 위해 형태소 사전과 말마디 사전을 데이타베이스로 설계하고, 필요한 정보 들을 대형 말뭉 치로부터 추출하여 사전에 저장한다.

  • PDF

워드넷을 이용한 문서내에서 단어 사이의 의미적 유사도 측정 (Semantic Similarity Measures Between Words within a Document using WordNet)

  • 강석훈;박종민
    • 한국산학기술학회논문지
    • /
    • 제16권11호
    • /
    • pp.7718-7728
    • /
    • 2015
  • 단어 사이의 의미적 유사성은 많은 분야에 적용 될 수 있다. 예를 들면 컴퓨터 언어학, 인공지능, 정보처리 분야이다. 본 논문에서 우리는 단어 사이의 의미적 유사성을 측정하는 문서 내의 단어 가중치 적용 방법을 제시한다. 이 방법은 워드넷의 간선의 거리와 깊이를 고려한다. 그리고 문서 내의 정보를 기반으로 단어 사이의 의미적 유사성을 구한다. 문서 내의 정보는 단어의 빈도수와 단어의 의미 빈도수를 사용한다. 문서 내에서 단어 마다 단어 빈도수와 의미 빈도수를 통해 각 단어의 가중치를 구한다. 본 방법은 단어 사이의 거리, 깊이, 그리고 문서 내의 단어 가중치 3가지를 혼합한 유사도 측정 방법이다. 실험을 통하여 기존의 다른 방법과 성능을 비교하였다. 그 결과 기존 방법에 대비하여 성능의 향상을 가져왔다. 이를 통해 문서 내에서 단어의 가중치를 문서 마다 구할 수 있다. 단순한 최단거리 기반의 방법들과 깊이를 고려한 기존의 방법들은, 정보에 대한 특성을 제대로 표현하지 못했거나 다른 정보를 제대로 융합하지 못했다. 본 논문에서는 최단거리와 깊이 그리고 문서 내에서 단어의 정보량까지 고려하였고, 성능의 개선을 보였다.

동철이음어 처리 과정에서 형태와 의미 정보의 영향 (Effect of orthographic, phonological and semantic information on the processes of Korean heteronym)

  • 김태훈;조증열;이윤형
    • 한국산학기술학회논문지
    • /
    • 제16권6호
    • /
    • pp.3819-3828
    • /
    • 2015
  • 본 연구에서는 중의어 중 한 가지 유형인 한국어 동철이음어의 처리 과정의 탐색을 통해 단어를 이해하는 과정에서 논쟁이 되고 있는 형태(표기 및 음운) 정보와 의미 정보의 영향을 알아보았다. 이를 위해 선행 자극이 먼저 제시되고 목표 자극이 이후에 제시되는 점화 과제를 사용하여 형태와 의미 정보의 촉진 효과를 확인해 보았다. 실험 1에서는 동철이음어의 표기 및 음운 정보와 관련된 자극을 점화 자극으로 제시하였고 실험 2에서는 의미와 관련된 자극을 점화 자극으로 제시하여 단어/비단어 여부를 판단하는 어휘판단과제를 실시하였다. 그 결과 형태 관련 정보는 유의미한 영향을 주지 않았으나 의미 관련 정보는 단어 여부 판단을 빠르게 하는 촉진 효과를 보여 주었다. 이러한 결과는 동철이음어 처리 과정에서 형태 관련 정보에 비해 의미 관련 정보의 영향이 중요하게 작용하고 있음을 시사한다.

The Unsupervised Learning-based Language Modeling of Word Comprehension in Korean

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권11호
    • /
    • pp.41-49
    • /
    • 2019
  • 본 연구는 비지도 기계학습 기술과 코퍼스의 각 단어를 이용하여 한국어 단어를 형태소 분석하는 언어 모델을 구축하는데 목적을 둔다. 그리고 이 언어 모델의 단어 형태소 분석의 결과와 언어 심리 실험결과에서 얻은 한국어 언어사용자의 단어 이해/판단 시간이 상관관계을 갖는지를 규명하고자 한다. 논문에서는 한국어 세종코퍼스를 언어 모델로 학습하여 형태소 분리 규칙을 통해 한국어 단어를 자동 분리하는데 발생하는 단어 정보량(즉, surprisal(놀라움) 정도)을 측정하여 실제 단어를 읽는데 걸리는 반응 시간과 상관이 있는지 분석하였다. 이를 위해 코퍼스에서 단어에 대한 형태 구조 정보를 파악하기 위해 Morfessor 알고리즘을 적용하여 단어의 하위 단위 분리와 관련한 문법/패턴을 추출하고 형태소를 분석하는 언어 모델이 예측하는 정보량과 반응 시간 사이의 상관관계를 알아보기 위하여 선형 혼합 회귀(linear mixed regression) 모형을 설계하였다. 제안된 비지도 기계학습의 언어 모델은 파생단어를 d-형태소로 분석해서 파생단어의 음절의 형태로 처리를 하였다. 파생단어를 처리하는 데 필요한 사람의 인지 노력의 양 즉, 판독 시간 효과가 실제로 형태소 분류하는 기계학습 모델에 의한 단어 처리/이해로부터 초래될 수 있는 놀라움과 상관함을 보여 주었다. 본 연구는 놀라움의 가설 즉, 놀라움 효과는 단어 읽기 또는 처리 인지 노력과 관련이 있다는 가설을 뒷받침함을 확인하였다.

표층 구문 타입을 사용한 조건부 연산 모델의 일반화 LR 파서 (Generalized LR Parser with Conditional Action Model(CAM) using Surface Phrasal Types)

  • 곽용재;박소영;황영숙;정후중;이상주;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권1_2호
    • /
    • pp.81-92
    • /
    • 2003
  • 일반화 LR(Generalized LR, 이하 GLR) 파싱은 선형 스택을 사용하는 전통적인 LR 파싱 방식의 한계를 극복하도록 만들어진 LR 파싱 기법의 하나로서, LR 기법에 여러 가지 매커니즘을 통합하여 자연어 파싱에 응용하는 작업의 토대가 되어 왔다. 본 논문에서는 기존의 확률적 LR 파싱 기법이 가지고 있는 문제를 개선한 조건부 연산 모델(Conditional Action Model)을 제안한다. 기존의 확률적 LR 파싱 기법은 그래프 구조 스택의 복잡성으로 인해 상대적으로 제한된 문맥 정보만을 사용하여 왔다. 제안된 모델은 부분 생성 파스의 표현을 위하여 표층 구문 타입(Surface Phrasal Type)을 사용하여 그래프 구조 스택에 들어 있는 구문 구조를 기술함으로써 좀 더 세분된 구조적 선호도를 파서에 반영시킬 수 있다. 실험 결과, 어휘를 고려하지 않고 학습한 조건부 연산 모델로 구현된 본 GLR 파서는 기존의 방식보다 약 6-7%의 정확도 향상을 보였으며, 본 모델을 통해 풍부한 스택 정보를 확률적 LR 파서의 구조적 중의성 해결에 효과적으로 사용할 수 있음을 보였다.

텍스트 구성요소 판별 기법과 자질을 이용한 문서 요약 시스템의 개발 및 평가 (Development and Evaluation of a Document Summarization System using Features and a Text Component Identification Method)

  • 장동현;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.678-689
    • /
    • 2000
  • 논 본문은 문서의 주요 내용을 나타내는 문장을 추출함으로써 요약문을 작성하는 자동 요약 기법에 대해 기술하고 있다. 개발한 시스템은 문서 집합으로부터 추출한 어휘적, 통계적 정보를 고려하여 요약 문장을 작성하는 모델이다. 시스템은 크게 두 부분, 학습과정과 요약과정으로 구성이 된다. 학습 과정은 수동으로 작성한 요약문장으로부터 다양한 통계적인 정보를 추출하는 단계이며, 요약 과정은 학습 과정에서 추출한 정보를 이용하여 각 문장이 요약문장에 포함될 가능성을 계산하는 과정이다. 본 연구는 크게 세 가지 의의를 갖는다. 첫째, 개발된 시스템은 각 문장을 텍스트 구성 요소의 하나로 분류하는 텍스트 구성 요소 판별 모델을 사용한다. 이 과정을 통해 요약 문장에 포함될 가능성이 없는 문장을 미리 제거하는 효과를 얻게 된다. 둘째, 개발한 시스템이 영어 기반의 시스템을 발전시킨 것이지만, 각각의 자질을 독립적으로 요약에 적용시켰으며, Dempster-Shafer 규칙을 사용해서 다양한 자질의 확률 값을 혼합함으로써 문장이 요약문에 포함될 최종 확률을 계산하게 된다. 셋째, 기존의 시스템에서 사용하지 않은 새로운 자질 (feature)을 사용하였으며, 실험을 통하여 각각의 자질이 요약 시스템의 성능에 미치는 효과를 알아보았다.

  • PDF

한글 일음절 단어처리에서의 음운정보의 역할 (The Role of Phonological Information in Korean Monosyllabic Word Processing)

  • 김연희;이창환
    • 인지과학
    • /
    • 제15권1호
    • /
    • pp.35-41
    • /
    • 2004
  • 한글단어가 음운경로를 통해 처리되는지 아닌지를 알아보고 단어재인의 어느 단계에서 음운 정보의 영향을 주로 받는지 알아보기 위하여, 1음절 단어를 사용하고 철자를 지연시키는 실험올 하였다. 두 개의 초점조건은 옴가가 있는 철자를 지연시키거나 묵음을 지연시키는 조건이었다. 실험 1에서는 음운정보가 단어재인 초기에 영향을 미치는지 또는 후기 과정에서 영향을 미치는지 알아 보기 위하여, 점화자극을 l50ms와 250ms로 제시한 명명과제를 실시하였다, 그 결과 150ms로 점화자극 을 제시하였을 때에는 음가조건파 정화자극제시여부간의 유의한 상호작용이 나타나 묵음조건에서는 점화자극 제시에 따라 목표자극이 촉진된 반면 유음조건에서는 점화자극 제시에 따른 효과가 없었다. '반면, 250ms로 정화자극이 제시되었을 때에는 유의한 상호작용효파가 나타나지 않았다. 실험 2에서는 어휘 판단과제를 통해 실험 1의 결과가 일반화되는지를 살펴보았다 그 결과, 실험l과 마찬가지로 150ms로 정화자극을 제시하였을 때에는 음가조건과 점화자극제시여부 간의 유의한 상호작용이 나타났으나, 점화자극을 250ms로 제시한 경우에는 유의한 상호작용이 나타나지 않았다. 이상의 결과는 한글단어가 음운경로를 통해 처리되고, 주로 단어재인과정의 초기 단계에서 음운정보가 개입함을 시사한다.

  • PDF

Part-of-speech Tagging for Hindi Corpus in Poor Resource Scenario

  • Modi, Deepa;Nain, Neeta;Nehra, Maninder
    • Journal of Multimedia Information System
    • /
    • 제5권3호
    • /
    • pp.147-154
    • /
    • 2018
  • Natural language processing (NLP) is an emerging research area in which we study how machines can be used to perceive and alter the text written in natural languages. We can perform different tasks on natural languages by analyzing them through various annotational tasks like parsing, chunking, part-of-speech tagging and lexical analysis etc. These annotational tasks depend on morphological structure of a particular natural language. The focus of this work is part-of-speech tagging (POS tagging) on Hindi language. Part-of-speech tagging also known as grammatical tagging is a process of assigning different grammatical categories to each word of a given text. These grammatical categories can be noun, verb, time, date, number etc. Hindi is the most widely used and official language of India. It is also among the top five most spoken languages of the world. For English and other languages, a diverse range of POS taggers are available, but these POS taggers can not be applied on the Hindi language as Hindi is one of the most morphologically rich language. Furthermore there is a significant difference between the morphological structures of these languages. Thus in this work, a POS tagger system is presented for the Hindi language. For Hindi POS tagging a hybrid approach is presented in this paper which combines "Probability-based and Rule-based" approaches. For known word tagging a Unigram model of probability class is used, whereas for tagging unknown words various lexical and contextual features are used. Various finite state machine automata are constructed for demonstrating different rules and then regular expressions are used to implement these rules. A tagset is also prepared for this task, which contains 29 standard part-of-speech tags. The tagset also includes two unique tags, i.e., date tag and time tag. These date and time tags support all possible formats. Regular expressions are used to implement all pattern based tags like time, date, number and special symbols. The aim of the presented approach is to increase the correctness of an automatic Hindi POS tagging while bounding the requirement of a large human-made corpus. This hybrid approach uses a probability-based model to increase automatic tagging and a rule-based model to bound the requirement of an already trained corpus. This approach is based on very small labeled training set (around 9,000 words) and yields 96.54% of best precision and 95.08% of average precision. The approach also yields best accuracy of 91.39% and an average accuracy of 88.15%.

그래프 구조를 이용한 카테고리 구조로부터 상하위 관계 추출 (Graph-based ISA/instanceOf Relation Extraction from Category Structure)

  • 최동현;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권6호
    • /
    • pp.464-469
    • /
    • 2010
  • 상하위 관계 자동 추출은 분류체계를 자동 구축하는 데 있어서 핵심적인 내용이며, 이렇게 자동으로 구축된 분류 체계는 정보 추출과 같은 여러 가지 분야에 있어서 중요하게 사용된다. 본 논문에서는 카테고리 구조로부터 상하위 관계를 추출하는 방식에 대하여 제안한다. 본 논문에서는 판별하고자 하는 카테고리 구조뿐만이 아닌, 그와 관련된 다른 카테고리 구조까지 고려하여 카테고리 이름에 나타난 토큰들간의 수식 그래프를 구축한 후, 그래프 분석 알고리즘을 통하여 각 카테고리 구조가 상하위 관계일 가능성에 대한 점수를 매긴다. 실험 결과, 본 알고리즘은 기존의 연구로 상하위 관계임을 판별할 수 없었던 일부 카테고리 구조에 대하여 성공적으로 상하위 관계인지를 판별하였다.

어휘 정보의 자동 추출과 이를 이용한 한국어 품사 태깅 (Korean Part-of-Speech Tagging using Automatically Acquired Lexical Information)

  • 강인호;김도완;이신목;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.117-122
    • /
    • 1999
  • 본 연구는 형태소 분석에 필요한 언어 지식과 품사 태깅에 필요한 확률 정보를 별도의 언어 지식 추가 없이 학습 말뭉치를 통해서 얻어내는 방법을 제안한다. 먼저 품사 부착된 학습 말뭉치로부터 형태소 사전과 결합 정보를 추출한다. 그리고 자주 발생하는 어절 및 해석상 모호성이 많은 어절에 대해서는 학습 말뭉치에서 발견된 형태소 분석 결과를 저장하여 형태소 분석에 소요되는 시간과 형태소 분석의 정확률을 높인다. 또한 미등록어의 많은 부분을 차지하는 인명, 지명, 조직명에 대해서는 정보 추출 분야에서 사용하는 고유 명사 분류법으로 해결한다. 품사 태깅을 위해서는 품사열 정보와 품사열 정보로는 해결할 수 없는 경우를 위한 어휘 정보를 학습 말뭉치에서 추출한다. 품사열 정보와 어휘 정보는 정형화 과정을 거쳐 최대 엔트로피 모델의 자질로 사용되어 품사 태깅 시스템을 위한 확률 분포를 구성한다. 본 연구에서 제안하는 방법은 학습 말뭉치를 기반으로 한다는 특성에 의해 다양한 영역에 사용하기 쉽다. 또한 어휘 정보로 품사 문맥 정보를 보완하기 때문에 품사 분류 체계와 형태소 해석 규칙에 영향을 적게 받는다는 장점을 가진다. MATEC '99 데이터 실험 결과 형태소 단위로 94%의 재현률과 93%의 정확률을 얻을 수 있었다.

  • PDF