• 제목/요약/키워드: Lexical model

검색결과 100건 처리시간 0.025초

반복적 기법을 사용한 그래프 기반 단어 모호성 해소 (Graph-Based Word Sense Disambiguation Using Iterative Approach)

  • 강상우
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.102-110
    • /
    • 2017
  • 최근 자연어 처리 분야에서 단어의 모호성을 해소하기 위해서 다양한 기계 학습 방법이 적용되고 있다. 지도 학습에 사용되는 데이터는 정답을 부착하기 위해 많은 비용과 시간이 필요하므로 최근 연구들은 비지도 학습의 성능을 높이기 위한 노력을 지속적으로 시도하고 있다. 단어 모호성 해소(word sense disambiguation)를 위한 비지도 학습연구는 지식 기반(knowledge base)를 이용한 방법들이 주목받고 있다. 이 방법은 학습 데이터 없이 지식 기반의 정보을 이용하여 문장 내에서 모호성을 가지는 단어의 의미를 결정한다. 지식 기반을 이용한 방법에는 그래프 기반방식과 유사도 기반 방법이 대표적이다. 그래프 기반 방법은 모호성을 가지는 단어와 그 단어가 가지는 다양한 의미들의 집합 간의 모든 경로에 대한 의미 그래프를 구축한다는 장점이 있지만 불필요한 의미 경로가 추가되어 오류를 증가시킨다는 단점이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 그래프 구축을 위해 불필요한 간선들을 배제하면서 반복적으로 그래프를 재구축하는 모델을 제안한다. 또한, 구축된 의미 그래프에서 더욱 정확한 의미를 예측하기 위해 하이브리드 유사도 예측 모델을 적용한다. 또한 제안된 모델은 다국어 어휘 의미망 사전인 BabelNet을 사용하기 때문에 특정 언어뿐만 아니라 다양한 언어에도 적용 가능하다.

텍스트 구성요소 판별 기법과 자질을 이용한 문서 요약 시스템의 개발 및 평가 (Development and Evaluation of a Document Summarization System using Features and a Text Component Identification Method)

  • 장동현;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.678-689
    • /
    • 2000
  • 논 본문은 문서의 주요 내용을 나타내는 문장을 추출함으로써 요약문을 작성하는 자동 요약 기법에 대해 기술하고 있다. 개발한 시스템은 문서 집합으로부터 추출한 어휘적, 통계적 정보를 고려하여 요약 문장을 작성하는 모델이다. 시스템은 크게 두 부분, 학습과정과 요약과정으로 구성이 된다. 학습 과정은 수동으로 작성한 요약문장으로부터 다양한 통계적인 정보를 추출하는 단계이며, 요약 과정은 학습 과정에서 추출한 정보를 이용하여 각 문장이 요약문장에 포함될 가능성을 계산하는 과정이다. 본 연구는 크게 세 가지 의의를 갖는다. 첫째, 개발된 시스템은 각 문장을 텍스트 구성 요소의 하나로 분류하는 텍스트 구성 요소 판별 모델을 사용한다. 이 과정을 통해 요약 문장에 포함될 가능성이 없는 문장을 미리 제거하는 효과를 얻게 된다. 둘째, 개발한 시스템이 영어 기반의 시스템을 발전시킨 것이지만, 각각의 자질을 독립적으로 요약에 적용시켰으며, Dempster-Shafer 규칙을 사용해서 다양한 자질의 확률 값을 혼합함으로써 문장이 요약문에 포함될 최종 확률을 계산하게 된다. 셋째, 기존의 시스템에서 사용하지 않은 새로운 자질 (feature)을 사용하였으며, 실험을 통하여 각각의 자질이 요약 시스템의 성능에 미치는 효과를 알아보았다.

  • PDF

저사양 기기를 위한 한국어 자동 띄어쓰기 시스템 (An Automatic Korean Word Spacing System for Devices with Low Computing Power)

  • 송영길;김학수
    • 정보처리학회논문지B
    • /
    • 제16B권4호
    • /
    • pp.333-340
    • /
    • 2009
  • 대부분의 기존 자동 띄어쓰기 시스템들은 많은 시스템 자원을 필요로 하기 때문에 상대적으로 낮은 컴퓨팅 파워를 가진 모바일 기기에 사용하기에는 적합하지 않다. 본 논문에서는 저사양 모바일 기기에 맞도록 메모리 사용량이 적고 수치 계산이 단순한 자동 띄어쓰기 시스템을 제안한다. 제안 시스템은 통계 기반 시스템과 규칙 기반 시스템으로 구성된 2단계 모델이다. 메모리 사용량을 줄이기 위해서 통계 기반 시스템이 음절 유니그램 기반의 개량된 은닉 마코프 모델을 사용하여 띄어쓰기 오류를 1차로 수정한다. 다음으로 정밀도 향상을 위해서 규칙 기반 시스템이 음절 바이그램 이상의 어휘 규칙을 이용하여 잘못 수정된 띄어쓰기 오류를 재보정한다. 실험 결과에 따르면 제안시스템은 1MB를 조금 넘는 메모리 사용하면서도 94.14%라는 비교적 높은 정밀도를 보였다.

단어 의미와 자질 거울 모델을 이용한 단어 임베딩 (A Word Embedding used Word Sense and Feature Mirror Model)

  • 이주상;신준철;옥철영
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권4호
    • /
    • pp.226-231
    • /
    • 2017
  • 단어 표현은 기계학습을 사용하는 자연어 처리 분야에서 중요하다. 단어 표현은 단어를 텍스트가 아닌 컴퓨터가 분별할 수 있는 심볼로 표현하는 방법이다. 기존 단어 임베딩은 대량의 말뭉치를 이용하여 문장에서 학습할 단어의 주변 단어를 이용하여 학습한다. 하지만 말뭉치 기반의 단어 임베딩은 단어의 등장 빈도수나 학습할 단어의 수를 늘리기 위해서는 많은 양의 말뭉치를 필요로 한다. 본 논문에서는 말뭉치 기반이 아닌 단어의 뜻풀이와 단어의 의미 관계(상위어, 반의어)를 이용하며 기존 Word2Vec의 Skip-Gram을 변형한 자질거울모델을 사용하여 단어를 벡터로 표현하는 방법을 제시한다. 기존 Word2Vec에 비해 적은 데이터로 많은 단어들을 벡터로 표현 가능하였으며 의미적으로 유사한 단어들이 비슷한 벡터를 형성하는 것을 확인할 수 있다. 그리고 반의어 관계에 있는 두 단어의 벡터가 구분되는 것을 확인할 수 있다.

의미적 연결 관계에 기반한 전자 카탈로그 검색용 유사도 척도 (A New Similarity Measure for e-Catalog Retrieval Based on Semantic Relationship)

  • 서광훈;이상구
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.554-563
    • /
    • 2007
  • 전자 상거래의 발달과 함께 B2B Market Place의 등장과 통합으로 전자 상거래의 중심 단위인 전자 카탈로그의 양도 급증하고 있다. 이러한 전자 카탈로그의 정보의 질적, 양적 증가는 상품 정보 검색의 난이도를 높이고 있다. 특히, 대량 거래를 하는 상품 전문가의 의사 결정을 위해 단일 분류 체계가 아닌 다양한 분류체계 내에서의 상품 정보 검색을 지원하는 시스템의 필요성이 증가하고 있다. 하지만 기존의 검색 시스템은 일반 문서 검색 시스템이 대다수이며, 이러한 전자 카탈로그의 특성을 반영하지 못하고 있어 이를 지원하기에는 한계가 있다. 따라서 본 논문에서는 전자 카탈로그가 지니고 있는 속성적, 어휘적인 특성을 반영하고 의미적 연결관계에 기반한 검색을 통하여 해당 요구 사항을 충족시킬 수 있는 시스템의 토대를 마련하고자 하였다. 이를 위해, 전자 카탈로그의 특징을 반영한 전자 카탈로그 기본 모델을 제시하고, 검색을 결과 제시를 위한 유사도 평가 요소를 도출하였으며, 정확성 향상을 위해 이를 어휘적 특성을 고려한 데이타 확장 모델 및 어휘 기반 유사도 평가 요소로 확장하였다. 그리고 제시한 모델을 통해 의미적 연결 관계에 기반한 전자 카탈로그 유사도 평가 함수를 제시하고 이를 전자 카탈로그 정보 검색시스템으로 구현하고 검증하였다.

이중언어자의 위계모형 검증 : 암묵기억과제와 외현기억과제의 효과 (A Test of Hierarchical Model of Bilinguals Using Implicit and Explicit Memory Tasks)

  • 김미라;정찬섭
    • 인지과학
    • /
    • 제9권1호
    • /
    • pp.47-60
    • /
    • 1998
  • 이중언어자의 언어구조를 기억정보의 위계적 특성으로 설명하는 위계모형의 적합성을 외현기억검사와 암묵기억검사를 사용하여 살펴보았다. 위계모형에 따르면 단어의 기억표상은 모국어와 외국어의 심성어휘집 정보와 두 언어와 공유하는 개념표상 정보로 구성되어 있으며, 개념표상 정보의 활성화는 심성어휘집 활성화를 통해 이루어지고, 과제의 종류와 번역의 방향성에 따라 심성어휘집과 개념표상의 정보가 별개로 인출될 수 있다. 기억검사중에서 개념 정보의 활성화에 민감한 외현기억검사와 지각 정보의 활성화에 민감한 암묵기억검사는 심성어휘집 정보와 개념표상 정보의 활성화에 상이한 민감성을 보일 것이다. 실험 1에서는 명명과제의 단어들을 의미적으로 범주화하여 제시한 후에 암묵기억검사와 외현기억검사를 실시했고, 실험 2에서는 의미적으로 범주화된 단어목록을 순행 및 역행 번역을 하도록 한 후에 암묵기억검사와 외현기억검사를 했다. 명명과제와 역행번역 및 암묵기억검사에는 목록의 의미적 범주효과가 나타나지 않았고, 순행번역 및 외현기억검사에는 목록의 의미적 범주효과가 나타났다. 이런 결과를 이중언어자의 언어구조가 언어에 따르는 별개의 심성어휘집과 공통의 개념표상을 지니고 있다는 위계모형을 지지하는 것으로 해석하였다.

  • PDF

의미적 유사성에 기반한 온톨로지 선택 랭킹 모델 (Ontology Selection Ranking Model based on Semantic Similarity Approach)

  • 오선주;안중호;박진수
    • 한국전자거래학회지
    • /
    • 제14권2호
    • /
    • pp.95-116
    • /
    • 2009
  • 지식 재사용 측면에서 기존의 온톨로지를 재사용할 수 있다면 많은 자원을 절약할 수 있을 것이다. 그러나 기존의 온톨로지를 활용하기 위해서는 보다 발전된 온톨로지 검색 기능이 요구된다. 현재까지 이루어진 관련 연구들에서는 주로 렉시컬 매칭기법을 사용하여 온톨로지를 검색하였다. 그러나 의미적 측면에서 문제점이 있으므로 본 연구에서는 관계의 의미적 유사성에 기반한 온톨로지 선택 랭킹 모델을 제안한다. 본 연구는 개념간 계층 구조와 관계를 온톨로지 검색에 이용함으로써 온톨로지의 선택 랭킹을 효과적이며 실질적으로 개선하였다. 또한 실험을 통해 연구 모델의 결과와 선행 연구의 결과, 온톨로지 전문가의 랭킹 결과를 비교 분석하고 연구 모델의 타당성을 검증하였다. 본 연구 결과는 온톨로지 검색 연구를 이론적으로 발전시켰을 뿐 아니라 실무적인 측면에서 실무자들이 온톨로지를 쉽게 찾아 재사용할 수 있도록 한다.

  • PDF

The Unsupervised Learning-based Language Modeling of Word Comprehension in Korean

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권11호
    • /
    • pp.41-49
    • /
    • 2019
  • 본 연구는 비지도 기계학습 기술과 코퍼스의 각 단어를 이용하여 한국어 단어를 형태소 분석하는 언어 모델을 구축하는데 목적을 둔다. 그리고 이 언어 모델의 단어 형태소 분석의 결과와 언어 심리 실험결과에서 얻은 한국어 언어사용자의 단어 이해/판단 시간이 상관관계을 갖는지를 규명하고자 한다. 논문에서는 한국어 세종코퍼스를 언어 모델로 학습하여 형태소 분리 규칙을 통해 한국어 단어를 자동 분리하는데 발생하는 단어 정보량(즉, surprisal(놀라움) 정도)을 측정하여 실제 단어를 읽는데 걸리는 반응 시간과 상관이 있는지 분석하였다. 이를 위해 코퍼스에서 단어에 대한 형태 구조 정보를 파악하기 위해 Morfessor 알고리즘을 적용하여 단어의 하위 단위 분리와 관련한 문법/패턴을 추출하고 형태소를 분석하는 언어 모델이 예측하는 정보량과 반응 시간 사이의 상관관계를 알아보기 위하여 선형 혼합 회귀(linear mixed regression) 모형을 설계하였다. 제안된 비지도 기계학습의 언어 모델은 파생단어를 d-형태소로 분석해서 파생단어의 음절의 형태로 처리를 하였다. 파생단어를 처리하는 데 필요한 사람의 인지 노력의 양 즉, 판독 시간 효과가 실제로 형태소 분류하는 기계학습 모델에 의한 단어 처리/이해로부터 초래될 수 있는 놀라움과 상관함을 보여 주었다. 본 연구는 놀라움의 가설 즉, 놀라움 효과는 단어 읽기 또는 처리 인지 노력과 관련이 있다는 가설을 뒷받침함을 확인하였다.

선택 제약 명사의 의미 범주 정보를 이용한 용언의 문맥 의존 오류 검사 및 교정 (The Detection and Correction of Context Dependent Errors of The Predicate using Noun Classes of Selectional Restrictions)

  • 소길자;권혁철
    • 한국정보통신학회논문지
    • /
    • 제18권1호
    • /
    • pp.25-31
    • /
    • 2014
  • 현재 실용화된 국내 문법 검사기는 경험적으로 구축된 오류 결정 규칙을 이용해 주위의 문맥을 보고 문법 오류를 판단하는 문맥 의존 오류를 처리하고 있다. 그러나 기존 문법 검사기의 오류 결정 규칙은 어휘 수준으로 구축되어 있어 검사기의 재현율이 낮다. 따라서 어휘대신 어휘 범주 정보를 사용하여 오류 결정 규칙을 일반화할 필요가 있다. 본 논문에서는 검사단어가 용언일 때 선택 제약 명사의 의미 범주를 국내에서 개발된 어휘의미망 KorLex에서 TCM과 MDL을 이용해 추출하고 추출된 의미 범주를 이용해 용언의 오류 결정 규칙을 일반화하는 방법을 제안한다.

통합 사용자 인터페이스에 관한 연구 : 인공 신경망 모델을 이용한 한국어 단모음 인식 및 음성 인지 실험 (A Study on the Intelligent Man-Machine Interface System: The Experiments of the Recognition of Korean Monotongs and Cognitive Phenomena of Korean Speech Recognition Using Artificial Neural Net Models)

  • 이봉규;김인범;김기석;황희융
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.101-106
    • /
    • 1989
  • 음성 및 문자를 통한 컴퓨터와의 정보 교환을 위한 통합 사용자 인터페이스 (Intelligent Man- Machine interface) 시스템의 일환으로 한국어 단모음의 인식을 위한 시스템을 인공 신경망 모델을 사용하여 구현하였으며 인식시스템의 상위 접속부에 필요한 단어 인식 모듈에 있어서의 인지 실험도 행하였다. 모음인식의 입력으로는 제1, 제2, 제3 포르만트가 사용되었으며 실험대상은 한국어의 [아, 어, 오, 우, 으, 이, 애, 에]의 8 개의 단모음으로 하였다. 사용한 인공 신경망 모델은 Multilayer Perceptron 이며, 학습 규칙은 Generalized Delta Rule 이다. 1 인의 남성 화자에 대하여 약 94%의 인식율을 나타내었다. 그리고 음성 인식시의 인지 현상 실험을 위하여 약 20개의 단어를 인공신경망의 어휘레벨에 저장하여 음성의 왜곡, 인지시의 lexical 영향, categorical percetion등을 실험하였다. 이때의 인공 신경망 모델은 Interactive Activation and Competition Model을 사용하였으며, 음성 입력으로는 가상의 음성 피쳐 데이타를 사용하였다.

  • PDF