• Title/Summary/Keyword: 어휘정보

Search Result 1,062, Processing Time 0.03 seconds

A Compound Term Retrieval Model Using Statistical Noun-Pattern Categorization (통계적 명사패턴 분류를 이용한 복합명사 검색 모델)

  • Park, Young-C.;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.21-31
    • /
    • 1996
  • 복합명사는 한국어에서 가장 빈번하게 나타나는 색인어의 한 형태로서, 영어권 중심의 정보검색 모델로는 다루기가 어려운 언어 현상의 하나이다. 복합명사는 2개 이상의 단일어들의 조합으로 이루어져 있고, 그 형태 또한 여러 가지로 나타나기 때문에 색인과 검색의 큰 문제로 여겨져 왔다. 본 논문에서는 복합명사의 어휘적 정보를 단위명사들의 통계적 행태(statistical behavior)에 기반 하여 자동 획득하고, 이러한 어휘적 정보를 검색에 적용하는 모텔을 제시하고자 한다. 본 방법은 색인시의 복합명사 인식의 어려움과 검색시의 형태의 다양성을 극복하는 모델로서 한국어를 포함한 동양권의 언어적 특징을 고려한 모델이다.

  • PDF

A Korean Compound Noun Analysis Method for Effective Indexing (효율적인 색인어 추출을 위한 복합명사 분석 방법)

  • Jang, Dong-Hyun;Myaeng, Sung-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.32-35
    • /
    • 1996
  • 정보 검색 기술은 적용 분야, 질의어, 데이터가 달라질 경우, 결과 또한 달라질 수 있음을 최근의 연구 결과로부터 알 수 있다. 사용되는 언어에 따라서도 고유한 문제가 제기될 수 있는데, 특히 한국어의 경우 복합명사는 명사끼리의 조합이 자유롭고 길이에 제한이 없기 때문에 이를 단위 명사로 분할하는 작업이 어렵다. 또한 영어와는 달리 복합명사가 문서 내에서 많은 부분을 차지하며 문서의 내용을 대표하는 경우가 많이 있기 때문에, 정보 검색 기술을 한국어에 적용하기 위해서는 수정, 보완하는 노력이 필요하다. 본 연구에서는 어휘에 관한 사전 및 코퍼스 정보를 트라이(trie)에 저장한 후 어휘들간의 공통 부분에 더미 노드(dummy node)를 삽입하여 복합명사를 단위 명사로 분할하는 기법을 제시하였다.

  • PDF

Identification of Is-a Relation in Ontology based on Thesaurus (시소러스를 이용한 온톨로지의 Is-a 관계 설정)

  • Huang, Jin-Xia;Lee, Sheen-Mok;Nam, Yun-Yeong;Shin, Ji-Ae;Choi, Key-Sun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.20-23
    • /
    • 2006
  • 시소러스의 개념과 개념간 계층관계가 온톨로지 구축에 흔히 이용되고 있다. 다만 시소러스 계층관계는 is-a관계 뿐만 아니라 세분화되지 않은 관계도 포함되고 있기 때문에, 온톨로지의 기본 관계인 is-a관계를 분별하는 작업이 필요하다. 본 논문은 개념의 어휘표현 정보를 이용하여 온톨로지의 is-a관계를 설정하는 규칙을 제시하였고, 개념의 정의문 정보를 이용하여 is-a관계를 검수하는 방법을 제안하였다. IT분야 시소러스에 대한 is-a관계 설정 실험결과, 어휘표현 정보를 이용한 규칙 기반 is-a관계 설정은 85.83%의 정확도를 보였고, 정의문 정보를 이용한 is-a관계 판단의 일관성 평가 결과 일치도가 86.44%였다.

  • PDF

Implementation of Dependency Parser using Argument Information based on Korean WordNet (한국어 어휘의미망에 기반한 논항 정보를 이용한 의존문법 구문분석기의 구현)

  • Im, Gyeong-Eop;Jung, Youngim;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.158-164
    • /
    • 2007
  • 한국어는 한 어절이 한 개 이상의 형태소로 이루어졌으며, 이 때문에 지역 중의성이 발생한다. 대부분의 선행 연구에서는 이러한 지역 중의성을 배제하거나, 태거를 사용하여 지역 중의성을 제거해왔다. 본 연구에서는 문장의 모든 형태소 분석에 대해 구문분석을 시도하며, 중의성을 제거하고자 적용된 의존문법 규칙과 구 묶음, 부사 하위범주화, 논항 정보 사전 이용 등의 다양한 기법을 설명하고, 구문분석 성능을 실험으로 나타낸다. 특히, 말뭉치마다 논항 정보 사전을 따로 구축하는 번거로움을 피하고자 한국어 어휘의미망을 사용한다.

  • PDF

Error detection and correction in speech recognition by using lexico-semantic patterns (어휘의미패턴을 이용한 음성인식 오류 검출 및 수정)

  • Yoon, Yong-Wook;Jung, Han-Min;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.62-68
    • /
    • 2002
  • 음성인식기를 거친 결과는 오류를 포함할 수 있으며 이를 다른 자연어처리 응용에 이용하기 위해서는 오류의 검출과 수정과정이 필수적이다. 음성인식 오류 후처리는 그 성격상 문자인식 후처리와는 다른 접근 방법을 필요로 하며, 본 인구에서는 잡음환경을 제외한 특정 도메인에 국한된 음성발화 상황에 초점을 맞추고자 한다. 후처리 방법에 있어서는 통계적 접근과 패턴매칭에 의한 접근 방법이 있으며, 본 연구에서는 특정 도메인에서 사용되는 어휘의 의미정보를 포함하는 패턴을 자동으로 생성시켜 이에 의한 오류 검출 및 수정 방안을 제안한다. 본 실험에 사용된 도메인은 차량정보센터용 음성정보 제공 시나리오이며 상용 음성인식기를 후처리를 위한 개발 툴로 사용하였다.

  • PDF

Word Embedding using Semantic Restriction of Predicate (용언의 의미 제약을 이용한 단어 임베딩)

  • Lee, Ju-Sang;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.181-183
    • /
    • 2015
  • 최근 자연어 처리 분야에서 딥 러닝이 많이 사용되고 있다. 자연어 처리에서 딥 러닝의 성능 향상을 위해 단어의 표현이 중요하다. 단어 임베딩은 단어 표현을 인공 신경망을 이용해 다차원 벡터로 표현한다. 본 논문에서는 word2vec의 Skip-gram과 negative-sampling을 이용하여 단어 임베딩 학습을 한다. 단어 임베딩 학습 데이터로 한국어 어휘지도 UWordMap의 용언의 필수논항 의미 제약 정보를 이용하여 구성했으며 250,183개의 단어 사전을 구축해 학습한다. 실험 결과로는 의미 제약 정보를 이용한 단어 임베딩이 유사성을 가진 단어들이 인접해 있음을 보인다.

  • PDF

A Study on Image Sensibility Evaluation (이미지의 감성평가에 대한 연구)

  • Lyu, Ki-Gon;Sun, Dong-Eun;Han, Jung-Soo;Kim, Hyeon-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1697-1698
    • /
    • 2013
  • 정보처리 기술이 발전함에 따라 정보에 대한 접근과 소통은 더욱 빠르고 편리하게 되었고, 동시에 사용자의 정보에 대한 요구 또한 세분화되고 다양해지면서, 이러한 다양한 요구에 대응하기 위해서 사용자의 경험과 소통하여 인지과정에 영향을 줄 수 있는 감성이 중요하게 인식되고 있다. 감성은 동일한 외부자극에 대해 개인의 경험, 환경 등에 따라 다르게 나타나기 때문에 객관적으로 측정하기가 어렵지만, 외부자극에 대해 반사적이고 직관적으로 발생하여 의사결정 과정에 지속적으로 영향을 주기 때문에 사용자의 경험과 소통하여 사용자의 요구를 이해할 수 있는 정보를 제공한다. 본 논문에서는 이미지 공유 사이트를 이용하여 이미지라는 외부자극에 대해 사용자들이 느낀 어휘들을 수집하고 긍정과 부정 감성을 분석하여 어휘를 기반으로 이미지의 감성을 측정하고 평가하였다.

Paragraph Retrieval Model for Machine Reading Comprehension using IN-OUT Vector of Word2Vec (Word2Vec의 IN-OUT Vector를 이용한 기계독해용 단락 검색 모델)

  • Kim, Sihyung;Park, Seongsik;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.326-329
    • /
    • 2019
  • 기계독해를 실용화하기 위해 단락을 검색하는 검색 모델은 최근 기계독해 모델이 우수한 성능을 보임에 따라 그 필요성이 더 부각되고 있다. 그러나 기존 검색 모델은 질의와 단락의 어휘 일치도나 유사도만을 계산하므로, 기계독해에 필요한 질의 어휘의 문맥에 해당하는 단락 검색을 하지 못하는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 Word2vec의 입력 단어열의 벡터에 해당하는 IN Weight Matrix와 출력 단어열의 벡터에 해당하는 OUT Weight Matrix를 사용한 단락 검색 모델을 제안한다. 제안 방법은 기존 검색 모델에 비해 정확도를 측정하는 Precision@k에서 좋은 성능을 보였다.

  • PDF

Mean Shift Clustering을 이용한 영상 검색결과 개선

  • Kwon, Kyung-Su;Shin, Yun-Hee;Kim, Young-Rae;Kim, Eun-Yi
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2009.05a
    • /
    • pp.138-143
    • /
    • 2009
  • 본 논문에서는 감성 공간에서 mean shift clustering과 user feedback을 이용하여 영상 검색 결과를 개선하기 위한 시스템을 제안한다. 제안된 시스템은 사용자 인터페이스, 감성 공간 변환, 검색결과 순위 재지정(re-ranking)으로 구성된다. 사용자 인터페이스는 텍스트 형태의 질의 입력과 감성 어휘 선택에 따른 user feedback에 의해 개선된 검색결과를 보인다. 사용된 감성 어휘는 고바야시가 정의한 romantic, natural, casual, elegant, chic, classic, dandy, modern 등의 8개 어휘를 사용한다. 감성 공간 변환 단계에서는 입력된 질의에 따라 웹 영상 검색 엔진(Yahoo)에 의해 검색된 결과 영상들에 대해 컬러와 패턴정보의 특징을 추출하고, 이를 입력으로 하는 8개의 각 감성별 분류기에 의해 각 영상은 8차원 감성 공간으로의 특징 벡터로 변환된다. 이때 감성 공간으로 변환된 특징 벡터들은 mean shift clustering을 통해 군집화 되고, 그 결과로써 대표 클러스터를 찾게 된다. 검색결과 순위 재지정 단계에서는 user feedback 유무에 따라 대표 클러스터의 평균 벡터와 user feedback에 의해 생성된 사용자 감성 벡터에 의해 검색 결과를 개선할 수 있다. 이때 각 기준에 따라 유사도가 결정되고 검색결과 순위가 재지정 된다 제안된 시스템의 성능을 검증하기 위해 7개의 질의의 각 400장, 총 2,800장에 대한 Yahoo 검색 결과와 제안된 시스템을 개선된 검색 결과를 비교하였다.

  • PDF

Morphological Analysis and Spelling Check Function of Korean Morphological Analyzer HAM (한국어 형태소 분석기 HAM의 형태소 분석 및 철자 검사 기능)

  • Kang, Seung-Shik;Lee, Ha-Gyu
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.246-252
    • /
    • 1996
  • 한국어 형태소 분석기의 효율성에 영향을 미치는 요인은 분석 알고리즘의 효율성보다도 어휘 사전 등 형태소 분석과 관련된 여러 가지 요인들이 미치는 영향이 훨씬 더 크다. 따라서 단어의 유형 분류 기법이나 불규칙 용언의 분석 방법을 비롯하여 어휘 사전의 구조 및 크기, 알고리즘의 선택과 구현 등 형태소 분석과 관련된 모든 요소들을 형태소 분석에 적합하도록 구성하여야 한다. 본 논문에서는 어휘형태소 사전과 문법형태소 사전의 크기, 한글 문서에 나타나는 단어의 특성 등 형태소 분석기의 효율 및 성능에 영향을 미치는 요소들을 고찰하였다. 그 결과로 알고리즘의 효율보다는 사전 탐색 시간이 형태소 분석에 미치는 영향이 매우 크다는 것을 알 수 있었다. 이와 같이 형태소 분석기의 성능에 영향을 미치는 요인들을 고려하여 구현된 범용 형태소 분석기 HAM에 대하여 형태소 분석 기능과 철자 검사 기능을 실험하였다. 형태소 분석 성공률에 대한 실험 결과 99.46%의 분석률을 보이고 있으며, 맞춤법 검사 기능으로는 상용화된 철자 검사기와 비슷한 성능을 보이고 있다. HAM의 처리 속도는 pentium 120MHz linux 2.0 환경에서 1 초에 약 1,000 단어를 분석한다.

  • PDF