• 제목/요약/키워드: 어휘분류

검색결과 309건 처리시간 0.028초

어휘 인식 시스템에서 학습 모델 분류를 위한 결정 트리 학습 알고리즘 (Decision Tree Learning Algorithms for Learning Model Classification in the Vocabulary Recognition System)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제11권9호
    • /
    • pp.153-158
    • /
    • 2013
  • 인식 대상 학습 모델이 분류되어 있지 않거나 명확하게 분류되지 않은 경우 어휘 인식을 결정하지 못하여 인식률이 저하되며 학습 모델 분류 형태가 변경되거나 새로운 학습 모델이 추가되면 인식 모델의 결정 트리 구조가 변경되어야 하는 구조적 문제가 발생한다. 이러한 문제점을 해결하기 위하여 학습 모델 분류를 위한 결정 트리 학습 알고리즘을 제안한다. 음운 현상이 충분히 반영된 음성 데이터베이스를 구성하고 학습 효과를 확보하기 위하여 학습 모델 분류를 위한 결정 트리 방법을 사용하였다. 본 연구에서는 실내 환경에 대하여 어휘 종속 인식과 어휘 독립 인식 실험을 수행한 결과 실내 환경의 어휘 종속 실험에서는 98.3%의 인식 성능을 보였고, 어휘 독립 실험에서 98.4%의 인식 성능을 보였다.

어휘별 분류기를 이용한 한국어 품사 부착의 성능 향상 (Improving Korean Part-of-Speech Tagging Using The Lexical Specific Classifier)

  • 최원종;이도길;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-139
    • /
    • 2006
  • 한국어 형태소 분석 및 품사 부착을 위해 지금까지 다양한 모델들이 제안이 되었으며 어절단위 평가로 95%를 넘는 성능을 보여주는 자동 태거가 보고 되었다. 하지만 형태소 분석 및 품사 부착은 모든 자연어처리 시스템의 성능에 큰 영향을 미치므로 작은 오류도 중요하다. 본 연구에서는 대상 어절의 주변 형태소의 어휘와 품사 자질, 그리고 어절 자질을 이용하여 분류기를 학습한 후 자동 태거의 품사 부착 결과를 입력으로 받아 후처리 하는 어휘별 분류기를 제안한다. 실험 결과 어휘별 분류기를 이용한 후처리만으로 어절단위 평가 6.86%$(95.251%{\rightarrow}95.577%)$의 오류가 감소하는 성능향상을 얻었으며, 기존에 제안된 품사별 자질을 이용한 후처리 방법과 순차 결합할 경우 16.91%$(95.251%{\rightarrow}96.054%)$의 오류가 감소하는 성능 향상을 얻을 수 있었다. 특히 본 논문에서 제안하는 방법은 형태소 어휘까지 정정할 수 있기 때문에 품사별 자질을 이용한 후처리 방법의 성능을 더욱 향상시킬 수 있다.

  • PDF

초등학교도서관을 위한 KDC 간략판 개발에 관한 연구 (A Study on the Development of Abridged KDC for Elementary School Libraries)

  • 김정현
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2005년도 제12회 학술대회 논문집
    • /
    • pp.87-96
    • /
    • 2005
  • 초등학생관련 자료의 유별 현황 및 어휘분석을 바탕으로 초등학교도서관을 위한 KDC 간략판을 개발하고자 시도되었다. 즉, 분류표의 수정 전개 범위는 최대한 KDC 4판의 기본 틀인 유, 강, 목을 그대로 유지하면서 자료의 유별 분포도를 분석하여 분류항목을 세분하였으며, 초등학생의 특성을 반영하기 위한 구체적인 방법으로 KDC 분류명사를 추출하여 초등학생을 대상으로 설문조사한 결과 및 초등학생관련 자료의 실증적인 어휘분석을 종합하여 분류항목의 수정전개에 반영하였다. 이 연구에서는 초등학교도서관을 대상으로 하였지만 중등학교도서관에 대해서도 이와 같은 실증적인 유별 현황 및 어휘분석 방법을 적용하여 주기적으로 분류표의 개정 작업에 반영한다면 KDC가 학교도서관을 위해 보다 실공적인 분류표가 될 것이다.

  • PDF

한국어의 '맛 어휘' 분류 체계 (A proposal for the classification of Korean taste terms)

  • 김형민
    • 기호학연구
    • /
    • 제56호
    • /
    • pp.7-44
    • /
    • 2018
  • 본 연구의 목적은 인지과학의 관점에 근거하여 한국어 맛 어휘, 특히 한국어 맛 형용사의 분류 체계를 제안하는데 있다. 이때 한국어 맛 형용사의 분류는 인지과학의 분과 학문들이 수용하는 '미각'과 '향미'와 '맛'의 정의에 근거하여 이루어진다. 국내에서는 맛 어휘와 관련하여 많은 연구가 이루어져 왔다. 그래서 맛 어휘의 분류와 관련된 연구 결과물들이 꾸준히 발표되었으나, 연구자에 따라 크고 작은 차이를 보인다. 이는 연구자들이 맛 어휘를 범주화하는데 있어 객관적이고 보편적인 기준보다는 주관적이고 직관적인 기준을 적용했기 때문이다. 우리가 일상생활에서 흔히 말하는 '맛'은 미각 수용기 세포가 지각하는 감각 이상의 것을 포괄한다. 게다가 우리 인간이 지각하는 맛의 80~90%는 냄새에 좌우되어, 맛의 지각에 있어 후각의 중요성이 강조된다. 한편 음식의 식감과 색상과 온도, 음식을 먹는 주변 환경, 음식을 먹는 사람의 개인적 사회문화적 기호척도 등이 맛 지각에 큰 영향을 미친다. 먹는 것과 맛을 보는 것은 우리의 일상생활에서 중요한 부분을 차지한다. 그래서 맛 지각에 대한 언어학적 접근은 결코 간과할 수 없는 연구 영역이다. 본 연구자는 인지과학의 관점에 따른 맛 어휘의 분류가 맛 지각의 인지 메커니즘을 이해하는데 도움을 줄 수 있다는 가정에서 출발한다. 본 연구는 우리 인간의 심상어휘집에 '존재할 혹은 존재할지 모르는' 맛 어휘 낱말밭의 모습을 기하학적 모델로 형상화하고자 하는 후속 연구의 사전 작업임을 이 자리를 빌려 밝혀둔다.

인지어휘 유형개념 (Cognitive Dictionaries Inferred from Word Associations)

  • 지혜련
    • 아동학회지
    • /
    • 제5권
    • /
    • pp.47-52
    • /
    • 1984
  • 인지 어휘 유형(cognitive dictionary)이란 단어 연상의 반응 어휘를 인지 유형에 따라 분류, 분석하는 것을 가리킨다. 인지 어휘 유형 개념을 McNeill의 언어 발달 연구에 준하여 논의하였다. 즉 아동의 어의(語義) 발달은 자작문(自作文) 형식(形式) 표현에서 시작되어 어휘 사용에 이른다는 것이다. 한편 Moran은 범세계적으로 유아들의 인지 어휘 유형은 단어의 동작적(動作的) 특성에 주로 의거한다는 것을 발견했는데 이는 언어의 효시에 관한 Piaget 나 Bruner의 이론과 일치하는 것이다. Moran의 인지 어휘 유형의 추가 개념은 Bruner의 심상(心象)(ikonic representation)에 의한 관계, 기능적 관계 (functional representation), 논리적(logical)관계를 포함한 단어의 연합 관계에 반영시켰다.

  • PDF

우리말 감성 어휘의 범주-차원 모형 - 직물 디자인의 시각적 요소와 관련하여 - (Category-based dimensional model of affective words)

  • 박수진;정찬섭
    • 감성과학
    • /
    • 제2권1호
    • /
    • pp.77-94
    • /
    • 1999
  • 직물 및 직물 관련 제품에서 주로 사용되는 감성 어휘들의 관계 및 구조를 분석하기 위해 잡지 및 설문 조사 과정을 통해 어휘를 수집하였다. 수집된 어휘의 빈도를 조사하고, 어휘 적절성을 평가하여 감성어라고 생각될 수 있는 어휘들만을 정리하였다. 여기서 추출된 372개의 어휘는 직물 및 직물 관련 상황에서의 감성어로 사용될 수 있을 분만 아니라 유사 분야의 감성어 모형에 대한 기본 자료로 활용될 수 있을 것이다. 어휘들 간 관계구조에 대한 분석은 몇 가지 면에서 이뤄졌다. 자유연상 과제를 실시하여 어휘들 간 관계의 연결망(network)을 확인할 수 있었다. 어휘들이 내포하고 있는 의미의 여러 측면에서 어휘들 간 관계를 파악할 수 있도록 어휘들에 대해 다차원 분석을 실시한 결과 어휘 간 관계는 3차원이면 충분히 설명될 수 있는 것으로 나타났다. 두 개의 주차원을 중심으로 어휘들의 공간 분포를 그리고 이들 어휘를 범주로 분류한 결과 대략 11개의 범주로 어휘들을 나눠볼 수 있었다.

  • PDF

자연어 질의 유형판별과 응답 추출을 위한 어휘 의미체계에 관한 연구 (A Study on Word Semantic Categories for Natural Language Question Type Classification and Answer Extraction)

  • 윤성희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 추계학술대회
    • /
    • pp.141-144
    • /
    • 2004
  • 질의응답 시스템이 정보검색 시스템과 다른 중요한 점은 질의 처리 과정이며, 자연어 질의 문장에서 사용자의 질의 의도를 파악하여 질의 유형을 분류하는 것이다. 본 논문에서는 질의 주-형을 분류하기 위해 복잡한 분류 규칙이나 대용량의 사전 정보를 이용하지 않고 질의 문장에서 의문사에 해당하는 어휘들을 추출하고 주변에 나타나는 명사들의 의미 정보를 이용하여 세부적인 정답 유형을 결정할 수 있는 질의 유형 분류 방법을 제안한다. 의문사가 생략된 경우의 처리 방법과 동의어 정보와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법을 제안한다.

  • PDF

어휘 정보를 이용한 문장완성의 구현 (Implementation of Sentence Construction using Lexical Information)

  • 황인정;이은실;민홍기
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2003년도 하계학술대회 논문집
    • /
    • pp.10-13
    • /
    • 2003
  • 본 연구는 어휘 정보를 이용하여 구어체 문장구성을 하였다. 구어체 문장구성의 목적은 언어생활이 불편한 사람들을 위한 통신보조기기에 사용하기 위해서이다. 통신보조기기는 사용자가 원하는 문장을 만들어 음성으로 출력해주는 시스템이다. 그러므로 문장을 구성하기 위해서 어휘 정보를 통신보조기기의 개념에 맞도록 변형하여 도입하였다. 어휘는 도메인별로 발췌하고 분류하였으며, 각 어휘에 대해 시소러스와 하위범주화사전을 만들었다. 어휘정보에 관한 상세한 정보는 문장구성과 재사용 그리고 문맥상 어색한 문장검출을 위해 중요한 자료가 된다.

  • PDF

다변량해석기법을 활용한 감성 데이터베이스 구축에 관한 연구

  • 박정호;한성배;양선모;김형범;이순요
    • 대한인간공학회:학술대회논문집
    • /
    • 대한인간공학회 1996년도 춘계학술대회논문집
    • /
    • pp.136-140
    • /
    • 1996
  • 제품개발의 개념이 기능이나 성능중심에서 인간의 감성중심으로전환되고 있다. 그러나 인간의 감 성은 정성적 언어로 표현되며 이것을 물리적 디자인요소로 전환하는 것이 필요하다. 이를 위하여는 우선적으로 인간의 감성을 정량화하는 것이 선결되어야한다. 따라서 본 연구의 목적은 다변량해석기법 을 활용하여 고객의 제품에 대한 정성적 이미지를 정량적 데이터로 변환하여 이를 감성 데이터베이스로 구축하는데 있다. 감성 데이터베이스는 감성어휘와 이의 제품에 대한 정량적 수치 데이터로 구성되고, 이를 위해서는 감성어휘 선정, 디자인 요소에 의한 제품의 분류, 감성어휘와 디자인요소간의 상관도 도출 등이 필요하다. 감성어휘는 요인분석에 의해 선정하고, 제품은 아이템/카테고리에 의해 분류하며, 감성어휘와 디자인요소간의 상관성에 대해서는 다변량해석기법 특히, 수량화이론 1류를 사용해서 정량화 한다. 이렇게 구축된 감성 데이터베이스는 감성공학적 디자인 요소변환 지원시스템의 감성데이터 처리 서브시스템의 핵심 역활을 한다.

  • PDF

Co-Trained Support Vector Machines을 이용한 문서분류 (Text Categorization Using Co-Trained Support Vector Machines)

  • 박성배;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.259-261
    • /
    • 2002
  • 대부분의 자동문서분류 시스템은 문서에 사용된 단어의 분포만 고려하고, 또 하나의 중요한 정보인 통사 정보는 무시한다. 본 논문에서는 통사정보와 어휘정보를 모두 사용함으로써 대규모의 비구조 문서를 분류하는 방법을 제시한다. 이를 위해, 학습 데이터에 대해 독립된 두 개의 관점을 요구하는 일종의 부분 감독 학습 알고리즘인 co-training 알고리즘을 사용한다. 어휘정보와 통사정보가 각각 문서의 독립된 관점이 될 수 있으므로, 이 두 정보와 레이블이 없는 문서를 사용하여 문서 분류의 성능을 높일 수 있다. Reelers-21578 문서집합과 TREC-7 filtering 문서집합에 대한 실험 결과는 제시된 방법의 유효성을 보인다.

  • PDF