• Title/Summary/Keyword: 어휘정보

Search Result 1,062, Processing Time 0.029 seconds

품사태깅을 위한 어휘규칙의 자동획득 (Automatic Acquisition of Lexical Rules for Part-of-Speech Tagging)

  • 이상주;류원호;김진동;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.20-27
    • /
    • 1998
  • 기존의 어휘규칙기반 품사태거는 품사문맥이나 어휘확률만을 사용하는 통계적 품사태거에 의해 해결되지 않는 형태론적 중의성을 어휘문맥을 참조하는 어휘규칙을 사용함으로써 효과적으로 해결할 수 있었다. 그러나 어휘규칙을 수작업으로 획득하기 때문에 규칙 획득에 많은 시간이 소요되어 소량의 규칙만이 사용되었다. 본 논문에서는 품사부착말뭉치로부터 어휘규칙을 자동으로 획득하는 방법을 제안한다. 제안된 방법으로 자동획득된 어휘규칙을 사용하여 실험말뭉치의 66.1%를 98.8%의 정확률로 태깅하였다. 이로써 통계적 품사태거만을 사용할 때(95.43% 정확률) 보다 어휘규칙과 결합할 때(96.12% 정확률) 통계적 품사태거의 성능이 약 15.1%(0.69% 정확률)만큼 향상되었다. 또한 제안된 방법은 영어 품사태깅에 대해서도 효과적임이 실험을 통해 증명되었다.

  • PDF

백과사전 질의응답 시스템을 위한 어휘개념망 구축 (Constructing Korean Lexical Concept Network for Encyclopedia Question-Answering System)

  • 최미란;오효정;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.99-105
    • /
    • 2004
  • 백과사전 질의응답 시스템은 사용자의 자연어 질문과 검색 대상 문서인 백과사전 내용의 의미를 파악하기 위한 고정밀 자연어 처리 기술이 요구된다. 이러한 고정밀 자연어 처리 기술을 위한 중요한 언어자원을 제공하기 위하여 한국어 명사와 동사로 구성되는 대규모 어휘개념망을 구축하였다. 한국어 어휘개념망은 명사와 동사의 상하위 관계를 주요 계층구조로 하여 다양한 한국어 어휘 기초 자료를 바탕으로 구축되었다. 구축된 규모는 일반명사 약 6만 어휘와 동사 약 2만 어휘를 포함한다. 이 논문에서는 어휘개념망을 구축하기 위한 방법과 과정을 소개하고 지금까지 구축된 어휘개념망의 특성에 대해 기술하며, 백과사전 질의응답 시스템에서 어떻게 활용되는지 시스템 구성요소의 예를 들어서 설명한다. 또한 현재 구축된 어휘개념망의 성능 평가를 위해 일반 코퍼스에 대한 커버리지 측정 결과를 기술한다.

  • PDF

Co-Trained Support Vector Machines을 이용한 문서분류 (Text Categorization Using Co-Trained Support Vector Machines)

  • 박성배;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.259-261
    • /
    • 2002
  • 대부분의 자동문서분류 시스템은 문서에 사용된 단어의 분포만 고려하고, 또 하나의 중요한 정보인 통사 정보는 무시한다. 본 논문에서는 통사정보와 어휘정보를 모두 사용함으로써 대규모의 비구조 문서를 분류하는 방법을 제시한다. 이를 위해, 학습 데이터에 대해 독립된 두 개의 관점을 요구하는 일종의 부분 감독 학습 알고리즘인 co-training 알고리즘을 사용한다. 어휘정보와 통사정보가 각각 문서의 독립된 관점이 될 수 있으므로, 이 두 정보와 레이블이 없는 문서를 사용하여 문서 분류의 성능을 높일 수 있다. Reelers-21578 문서집합과 TREC-7 filtering 문서집합에 대한 실험 결과는 제시된 방법의 유효성을 보인다.

  • PDF

부사 정보를 이용한 한국어 구조 중의성 해소 (Korean Structural Disambiguation using Adverb Information)

  • 신승은;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.110-115
    • /
    • 2000
  • 자연 언어 처리의 구문 분석에서는 중의성 있는 결과가 많이 생성된다. 이러한 중의성을 해소하는데 어휘정보가 유용하다는 것은 잘 알려져 있으며, 이러한 어휘정보와 이를 이용한 중의성 해소에 관한 연구가 많이 이루어지고 있다. 본 논문은 한국어의 구문 구조 분석 시 부사에 의해 발생되는 중의성을 해소하기 위해 수식어 사전을 이용하여 구문 분석에서의 구조 중의성을 해소하였다. 수식어 사전의 어휘정보와 대상 말뭉치를 통해 각각의 부사에 대한 문법을 구성하고, 이를 이용하여 한국어 구문구조 분석에서 부사에 의해 발생되는 중의성을 줄일 수 있다.

  • PDF

문맥 및 어휘 그룹 기반의 지능형 영어 어휘 학습 시스템의 개발 (Development of Context and Vocabulary Group-Based Intelligent English Vocabulary Learning System)

  • 김도현;장홍준;김병욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.19-20
    • /
    • 2023
  • 영어 교육 시장 확대로 다양한 영어 학습 시스템이 개발되고 있다. 그러나 어휘의 문맥적 이해와 효과적인 학습 방법을 결합한 지능형 어휘 학습 시스템에 대한 연구는 미비하다. 본 연구에서는 임의의 n 개 영어 단어가 한 그룹으로 제시되고, 이들을 모두 포함한 예문을 제공하는 지능형 영어 어휘 학습 시스템을 개발한다. 본 연구에서는 임의의 n 개 영어 단어가 주어졌을 때 문맥에 맞는 영어 예문을 자동으로 생성하는 모델을 개발하였다. 어휘 평가를 바탕으로 자동으로 취약 어휘를 선정하며 학습자들이 해당 어휘를 학습 할 수 있도록 진행한다. 본 연구에서 개발한 지능형 영어 어휘 학습 시스템의 사용성 평가를 위해 설문 검사를 실시하였다. 설문 결과는 문맥 및 어휘 그룹 기반의 지능형 영어 학습 시스템은 사용자들이 사용하기 편리하고 어휘 능력을 향상시키는데 도움이 될 수 있음을 보여준다.

어휘정보와 명사의미정보를 이용한 사용자 질의문장 분석 (Question Analysis using Lexico Information and Noun Semantic Information)

  • 정규철;서영훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 추계종합학술대회 논문집
    • /
    • pp.185-189
    • /
    • 2003
  • 고성능의 질의 응답 시스템을 구현하기 위해서는 질의 유형 분류기의 성능이 중요하다. 본 논문에서는 복잡한 분류규칙이나 대용량의 사전 정보를 이용하지 않고 질의문에서 의문사에 해당하는 어휘들을 이용하여 질의 유형을 결정하고, 의문사 주변에 출현하는 명사들의 의미 정보를 이용하여 세부적인 정답유형을 결정할 수 있는 질의 유형분류기를 제안한다. 의문사에 해당하는 어휘가 생략된 경우는 질의문의 마지막 어절의 의미 정보를 이용하여 질의유형을 분류한다. 의문사 주변의 명사들이 마지막 어절에 출현하는 명사들에 대해 동의어 정보와 접미사 정보를 이용하여 질의 유형 분류의 성능을 향상시킨다. 본 논문에서 제안한 시스템은 질의 유형에 대한 분류는 97.4%의 정확도를 보였다.

  • PDF

어휘의미 중의성이 인터넷 정보검색 효율에 미치는 영향에 관한 연구 (A Study of Word Sense Ambiguation which Affects Efficiency of the Internet-based Information Retrieval)

  • 황상규;오경묵;변영태
    • 정보관리학회지
    • /
    • 제16권3호
    • /
    • pp.65-82
    • /
    • 1999
  • 부적절한 검색어의 선정 및 검색식의 작성은 인터넷 정보검색 수행 시 검색 효율 저하의 주요 원인으로 작용하게 된다. 또한 정보검색 수행 시 발생하는 어휘의미중의성(Word Sense Ambiguation) 역시 검색 효율 저하의 주요 원인으로 작용하는데, 어휘의미중의성에 의한 효율 저하 정도를 실험을 통해 확인하였다. 어휘의미중의성에 의한 검색 효율 저하란 검색어로 입력한 어휘가 문서에서 서로 다른 의미로 사용됨에 따라 의도하지 않은 다른 문서가 검색될 수 있음을 의미한다. 본 논문에서는 새로운 정보검색 환경인 인터넷기반정보검색에 있어 어휘의미중의성이 검색 정확률에 미치는 영향을 살펴보고, 기존의 정보검색에 있어 어휘의미중의성에 관한 연구가 인터넷기반 정보검색에 있어서도 제대로 적용되는지를 조사 분석하였다.

  • PDF

구문분석기의 어휘확장 (Lexical Expansion of Sentence Parsers)

  • 김민찬;김곤;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.755-758
    • /
    • 2005
  • 본 논문에서는 구문분석기의 어휘확장을 통해 구문분석의 성공률을 높이고자 하였다. 구문분석은 문장내 구성성분들이 가지는 통사적인 관련성을 파악하는 작업이다. 구문분석 실패의 가장 빈번한 원인 중의 하나는 미등록 어휘의 출현이다. 결여된 어휘문제를 해결하는 것은 구문분석의 성공률을 높이고, 원문이해 시스템을 보다 더 견고하게 하는데 관건으로 작용한다. 이를 위하여, 본 논문에서는 구분분석기 LGPI+ 의 어휘 사전에 존재하지 않는 단어들을 또 다른 어휘자원인 WordNet을 이용하여 해결하고자 하였다. 구체적으로는, (1) 미등록 어휘를 WordNet에서 찾고, (2) 그 유의어 정보를 파악하여, (3) LGPI+ 어휘사전에 추가한다. 실험을 통하여 구문분석의 실패를 해결하고, 정확도와 성공률을 높일 수 있음을 확인하였다.

  • PDF

한국어 어휘지도(UWordMap)와 API 소개 (Introduction to the Korean Word Map(UWordMap) and API)

  • 배영준;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.27-31
    • /
    • 2014
  • 한국어 문장의 의미 분석을 위해서는 어휘 의미들의 상의어, 하의어, 반의어, 유의어 등의 의미관계뿐만 아니라 서술어의 논항이 가지는 의미제약 정보 및 의미역, 서술어와 부사 명사와 부사, 부사와 부사와의 유의미한 결합 정보 등의 다양한 의미 정보가 필요하다. 한국어 어휘지도는 울산대 한국어처리연구실에서 2002년부터 현재까지 구축해 왔으며, 이제 구축된 결과물을 API와 함께 제공한다. 본 논문은 한국어 어휘지도의 대략적인 구조 및 API 등을 소개한다.

  • PDF

초등 읽기 어휘 조사 도구의 설계 (Design of Investigating Tool of the Vocabulary of the Korean Language Reading Textbooks for the Elementry School)

  • 배진성;김갑수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.556-558
    • /
    • 2003
  • 초등학생들에게 읽기 교과서는 어휘 습득에 있어 의도적인 자료의 시작으로, 그 어휘를 조사, 계량화하는 일의 의미는 매우 크다고 할 수 있다. 어휘 조사 과정의 중요한 작업은 많은 양의 자료를 색인, 계량하는 일이다. 이러한 자료 처리에 컴퓨터를 이용하면, 많은 부분을 자동화 할 수 있으며. 분석된 자료를 이용하여 다양한 작업이 가능할 것이다. 많은 양의 자료를 원활하게 처리하기 위해서는 적절한 도구가 필수적이다 이에 어휘 조사 과정을 보다 편리하게 하고, 자동으로 처리할 수 있으며, 만들어진 자료를 재활용 할 수 있는 어휘 조사 도구를 설계하게 되었다.

  • PDF