• 제목/요약/키워드: 어휘유형

검색결과 169건 처리시간 0.024초

자연어 질의 유형판별과 응답 추출을 위한 어휘 의미체계에 관한 연구 (A Study on Word Semantic Categories for Natural Language Question Type Classification and Answer Extraction)

  • 윤성희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 추계학술대회
    • /
    • pp.141-144
    • /
    • 2004
  • 질의응답 시스템이 정보검색 시스템과 다른 중요한 점은 질의 처리 과정이며, 자연어 질의 문장에서 사용자의 질의 의도를 파악하여 질의 유형을 분류하는 것이다. 본 논문에서는 질의 주-형을 분류하기 위해 복잡한 분류 규칙이나 대용량의 사전 정보를 이용하지 않고 질의 문장에서 의문사에 해당하는 어휘들을 추출하고 주변에 나타나는 명사들의 의미 정보를 이용하여 세부적인 정답 유형을 결정할 수 있는 질의 유형 분류 방법을 제안한다. 의문사가 생략된 경우의 처리 방법과 동의어 정보와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법을 제안한다.

  • PDF

한국어 어휘학습시스템을 위한 자동 문제 생성 (Automatic Question Generation for Korean Word Learning System)

  • 최수일;임지희;최호섭;옥철영
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.9-14
    • /
    • 2006
  • 본고는 한국어 교육방식의 하나라고 할 수 있는 한국어 어휘를 대상으로 한문제 출제 방식에서 문제 은행식 출제 방식이 갖고 있는 여러 가지 문제점을 해소할 수 있는 하나의 방법으로서 한국어 어휘 학습 시스템을 위한 자동문제 생성 기술을 제시한다. 먼저 기존 한국어 어휘 문제의 문항 분석 결과를 바탕으로 8가지 어휘력 평가 유형 및 각 유형별 자동 문제 생성 패턴을 구축하고, 한국어 어휘에 대한 풍부한 정보를 담고 있는 국어사전을 기반으로 한 자동 한국어 어휘 문제 생성 기술을 제시한다.

  • PDF

단어 간 연관성 측정을 통한 문맥 철자오류 교정 (Context-sensitive Spelling Correction using Measuring Relationship between Words)

  • 최성기;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1362-1365
    • /
    • 2013
  • 한국어 텍스트에 나타나는 오류어의 유형은 크게 단순 철자오류와 문맥 철자오류로 구분할 수 있다. 이중 문맥 철자오류는 문맥의 의미 통사적 관계를 고려해야만 해당 어휘의 오류 여부를 알 수 있는 오류로서 철자오류 중 교정 난도가 가장 높다. 문맥 철자오류의 유형은 발음 유상성에 따른 오류, 오타 오류, 문법 오류, 띄어쓰기 오류로 구분할 수 있다. 본 연구에서는 오타 오류에 의해 발생하는 문맥 철자오류를 어의 중의성 해소와 같은 문제로 보고 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법을 제안한다. 미리 생성한 교정 어휘 쌍을 대상으로 교정 어휘 쌍의 각 어휘와 주변 문맥 간 의미적 연관성을 통계적으로 측정하여 문맥 철자오류를 검색하고 교정한다. 제안한 방법을 적용한 결과 3개의 교정 어휘 쌍 모두 90%를 넘는 정확도를 보였다.

자연어 질의유형 판별과 응답 추출을 위한 어휘 의미 체계에 관한 연구 (A Study on Work Semantic Categories for Natural Language Question Type Classification and Answer Extraction)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제5권6호
    • /
    • pp.539-545
    • /
    • 2004
  • 자연어 질의를 입력하고 문서로부터 질의에 대한 정답을 추출하여 제공하는 질의응답 시스템에서는 사용자의 질의 의도를 파악하여 질의 유형을 분류하는 과정이 매우 중요하다. 본 논문에서는 질의 유형을 분류하기 위해 복잡한 분류 규칙이나 대용량의 사전 정보를 이용하지 않고 질의의 의도를 나타내는 어휘들을 추출하고 인접 명사들의 의미 정보를 이용하여 질의 및 정답 유형을 결정할 수 있는 방법을 제안한다. 또 동의어 정보와 접미사 정보를 이용하고, 의문사가 생략된 경우 어휘 의미 정보를 이용하여 질의 유형 분류기의 성능을 향상시킬 수 있음을 보인다.

  • PDF

사용자 어휘지능망과 자동문제생성기술을 이용한 한국어 어휘학습시스템 (Korean Word Learning System Using User-Word Intelligent Network and Automatic Question Generation Technique)

  • 최수일;임지희;최호섭;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-21
    • /
    • 2006
  • 본 논문에서는 올바른 한국어 생활과 한국어 실력 향상을 위하여, 한국어 어휘에 대한 풍부한 정보를 담고 있는 한국어사전, 사용자 어휘지능망(User-Word Intelligent Network : U-WIN)등의 언어자원을 이용한 자동문제생성기술을 소개하고, 이를 이용한 한국어 어휘학습시스템을 제시한다. 대부분의 학습시스템에서 사용하는 문제 은행식 출제 방식의 문제점을 해소할 수 있는 하나의 방법으로서, 기존의 한국어 어휘문제의 문항을 분석하여 8가지 문제 유형으로 재편성하고, 각 유형별 자동 문제 생성패턴에 따라 언어자원이 가지고 있는 한국어 어휘의 형태적 정보, 의미적 정보를 이용하여 한국어 어휘 문제를 자동 출제하는 한국어 어휘학습시스템을 구현하였다.

  • PDF

형태 정보에 기반한 전자사전에서의 3음절 명사 처리 (Management of Three-Syllable Nouns in Electronic Dictionary based on Morphological Information)

  • 이은전;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.156-162
    • /
    • 2000
  • 언어학적 성과를 효과적으로 반영하고 운용할 수 있는 체계적인 전자 사전 구축을 위해선, 어휘들에 대한 총체적이고 체계적인 언어 정보 제공과 함께 효율적인 처리 방식이 무엇보다도 필요하다. 따라서 이번 전자 사전 구축 작업은 내용 면에서는 형태 정보를 중심으로 다양하고 상세한 어휘 특성들을 체계적으로 제시하였고, 기술 방식에 있어서는 모든 입력 정보를 코드화 시킴으로써 효율성을 추구했다. 또한 연구 과정에서 나타난 문제 유형에 대한 인식과 검토는 앞으로 사전 개발의 원칙 및 방향을 설정하는데 도움을 줄 수 있을 것으로 기대한다. 특히 단어 형성 정보에 있어서 접사 정보가 부착된 파생어 사전은 어휘 확장과 중의성 해결을 하는데 활용될 수 있을 것이다. 본고에서는 3음절 명사 사전 작업의 전반적인 파전, 분류 유형, 어휘 정보, 기술 방법 및 앞으로 논의될 문제 유형들을 담고 있다.

  • PDF

형태 정보에 기만한 전자사전에서의 3음절 명사 처리 (Management of Three-Syllable Nouns in Electronic Dictionary based on Morphological Information)

  • 이은전;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.156-162
    • /
    • 2000
  • 언어학적 성과를 효과적으로 반영하고 운용할 수 있는 체계적인 전자 사전 구축을 위해선, 어휘들에 대한 총체적이고 체계적인 언어 정보 제공과 함께 효율적인 처리 방식이 무엇보다도 필요하다. 따라서 이번 전자 사전 구축 작업은 내용 면에서는 형태 정보를 중심으로 다양하고 상세한 어휘 특성들을 체계적으로 제시하였고, 기술 방식에 있어서는 모든 입력 정보를 코드화시킴으로써 효율성을 추구했다. 또한 연구 과정에서 나타난 문제 유형에 대한 인식과 검토는 앞으로 사전 개발의 원칙 및 방향을 설정하는데 도움을 줄 수 있을 것으로 기대한다. 특히 단어 형성 정보에 있어서 접사 정보가 부착된 파생어 사전은 어휘 확장과 중의성 해결을 하는데 활용될 수 있을 것이다. 본고에서는 3음절 명사 사전 작업의 전반적인 과정, 분류 유형, 어휘 정보, 기술 방법 및 앞으로 논의될 문제 유형들을 담고 있다.

  • PDF

어휘 빈도를 활용한 지식 검색에서의 답변 추천 시스템 (Answer Recommendation for Knowledge Search using Term Frequency)

  • 이호창;탁현기;이현아
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.315-317
    • /
    • 2012
  • 지식iN 등의 지식검색 서비스는 잘못된 답변으로 인한 낮은 신뢰성과 다수의 중복 답변 등의 문제점을 가진다. 질의문 '세상에서 가장 큰 나라'에 대해서 관련된 모든 질문과 답변을 제시하지 않고 질의문과 관련된 다수의 답변을 분석하여 답변 '러시아'를 추천하여 제시할 수 있다면 지식검색의 효용성과 신뢰성이 크게 향상될 수 있다. 본 논문에서는 질문-답변의 유형을 단어, 글, 도표, 목록의 네가지로 분류하고, 그 중 단어 유형에 대한 답변 추천 방법을 제시한다. 질의문에 대해 검색된 질문을 군집화하고, 질문에 대한 답변들에 대해서 TF, IDF, 어휘간 거리 정보를 다양하게 결합하여 어휘의 점수를 계산한다. 각 군집에서 가장 높은 점수를 가지는 어휘를 해당 군집에서 가장 중요한 어휘로 보고 추천 정답으로 제시한다. 단어 유형인 질문 100개에 대한 네이버 지식iN에 대한 시스템 평가에서 추천된 상위 1위에 대해서는 68%의 정답률을, 상위 5위까지에 대해서는 89%의 정답률을 보였다.

한글 두 글자 단어와 비단어의 어휘판단에 글자 빈도, 글자 유형, 받침이 미치는 영향: KLP 자료의 분석 (The Effect of Syllable Frequency, Syllable Type and Final Consonant on Hangeul Word and Pseudo-word Lexical Decision: An Analysis of the Korean Lexicon Project Database)

  • 신명석;박창호
    • 인지과학
    • /
    • 제34권4호
    • /
    • pp.277-297
    • /
    • 2023
  • 본 연구는 한국어 심성어휘 데이터베이스(KLP-DB)의 분석을 통해 글자 빈도, 글자의 모음 유형, 받침 유무 등 글자 수준 정보가 두 글자로 된 단어와 비단어의 어휘판단에 어떤 영향을 주는지를 알아보고자 하였다. 반응시간과 오반응률에 대한 위계적 회귀분석을 실시한 결과 단어의 어휘판단에는 단어빈도가 중대한 영향을 미치지만, 첫째 글자의 빈도, 첫째 글자와 둘째 글자의 모음 유형과 받침 유무와 같은 글자 속성이 영향을 미쳤고, 두 글자의 모음 유형의 조합 및 둘째 글자의 빈도와 받침 유무의 조합도 영향을 주었다. 비단어의 어휘판단에는 첫째 글자와 둘째 글자의 빈도, 첫째 글자의 모음 유형, 첫째 글자와 둘째 글자의 받침 유무와 같은 글자 속성이 영향을 미쳤고, 두 글자의 사용빈도의 조합, 모음 유형의 조합, 및 첫째 글자의 빈도와 받침의 조합도 영향을 주었다. 단어빈도는 단어의 어휘판단에서 강력한 영향을 미쳤으며, 글자속성은 단어보다 비단어의 판단에서 더 일관적인 영향을 미쳤다. 본 연구의 결과는 어휘판단과제에서 단어와 비단어 목록의 구성 및 반응시간의 해석에 글자 속성의 문제를 충분히 고려해야 함을 가리킨다. 글자 속성의 효과에 대한 이해는 단어 재인 과정의 이해에도 기여할 것이다.

최상급 단서 어휘를 이용한 질의-응답시스템 (Question-Answering System using the Superlative Words)

  • 박희근;오수현;안영민;서영훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 춘계 종합학술대회 논문집
    • /
    • pp.140-143
    • /
    • 2006
  • 본 논문에서는 최상급 질의에 대한 정답을 추출하는 질의-응답시스템에 대해 기술한다. 최상급 질의란 "가장", "제일", "처음", "최고의", "최대의", "최소의", "최초로", "최초의" 등의 최상급 단서 어휘를 포함하고 있는 질의를 말한다. 최상급 질의는 4가지 주요 성분-최상급 단서 어휘, 정답유형, 지역정보, 용언-과 기타 문장 성분으로 구성된다. 이 중 최상급 단서 어휘는 자신이 수식하는 용언을 반드시 필요로 하느냐에 따라 두 가지 유형으로 나뉘며, 이는 정답 추출을 위한 필수요소를 결정하는 기준이 된다. 모든 최상급 질의에 대해 최상급 단서 어휘, 정답유형, 지역정보는 정답을 추출하기 위한 필수요소이지만, 용언은 최상급 단서 어휘의 유형에 따라 필수요소로 결정된다. 본 논문의 시스템은 최상급 질의 분석을 통하여 정답 추출을 위한 필수요소를 찾고, 이를 이용하여 후보 문서와 후보 문장을 검색한 후, 정답을 추출한다. 실험 결과 최상급 질의에 대한 높은 정확률과 재현율을 보였다.

  • PDF