• 제목/요약/키워드: 어휘정보

검색결과 1,062건 처리시간 0.031초

어휘관계 정보와 질의개념연관도를 반영한 정보검색 성능 향상 기법 (Information Retrieval Based on Word Relationships and Degree of Query Concept)

  • 김준길;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.451-454
    • /
    • 2010
  • 정보검색 분야에서 어휘 불일치 문제를 해결하기 위해 질의에서의 어휘 사이의 관계를 반영하는 것은 필수적인 요구사항이 되었다. 본 논문에서는 문장-문장 번역쌍을 이용하여 어휘 번역확률을 계산하였고, 어휘관계 정보를 반영하는 번역기반 언어모델에 어휘와 질의 개념과의 연관 정도를 반영한 모델을 제안한다. 뉴스 컬렉션 집합인 TREC AP 컬렉션에 대한 비교실험을 하였다. 실험결과에서 언어모델보다 어휘 관계를 반영한 번역기반 언어모델의 성능이 향상되었고 어휘의 질의개념 연관도를 반영한 모델이 번역기반 언어모델보다 성능이 향상됨을 보였다.

부사 정보를 이용한 한국어 구조 중의성 해소 (Korean Structural Disambiguation using Adverb Information)

  • 신승은;서영훈
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.110-115
    • /
    • 2000
  • 자연 언어 처리의 구문 구조 분석에서는 중의성 있는 결과가 많이 생성된다. 이러한 중의성을 해소하는데 어휘정보가 유용하다는 것은 잘 알려져 있으며, 이러한 어휘정보와 이를 이용한 중의성 해소에 관한 연구가 많이 이루어지고 있다. 본 논문은 한국어의 구문 구조 분석 시 부사에 의해 발생되는 중의성을 해소하기 위해 수식어 사전을 이용하여 구문 분석에서의 구조 중의성을 해소하였다. 수식어 사전의 어휘정보와 대상 말뭉치를 통해 각각의 부사에 대한 문법을 구성하고, 이를 이용하여 한국어 구문 구조 분석에서 부사에 의해 발생되는 중의성을 줄일 수 있다.

  • PDF

어휘정보와 시소러스에 기반한 스팸메일 필터링 (Spam-mail Filtering based on Lexical Information and Thesaurus)

  • 강신재;김종완
    • 한국산업정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.13-20
    • /
    • 2006
  • 본 연구에서는 어휘정보와 개념정보를 기반으로 스팸메일 필터링 시스템을 구축하였다. 스팸메일을 판별할 수 있는 정보를 두 가지로 구분하였는데, 확실한 정보군은 송신자 정보, URL, 그리고 최근 스팸 키워드 리스트이며, 덜 확실한 정보군은 메일 본문에서 추출한 단어목록과 개념코드이다. 먼저 확실한 정보군을 이용하여 스팸메일을 분류하고 그다음 덜 확실한 정보군을 이용하였다. 메일 본문에 포함된 어휘정보와 개념코드는 SVM 기계학습을 한 후 사용된다. 본 연구의 결과, 더 많은 어휘정보를 특징벡터로 사용하였을 때 스팸 정확률이 상승하였으며 추가로 개념코드를 특징벡터에 포함시켰을 때 스팸 재현율이 상승하였다.

  • PDF

U-WIN을 이용한 WSD 기반의 문서 유사도 측정 (Measurement of WSD based Document Similarity using U-WIN)

  • 심강섭;배영준;옥철영;최호섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.90-95
    • /
    • 2008
  • 이미 국외에서는 WordNet과 같은 의미적 언어자원을 활용한 문서 유사도 측정에 관한 많은 연구가 진행되고 있다. 그러나 국내에서는 아직 WordNet과 같은 언어자원이 부족하여, 이를 바탕으로 한 문서 유사도 측정 방법이나 그 결과를 활용하는 방법에 관한 연구가 미흡하다. 기존에 국내에서 사용된 문서 유사도 측정법들은 대부분 문서 내에 출현하는 어휘들의 의미에 기반하기 보다는, 그 어휘들의 단순 매칭이나 빈도수를 이용한 가중치 측정법, 또는 가중치를 이용한 중요 어휘 추출방법들 이었다. 이 때문에, 기존의 유사도 측정법들은 문서의 문맥정보를 포함하지 못하고, 어휘의 빈도를 구하기 위하여 대용량의 문서집합에 의존적이며, 또한 특정 개념(의미)을 다른 어휘로 표현하거나, 유사/관련 어휘가 사용된 유사 문서에 대한 처리가 미흡하였다. 본 논문에서는 이에 착안하여 한국어 어휘 의미망인 U-WIN과 문맥에 사용된 어휘들의 overlap 정보를 사용하여, 단순히 어휘에 기반하지 않고, 기본적인 문맥정보를 활용하며, 어휘의 의미에 기반을 둔 문서유사도 측정법을 제안한다.

  • PDF

기초 어휘 선정을 위한 초등학교 국어 교과서에 등장하는 어휘 분석 방안 (Lexicon Analysis Method for Basic Lexicon Construction included 7th Mother Language Text Books of Element School)

  • 채영숙;채영희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.98-102
    • /
    • 2002
  • 초등학교 교과서에 사용된 어휘의 수준을 보기 위해 교과서에 쓰인 어휘의 사용 빈도를 포함하여 결정에 영향력을 미칠 요소를 파악하고 요소간의 관계를 설립하여 교육용 어휘 설정의 나아갈 방향을 제시하는데 목적이 있다. 7차 교육과정에 있는 초등학교 교과서에서 국어 어휘 교육 관련 항목을 살펴 이들의 단계별 학습 수준의 고려가 이루어져 있는지를 검토하고자 한다. 수준별 교육 과정에서 밝히고 있는 어휘 의미 교육의 위계가 세부적이고 치밀한 수준의 적정성을 바탕으로 하여 구성되어 있는지를 검토하고 초등학교 교육용 어휘 선정의 문제 분석을 통해 기본 어휘와 기초 어휘 분류의 적정 기준과 학습 활동에 있어 언어 사용 능력으로서의 어휘력과 언어 체계 속의 어휘력을 구분할 필요가 있음을 설명하고자 한다.

  • PDF

사용자 어휘지능망과 자동문제생성기술을 이용한 한국어 어휘학습시스템 (Korean Word Learning System Using User-Word Intelligent Network and Automatic Question Generation Technique)

  • 최수일;임지희;최호섭;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-21
    • /
    • 2006
  • 본 논문에서는 올바른 한국어 생활과 한국어 실력 향상을 위하여, 한국어 어휘에 대한 풍부한 정보를 담고 있는 한국어사전, 사용자 어휘지능망(User-Word Intelligent Network : U-WIN)등의 언어자원을 이용한 자동문제생성기술을 소개하고, 이를 이용한 한국어 어휘학습시스템을 제시한다. 대부분의 학습시스템에서 사용하는 문제 은행식 출제 방식의 문제점을 해소할 수 있는 하나의 방법으로서, 기존의 한국어 어휘문제의 문항을 분석하여 8가지 문제 유형으로 재편성하고, 각 유형별 자동 문제 생성패턴에 따라 언어자원이 가지고 있는 한국어 어휘의 형태적 정보, 의미적 정보를 이용하여 한국어 어휘 문제를 자동 출제하는 한국어 어휘학습시스템을 구현하였다.

  • PDF

문맥 및 어휘 그룹 기반 지능형 영어 어휘 학습 시스템 설계 (A Design of an Intelligent English Vocabulary Learning System based on Context and Vocabulary Group)

  • 김도현;옥준혁;장홍준;황요한;김병욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.88-90
    • /
    • 2022
  • 영어 교육 시장이 증대되면서 영어 학습을 효과적으로 지원하는 다양한 학습 시스템들이 개발되고 있다. 영어문장을 구성하는 기본적인 단위는 어휘로 문장 전체의 의미를 파악하기 위해서는 어휘의 의미를 이해하는 것이 필수적이다. 따라서 영어 어휘 능력 향상을 위한 다양한 영어 어휘 학습 시스템들이 개발되고 있으나, 어휘가 사용되는 문맥을 고려하거나 동시에 학습하면 효과적인 어휘 등 어휘 학습에 효과적인 교수학습 방법의 원리가 적용된 영어 어휘 학습 시스템에 대한 연구는 미비한 상황이다. 본 논문에서는 n 개의 영어 단어가 하나의 그룹으로 동시에 제시되면서 그 n개의 영어 단어가 모두 포함된 예문을 제공하는 지능형 영어 어휘 학습 시스템을 설계한다. 임의로 n 개의 영어 어휘가 주어졌을 경우 문맥에 맞게 영어 예문을 자동으로 생성하는 지능형 영어 문장 생성 모델이 본 연구의 핵심이다. 또한, 어휘 능력 평가에서 기존 어휘 학습 시스템과 같이 단순히 어휘를 얼마나 암기하고 있는지에 대한 평과 결과만을 제시하는 것이 아니라, 그룹별 취약 어휘 분석을 통해 효과적인 그룹 어휘 선택 규칙을 파악할 수 있는 기반을 마련하고자 한다. 본 논문에서 제안한 지능형 영어 어휘 학습 시스템을 통해 영어 어휘 학습자들의 학습 능력 향상에 도움이 될 것으로 기대한다.

색인어 선정을 위한 어휘결집력에 관한 연구 (Study on the Vocabulary Synthesis for Index Term Selection)

  • 김철;정준민
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.205-226
    • /
    • 1996
  • 본 연구는 정보결집력을 응용한 자동 색인어 선정 기법에 관한 연구로 한 문장내에 나타난 임의의 어휘가 그 문장을 표현하기 위한 의미있는 집합이라는 가설 하에 어휘쌍 그래프를 통하여 색인어를 추출하였다. 특히, 그래프에 나타난 어휘 관계에서 각 어휘의 전체 어휘쌍 그래프에 대한 결집력을 분석하여 그 결집력을 색인어 선정의 우선 순위로 제안하였다. 가설을 검증하기 위하여 먼저 논문의 제목 및 초록에서 두 문장 이상에 동시 출현한 어휘쌍을 추출하였다. 다음으로 추출한 어휘쌍과 저자가 제시한 색인어 또는 주제명과 비교하였으며 그 결과 어휘쌍 그래프에 나타난 어휘가 대부분 색인어 또는 주제명에 사용되고 있음을 분석하였다. 그 중에서도 특히, 어휘쌍 그래프에서 어휘결집력이 높은 어휘일수록 그 논문의 내용을 전달하는 의미있는 색인어로 채택될 가능성이 높음을 보여 주었다.

  • PDF

시각적 형태 정보에 관한 감성어휘 분류 (Classification of KANSEI Vocabulary according to Visual Shape Information)

  • 백선경;황광수;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.76-78
    • /
    • 2006
  • 인간의 주관적이고 애매한 감성은 차세대 컴퓨팅의 다양한 분야에서 연구되며. 인간의 감성을 이해하고 감성의 변화에 능동적으로 반응하는 사용자 중심의 정보 처리에 대한 요구가 급격히 증가하고 있다. 우리는 감성기반 이미지 검색을 위해 저차원 시각정보에 대한 강성처리를 연구하고 있다. 기존의 저차원 시각정보 특징을 고려한 내용기반 이미지 검색 방법은 사용자의 취향이나 감성 요구에 적합한 결과를 검색하기에는 많은 어려움이 있다. 본 논문에서는 인간의 감성을 이해, 검색, 인식하기 위한 시각정보와 감성간의 관계 연구 중 우리의 기존 연구인 시각적 형태 정보의 감성어휘 공간에서 형태와 어휘간의 감성거리를 이용한 분류방법을 제안한다. 그리고 분류된 각 영역에서의 대표 어휘를 추출하여 시각적 형태에 따른 감성어휘간의 구체적 계층 관계를 정의한다. 이는 감성기반 이미지 검색 분야에 활용 가능한 연구이며, 우리가 사용하는 언어에 내재된 감성정보를 해석하고 그 어휘들의 체계적인 시각적 감성관계를 정의하는 의의를 갖는다.

  • PDF

한글 인식에선 표의와 표음의 이중성

  • 이양;김정오
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-227
    • /
    • 1995
  • 본 연구는 한글 어휘의 지각과정을 분석하여 한글이 표의와 표음의 이중성을 갖고 있다는 것을 밝히고자 하였다. 먼저 문자로 쓰여진 어휘들이 표음심도에 따라서 그 지각과정이 달라진다는 표음심도가설의 한계를 확인하고 다음에 어휘들의 지각과정에 표음심도와 독립적으로 표의강도가 영향을 미친다는 것을 검증하고자 했다. 실험 1은 칠종성어휘와 비칠종성어휘를 대비시킴으로써 표음심도를 조작하였지만 그 어휘들의 지각과정이 달라지지 않았으므로 표음심도가설의 한계가 드러났다. 실험 2는 의성-의태어와 일반어를 대비시킴으로써 표의강도를 조작하여 그 효과를 얻었다. 두 실험을 종합하면 어휘의 지각에 표의성과 표음성이 독립적으로 영향을 미치고 한글의 어휘는 표음적이면서 표의적이라는 것을 결론지을 수 있었다. 본 연구는 어휘의 지각을 바탕으로 표음이 아니면 표의라는 배타적 분류의 한계를 지적하고 표의와 표음의 이차원적 분류를 제안한다.

  • PDF