• 제목/요약/키워드: 어휘정보

검색결과 1,062건 처리시간 0.022초

감성어휘를 이용한 감성이미지 수집 (Collecting Affective Images using Affective Word List)

  • 류기곤;임희석;남기춘;김현철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.114-117
    • /
    • 2010
  • 특정 대상 또는 외부 자극에 대해 반사적이고 직관적으로 발생하는 느낌으로 정의되는 감성은 자신의 경험을 바탕으로 개개인이 서로 다른 반응을 보이는 특징을 가진다. 이러한 감성은 맞춤형, 적응형 및 개인화된 서비스를 요구하는 현대사회에서 반드시 필요하고 연구되어야 하는 대상이다. 하지만, 감성은 외부 자극에 따라 빠르게 변하고 객관성을 유지하기 어려울 뿐 아니라 복합적으로 나타나기 때문에 측정하거나 표현하기가 매우 어렵다. 시각정보는 감성을 이해하고 전달하는 데 큰 비중을 차지하며, 대상에 대한 종합적인 정보를 전달하여 빠르게 인지하고 이해하는데 많은 도움을 준다. 그 중 색채정보는 대상의 객관적인 특정, 심리적 속성 및 사회적 배경을 반영할 수 있어 복합적인 감성을 효과적으로 표현하고 전달한다. 많은 연구를 통해 감성과 색채정보 간의 관계를 생성하고 정의하였지만, 단일 시각정보로 감성을 표현하는 것은 한계가 있다. 본 논문에서는 종합적인 시각정보를 고려한 감성연구를 제안하기 위해 대용량의 감성어휘와 이미지를 수집하였다. 감성어휘는 The Center for the Study of Emotion and Attention(CSEA)에서 생성한 균형 감성어휘 중 273개를 사용하였고 감성이미지는 객관성과 공통성을 유지하기 위해 사용자의 참여가 활발하고 이미지에 부착된 태그가 비교적 정확한 Flickr를 사용하여 수집하였다. 감성어휘 당 약 500개의 이미지를 수집하고자 시도하였고, 총 130,944개의 감성이미지 후보를 수집하였다. 한 번 수집된 이미지는 중복을 피하였고, JPEG형식으로 저장되어 있다. 또한, 각 이미지에는 사용자 태그가 평균적으로 약 25개가 포함되어 있고, 총 2,l47,645개의 태그를 수집하였다.

  • PDF

어휘 인식 시스템의 인식률 향상을 위한 어휘 유사율 처리 지원 (Vocabulary Likelihood rate Process support for Recognition rate Improvement of Vocabulary Recognition System)

  • 김규호;오상엽
    • 디지털융복합연구
    • /
    • 제10권11호
    • /
    • pp.359-363
    • /
    • 2012
  • 어휘 인식 모델에서는 정확하지 않은 어휘로 부터 특징을 추출하기 때문에 어휘가 실제 어휘와 유사한 어휘로 인식되거나 인식이 되지 않는 현상이 나타난다. 이를 위해 본 논문에서는 효율적인 형상 형성을 지원하는 시스템을 모델링하고 구현하였으며, 형상 형성 정보를 효율적으로 처리하고 어휘 유사율 관리를 최적화하기 위해 데이터베이스 검색에서 facet 방법을 응용하였다. 본 논문에서 제안한 시스템을 적용한 결과 시스템 성능에서 어휘 종속 인식률은 95.31%, 어휘 독립 인식률은 97.38%의 인식률을 나타내었다.

웹 기반 영어 어휘 학습 보조 시스템 설계 및 구현 (A Design and Implementation of a Web-based Learning System for English Vocabulary)

  • 유혜진;이미정
    • 정보처리학회논문지A
    • /
    • 제10A권4호
    • /
    • pp.375-380
    • /
    • 2003
  • 어휘 학습은 영어 학습에 있어 기반이 되는 매우 중요한 요소임에도 불구하고, 실제 학교 현장에서는 문법이나 독해 등 다른 요소에 비해 중요하게 다루어지지 못하고 있는 실정이다. 또한, 영어학습을 위한 인터넷 사이트들도 많이 제공되고 있지만, 이들 사이트에서 조차도 어휘 학습보다는 문법이나, 구문. 독해 등에 그 초점이 맞추어져 있는 경우가 대부분이고 어휘학습을 위한 기능제공은 극히 제한적임을 볼 수 있었다. 이에 본 연구에서는, 한정된 수업시간 내에 이루어지기 어려운 영어어휘 학습을 수업전이나 후에 학습자 스스로 수행 할 수 있도록 하기 위해 웹 기반의 어휘학습 보조 시스템을 설계, 구현하였다. 이 시스템은 학습자가 스스로 문맥을 통한 어휘학습을 수행할 수 있도록 해 주며, 어렵거나 새로운 어휘를 반복 학습하는데 효과적인 학습구조를 갖추고 있다.

언어정보 DB 구축을 위한 문법적 주석 상의 몇 문제 - 기존 국어사전의 어휘 정보 수용과 관련된 문제를 중심으로 (Problems in Syntactic Annotation for Building a LDB in Korean)

  • 신선경;한영균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.73-81
    • /
    • 1992
  • 한 언어에 대한 포괄적인 언어정보 데이타베이스의 구축에 있어서는 수집된 텍스트에 대한 상세한 문법정보의 주석이 일차적 작업 대상이 된다. 이는 통사적 정보가 단순히 구문 분석상의 문제들을 해결하기 위한 정보를 제공해주는 것일 뿐 아니라 형태소 해석 및 문장 의미의 파악등 자연언어 이해시스템 전반의 성능을 향상시키는 데에 중요한 물을 차지하기 때문이다. 각개 단어의 문법적 기능에 대한 주석은 사전적 정의에 따른다면 "품사"로 표현할 수 있을 것이다. 그런데 품사는 각개 단어가 지니는 고유한 어휘의미적 정보이기보다는 구문구조에 의존적인 양상을 보인다. 이는 사전에 따라서 각개 단어에 대한 품사 정보가 달리 나타나는 점에서도 간취할 수 있는데, 한편으로 한국어 언어정보 데이타베이스 구축을 위한 문법적 주석에 있어서는 기존 사전의 품사정보에만 의존할 수는 없다는 문제점이 제기된다. 따라서 각 어휘들의 구문정보(흑은 품사정보)를 어떻게 기술할 것인가가 해결되어야 하는 것이다. 본 연구에서는 일차적으로 각 어휘들의 문장 안에서의 기능을 바탕으로 한 주석체계를 설정하고 그에 따라서 약 12만개의 문장에 대한 일차적 형식화를 수작업으로 처리하였다. 이는 향후 자동적으로 문법적 주석이 가능하도록 해주는 시스템의 개발을 지원하기 위한 언어정보의 수집에 목적을 둔 것인데, 이를 통해서 기존 국어사전에서의 언어정보상의 미비점을 수정 보완할 몇 가지 근거를 마련할 수 있었다.

  • PDF

어휘 및 형태 정보를 이용한 한국어 Two-level 어휘사전 자동 구축 (Automatic Construction of Korean Two-level Lexicon using Lexical and Morphological Information)

  • 김보겸;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권12호
    • /
    • pp.865-872
    • /
    • 2013
  • Two-level 형태소 분석 방법은 규칙 기반 방법 중 하나로 형태소의 변화 현상을 규칙으로 처리하고, 기본 어휘 사전을 기반으로 형태소 결합관계를 분석한다. 이는 언어에 독립적인 방법으로 한국어에 대해서도 일부 구축되어 적용됨이 증명되었다. 그러나 기존 한국어에 대한 Two-level 형태소 분석기는 사전을 수동으로 구축하여 규모가 매우 작고 실제 사용에 제한적이었으며, 과분석이 많아 효율성이 매우 떨어졌다. 본 논문은 세종 품사부착 말뭉치에서 대규모의 Two-level 어휘 사전을 자동으로 구축하여 형태소 분석기의 적용 범위를 넓히고, 형태소간의 결합관계를 어휘 정보와 어휘 형태에 따른 하위품사 정보를 이용하여 분석함으로써 형태소 분석기의 성능을 향상시킬 수 있는 방법을 제시한다. 실험 결과, 기존의 방법보다 형태소 분석기의 과분석을 68% 이상 줄여 f-measure를 25.5% point 이상 향상시킬 수 있었다.

어휘망(U-WIN)의 구문관계 자동구축 (Automatic Construction of Syntactic Relation in Lexical Network(U-WIN))

  • 임지희;최호섭;옥철영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권10호
    • /
    • pp.627-635
    • /
    • 2008
  • 본 연구에서는 사용자 어휘지능망(U-WIN)의 어휘 관계 중의 하나인 구문관계를 자동으로 구축하는 방법을 제시하고자 한다. 먼저, 구문관계를 형성할 수 있는 후보명사를 용언의 용례에서 문형 정보를 기준으로 추출함으로써, 용언의 세분화된 의미별로 정확하고 다양한 후보명사를 추출할 수 있다. 그러나 추출된 후보명사는 다양한 의미를 지니고 있으므로, 어휘간의 명확한 구문관계를 설정하기 위해서는 후보명사의 여러 의미 중에서 정확한 의미로 결정해야 한다. 그래서 본 연구에서는 용례 매칭 규칙, 구문 패턴, 의미 유사도, 빈도 정보 등을 이용하여 후보명사의 의미를 분별한다. 또한 구문패턴의 빈도 정보를 이용하여 용례에 나타나지 않지만 구문관계를 형성할 수 있는 명사를 추출하여 구문관계를 확장하고자 하였다. 이러한 연구는 명사 중심의 어휘망이 용언과의 구문관계 구축을 통해 형태소 분석, 구문 분석, 의미분석 등에 광범위하게 활용할 수 있는 어휘망의 기반을 다지는 작업이 될 수 있을 것이다.

U-WIN의 구문관계 자동구축 방법 (Automatic Construction of Syntactic Relation in U-WIN)

  • 임지희;김동명;최호섭;윤화묵;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.84-90
    • /
    • 2007
  • 일반적인 어휘망이 의미 관계에 의한 연결 구조를 중심으로 연구 개발된 것과는 달리, U-WIN은 의미관계를 비롯하여 개념 관계, 형태 관계, 구문 관계 등과 같이 의미 관계의 범위를 확장한 어휘 관계를 적용하여 구축하고 있다. 본 연구에서는 U-WIN의 어휘 관계 중의 하나인 구문관계를 자동으로 구축하는 방법을 제시하고자 한다. 먼저, 용언의 용례에서 문형정보를 기준으로 구문관계를 형성할 수 있는 후보명사를 추출하였으며, 추출한 후보명사는 용언의 세분화된 의미별로 정확하고 다양하게 추출할 수 있었다. 그러나 U-WIN은 다의어의 뜻풀이 하나하나를 개별적인 어휘로 구분하여 구축하였으므로, 어휘 간의 구문관계를 설정하기 위해서는 후보명사의 여러 의미 중에서 하나의 의미로 결정해야 한다. 그래서 본 연구에서는 용례 매칭 규칙, 구문패턴, 의미 유사도 등을 차례로 적용하여 후보명사의 의미를 분별하였으며, 또한 구문패턴의 빈도 정보를 이용하여 용례에 나타나지 않지만 구문관계를 형성할 수 있는 명사를 추출하여 구문관계를 확장하고자 하였다. 이러한 연구는 명사 중심의 어휘망이 용언과의 구문관계 구축을 통해 형태소 분석, 구문 분석, 의미 분석 등에 광범위하게 활용할 수 있는 어휘망의 기반을 다지는 작업이 될 수 있을 것이다.

  • PDF

잠정적 부적합 문서와 어휘 근접도를 반영한 어휘 그래프 기반 질의 확장 (Query Expansion Based on Word Graphs Using Pseudo Non-Relevant Documents and Term Proximity)

  • 조승현;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.189-194
    • /
    • 2012
  • 본 논문에서는 정보검색 성능 향상을 위해 잠정적 적합 문서 및 부적합 문서와 어휘 그래프를 이용한 질의 확장 방법을 제안한다. 언어모델에 의한 초기 검색 결과 상위 문서들은 질의 어휘 조합과 근접도를 기반으로 핵심 질의를 포함하는 문서들로 구성된 핵심 질의 클러스터와 핵심 질의를 포함하지 않는 문서들로 구성된 비핵심 질의 클러스터로 분류된다. 이때, 핵심 질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심 질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 각 클러스터는 어휘들과 질의 어휘와의 가까운 정도에 따라 어휘 그래프로 표현된다. 각 어휘에 대한 중요도는 핵심 질의 클러스터 그래프에서의 어휘 가중치에서 비핵심 질의 클러스터 그래프에서의 어휘의 가중치를 빼서 계산한다. 이는 부적합 문서에서 높은 가중치를 갖는 어휘는 확장 질의에서 제외시키는 역할을 한다. 중요도가 높은 어휘 순으로 확장할 질의를 선택한다. 웹 문서 테스트컬렉션인 TREC WT10g에서의 실험 결과에서 제안 방법이 언어모델(LM)에 비해 평균 정확률의 평균(MAP)에서 9.4% 성능 향상을 보였다.

한국어 어휘의미망 KorLex 1.5의 구축방법론과 정보구조 (Methodologies for Constructing KorLex 1.5 (a Korean WordNet) and its Semantic Structure)

  • 윤애선;권혁철;이은령;황순희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.42-47
    • /
    • 2008
  • 1980년대 중반부터 지난 20여 년간 구축해 온 영어 워드넷(PWN)은 인간의 심상어휘집을 재현하려는 목적으로 개발되기 시작하였으나, 그 활용 가능성에 주목한 것은 자연언어처리와 지식공학 분야다. 컴퓨터 매개 의사소통(CMC), 인간-컴퓨터 상호작용(HCI)에서 인간 언어를 자연스럽게 사용하여 필요한 정보를 획득하기 위해서는 의미와 지식의 처리가 필수적인데, 그 해결의 실마리를 어휘라는 실체를 가진 언어단위에서 찾을 수 있기 때문이다. 이후 전 세계적으로 약 50개 언어의 어휘의미망이 PWN을 참조모델로 구축되어 다국어처리의 기반을 제공할 뿐 아니라, 시맨틱 웹 이후 더욱 주목 받고 다양한 방식으로 활용되고 있다. 본고는 PWN을 참조 모델로 2004년부터 2007년까지 구축한 한국어 어휘의미망 KorLex 1.5를 소개하는 데 있다. 현재 KorLex은 명사, 동사, 형용사, 부사 및 분류사로 구성되며, 약 13만 개의 신셋과 약 15만 개의 어의를 포함하고 있다.

  • PDF

격틀집합을 이용한 한국어 형용사 유형 분류 (The Classification of Korean Adjectives using Case Frame Set)

  • 전지은;최재웅
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.254-261
    • /
    • 2006
  • 형용사 분류에 격틀이 중요한 역할을 한다는 주장은 여러 연구에서 제기된 바 있다. 본 연구에서는 격틀이 의미 분류에 기여하는 바를 보다 체계적으로 검토하기 위하여 '격틀집합'을 활용한다. 격틀집합은 한 개의 어휘가 취할 수 있는 격틀의 집합을 말한다. 격틀집합에 근거하여 형용사를 분류할 경우, 의미적으로 연관성이 높은 그룹으로 나뉠 수 있다는 가설을 바탕으로 이러한 가설의 타당성을 검증하고 이를 입증하는 것이 본 연구의 목적이다. 아울러 본 연구에서는 그러한 가설을 검증하기 위한 구체적인 방법론을 제시한다. 격틀집합정보는 세종전자사전에 들어있는 어휘별 격틀정보를 추출하여 활용한다. 본 연구 결과 도출된 총 101개의 격틀집합 중에서 한 개의 격틀만을 갖는 유형과 어휘목록이 5개미만인 유형을 제외한 12개의 격틀집합이 주요 분석 대상으로, 본 연구에서는 그 중에서 6개를 자세히 분석한다. 격틀집합별 어휘들을 살펴보면 의미적 연관성이 파악되지 않는 어휘들도 일부 포함되어 있기는 하나, 대부분은 의미적으로 상관관계가 있음을 확인할 수 있었다 이와 같은 방법론을 통해 국어 형용사 전체의 유형, 더 나아가 국어 용언을 분류하는데 본 연구의 가설과 방법론이 활용될 수 있다.

  • PDF