• Title/Summary/Keyword: 어휘정보

Search Result 1,062, Processing Time 0.049 seconds

Conditional Random Fields based Named Entity Recognition Using Korean Lexical Semantic Network (한국어 어휘의미망을 활용한 Conditional Random Fields 기반 한국어 개체명 인식)

  • Park, Seo-Yeon;Ock, Cheol-Young;Shin, Joon-Choul
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.343-346
    • /
    • 2020
  • 개체명 인식은 주어진 문장 내에서 OOV(Out of Vocaburary)로 자주 등장하는 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 개체명이 문장 내에서 OOV로 등장하는 문제를 해결하기 위해 외부 리소스를 활용하는 연구들이 많이 진행되었다. 본 논문은 의미역, 의존관계 분석에 한국어 어휘지도를 이용한 자질을 추가하여 성능 향상을 보인 연구들을 바탕으로 이를 한국어 개체명 인식에 적용하고 평가하였다. 실험 결과, 한국어 어휘지도를 활용한 자질을 추가로 학습한 모델이 기존 모델에 비해 평균 1.83% 포인트 향상하였다. 또한, CRF 단일 모델만을 사용했음에도 87.25% 포인트라는 높은 성능을 보였다.

  • PDF

The Effects of Priming Emotion among College Students at the Processes of Words Negativity Information (유발된 정서가 대학생의 부정적 어휘정보 처리에 미치는 효과)

  • Kim, Choong-Myung
    • Journal of Convergence for Information Technology
    • /
    • v.10 no.10
    • /
    • pp.318-324
    • /
    • 2020
  • The present study was conducted to investigate the influences of emotion priming and the number of negation words on the task of sentential predicate reasoning in groups with or without anxiety symptoms. 3 types of primed emotions and 2 types of stimulus and 3 conditions of negation words were used as a within-subject variable. The subjects were instructed to make facial expressions that match the directions, and were asked to choose the correct answer from the given examples. Mixed repeated measured ANOVA analyses on reaction time first showed main effects for the variables of emotion, stimulus, number of negation words and anxiety level, and the interaction effects for the negation words x anxiety combination. These results are presumably suggested to reflect that externally intervening emotion works on language comprehension in a way that anxiety could delay task processing speed regardless of the emotion and stimulus type, meanwhile the number of negation words can slower language processing only in a anxiety group. Implications and limitations were discussed for the future work.

Automatic Error Correction System for Erroneous SMS Strings (SMS 변형된 문자열의 자동 오류 교정 시스템)

  • Kang, Seung-Shik;Chang, Du-Seong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06a
    • /
    • pp.59-60
    • /
    • 2007
  • 휴대폰과 메신저 등 통신 환경에서 사용되는 표준어가 아닌 SMS의 변형된 어휘 및 띄어쓰기 오류를 자동으로 교정하여 형태소 분석 및 품사 태깅의 성능 저하 문제를 방지하는 문자열 오류의 교정 방법을 제안하였다. 통신 어휘들의 문자열 사전 구축 방법으로 통신어휘집을 기반으로 수동으로 구축하는 방법과 수작업으로 구축된 말뭉치로부터 자동으로 변형된 문자열을 추출하는 방법, 그리고 문맥을 고려하는 방법을 비교-분석하고 실험 및 성능 평가 결과를 제시하였다.

  • PDF

A Study on the Features of Communicative Languages by Frequency Information (자모 빈도에 의한 통신 언어의 특성 연구)

  • Kang, Seung-Shik;Kim, Bo-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.501-504
    • /
    • 2003
  • 인터넷 채팅과 문자 메시지 등 통신 환경에서 사용되는 어휘들은 일정한 규칙성과 방향성을 가지고 있을 것으로 추정된다. 통신 용어의 생성 규칙과 음운론적 변형 현상을 규명하기 위하여 통신 용어의 사용 빈도의 분석과 언어학적 접근 방법을 통하여 통신 언어의 생성 원인을 분석한다 통신 환경에서 변형되어 사용되는 어휘들의 표준어와 통신상에서 사용되는 어휘 형태에 대해 각각 초성, 중성, 종성 빈도를 계산하고 통신 용어와 표준의 자모 사용 비율 변화를 분석하여 통신 용어가 생성되는 원인을 분석하였다.

  • PDF

Classification System for Emotional Verbs and Adjectives (감정동사 및 감정형용사 분류에 관한 연구)

  • 장효진
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2001.08a
    • /
    • pp.29-34
    • /
    • 2001
  • 영상자료 및 소리자료의 색인과 검색을 위해서는 감정동사 및 감정형용사 등의 감정 어휘를 필요로 한다. 그러나 감정어휘는 그 뉘앙스가 미묘하여 분명한 분류체계가 없이는 체계적인 정리가 불가능하다. 이에 따라 본 연구에서는 국어학과 분류사전의 분류체계를 고찰하고 새로운 감정어휘의 분류방안을 연구하였으며, 감정에 따른 기쁨, 슬픔, 놀람, 공포, 혐오, 분노의 6가지 기본유형을 제시하였다.

  • PDF

A Comparative Study on the Structures of Indexing Languages between LC Subject Headings and Thesaurus (LC주제명표목표와 시소러스의 색인어 구조 비교연구)

  • 김주성;김태수
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1995.08a
    • /
    • pp.111-114
    • /
    • 1995
  • 전산환경에서 유용한 색인도구로서의 통제어휘집을 구성하는 원칙과 방법을 제시하고자 전조합색인용 통제어휘집인 LC주제명표목표의 표목구조와 후조합색인용 통제어휘집인 시소러스의 용어구조를 비교하였다. 주제명표목표에서 사용되는 도치표목, 전치사로 연결된 표목, 접속사로 연결된 표목, 세목을 가진 표목을 시소러스에서 사용되는 색인구조와 비교분석 하였다. 주제명표목표가 참조구조를 시소러스체제로 변환시켰을 때 나타나는 문제점도 파악하였다.

  • PDF

A Measurement of Lexical Relationship for Concept Network Based on Semantic Features (의미속성 기반의 개념망을 위한 어휘 연관도 측정)

  • Ock, Eun-Joo;Lee, Wang-Woo;Lee, Soo-Dong;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.146-154
    • /
    • 2001
  • 본 논문에서는 개념망 구축을 위해 사전 뜻풀이말에서 추출 가능한 의미속성의 분포 정보를 기반으로 어휘 연관도를 측정하고자 한다. 먼저 112,000여 개의 사전 뜻풀이말을 대상으로 품사 태그와 의미 태그가 부여된 코퍼스에서 의미속성을 추출한다. 추출 가능한 의미속성은 체언류, 부사류, 용언류 등이 있는데 본 논문에서는 일차적으로 명사류와 수식 관계에 있는 용언류 중 관형형 전성어미('ㄴ/은/는')가 부착된 것을 대상으로 한다. 추출된 공기쌍 45,000여 개를 대상으로 정제 작업을 거쳐 정보이론의 상호 정보량(MI)을 이용하여 명사류와 용언류의 연관도를 측정한다. 한편, 자료의 희귀성을 완화하기 위해 수식 관계의 명사류와 용언류는 기초어휘를 중심으로 유사어 집합으로 묶어서 작업을 하였다. 이러한 의미속성의 분포 정보를 통해 측정된 어휘 연관도는 의미속성의 공유 정도를 계산하여 개념들간에 계층구조를 구축하는 데 이용할 수 있다.

  • PDF

The Design of Context-Aware Middleware Architecture for Processing Emotional Information (감성정보를 처리하는 상황인식 미들웨어의 구조 설계)

  • Kim, Jin-Bong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.889-890
    • /
    • 2009
  • 유비쿼터스 컴퓨팅 환경에서 가장 핵심적인 부분은 상황(Context)을 인식하고, 그 상황에 따라서 최적의 서비스를 제공해 주는 것이다. 이러한 최적의 서비스를 제공하기 위해서는 최적의 상황을 인식하는 상황인식 컴퓨팅 기술 연구와 그 상황을 설계하는 모델링 기술들이 중요하다. 현재 대부분의 상황인식 컴퓨팅 기술은 지정된 공간에서 상황을 발생시키는 객체를 식별하는 일과 식별된 객체가 발생하는 상황의 인식에 주된 초점을 두고 있다. 또한, 상황정보로는 객체의 위치 정보만을 주로 사용하고 있다. 그러나 본 논문에서는 객체의 감성어휘를 상황정보로 사용하여 감성을 인식할 수 있는 상황인식 미들웨어로서 EIP-CAM의 구조를 제안한다. EIP-CAM 구조의 모델링은 상황인식 모델링과 서비스 모델링으로 구성된다. 또한, 감성어휘의 범주화 기술을 기반으로 온톨로지를 구축하여 객체의 감성을 인식한다. 객체의 감성어휘를 상황정보로 사용하고, 부가적으로 환경정보(온도, 습도, 날씨 등)를 추가하여 인식한다.. 객체의 감성을 표현하기 위해서 OWL 언어를 사용하여 온톨로지를 구축하였으며, 감성추론 엔진은 Jena를 사용했다.

The Application and Evaluation of Verbal Lexical-Semantic Network Using Automatic Word Clustering (단어클러스터링을 이용한 동사 어휘의미망의 활용 및 평가)

  • Kim, Hae-Gyung;Yoon, Ae-Sun
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.1-7
    • /
    • 2006
  • 최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만, 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다. 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68,455,856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '[-하]동사류' 3,656개의 어휘의미를 포함하는 동사어휘의미망을 포함하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘들의 세 번째 층위까지의 노드 동일성 여부로 정확률 검수를 하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론, 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

  • PDF

Korean Lexical Disambiguation Based on Statistical Information (통계정보에 기반을 둔 한국어 어휘중의성해소)

  • 박하규;김영택
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.19 no.2
    • /
    • pp.265-275
    • /
    • 1994
  • Lexical disambiguation is one of the most basic areas in natural language processing such as speech recognition/synthesis, information retrieval, corpus tagging/ etc. This paper describes a Korean lexical disambiguation mechanism where the disambigution is perfoemed on the basis of the statistical information collected from corpora. In this mechanism, the token tags corresponding to the results of the morphological analysis are used instead of part of speech tags for the purpose of detail disambiguation. The lexical selection function proposed shows considerably high accuracy, since the lexical characteristics of Korean such as concordance of endings or postpositions are well reflected in it. Two disambiguation methods, a unique selection method and a multiple selection method, are provided so that they can be properly according to the application areas.

  • PDF