• 제목/요약/키워드: 어휘 데이터

검색결과 313건 처리시간 0.027초

형상 형성 제어를 이용한 어휘인식 공유 모델의 가우시안 최적화 (Gaussian Optimization of Vocabulary Recognition Clustering Model using Configuration Thread Control)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권2호
    • /
    • pp.127-134
    • /
    • 2010
  • 연속 어휘 인식 확률 분포의 공유 방법에서는 사용될 모델 파라미터들의 초기 추정치를 생성하기 위한 각 문맥들에 대한 음소 데이터가 반드시 필요하지만 이들 음소 데이터에 대한 모델을 구성할 수 없는 단점으로 가우시안 모델의 정확성을 확보하지 못한다는 단점이 있다. 이를 개선하기 위하여 확률 분포의 혼합 가우시안 모델을 최적화하고, 음소 단위로 데이터를 탐색을 지원하는 형상 형성 시스템을 제안한다. 본 논문의 형상 형성 시스템은 확장 facet 분류를 이용하여 사용자에게 음소 단위의 형상 형성 정보를 제공하므로 가우시안 모델의 정확성을 제공한다. 본 논문에서 제안한 시스템을 적용한 결과 시스템 성능에서 어휘 종속 인식률은 98.31%, 어휘 독립 인식률은 97.63%의 인식률을 나타내었다.

EmoNSMC: Distant Supervision 을 이용한 한국어 감정 태깅 데이터셋 구축 (EmoNSMC: Constructing Korean Emotion Tagging Dataset Using Distant Supervision)

  • 이영준;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.519-521
    • /
    • 2019
  • 최근 소셜 메신저를 통해 많은 사람들이 의사소통을 주고받음에 따라, 텍스트에서 감정을 파악하는 것이 중요하다. 따라서, 감정이 태깅된 데이터가 필요하다. 하지만, 기존 연구는 감정이 태깅된 데이터의 양이 많지가 않다. 이는 텍스트에서 감정을 파악하는데 성능 저하를 야기할 수 있다. 이를 해결하기 위해, 본 논문에서는 단어 매칭 방법과 형태소 매칭 방법을 이용하여 많은 양의 한국어 감정 태깅 데이터셋인 EmoNSMC 를 구축하였다. 구축한 데이터셋은 네이버 영화 감상 리뷰 데이터 (NSMC)에 디스턴트 수퍼비전 방법 (distant supervision) 방법을 적용하여 weak labeling을 진행하였고, 이 과정에서 한국어 감정 어휘 사전 (KTEA) 을 이용하였다. 구축된 데이터셋의 감정 분포 결과, 형태소 매칭 방법을 통해 구축한 데이터셋이 좀 더 감정 분포가 균등한 것을 확인할 수 있었다. 해당 데이터셋은 공개되어 있다.

  • PDF

한국어 대용량 코퍼스의 오류 어휘 탐지 방안 (Error Word Detection in Korean Corpus)

  • 최민주;박지훈;손성환;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.500-502
    • /
    • 2019
  • 대용량의 언어 코퍼스를 이용할 때, 오류 어휘가 코퍼스에 포함되어 있는 경우 해당 코퍼스를 이용한 실험의 성능이 저하될 수 있다. 이 때문에 정확한 문장들로 이루어진 코퍼스를 구축하기 위해 다량의 문장 중에서 정확하게 오류 어휘를 탐지할 필요가 있다. 본 논문에서는 대용량 데이터에서 빈도수가 낮은 음절을 이용해 오류 어휘를 탐지하는 방법을 제안하고, 제안 방법을 이용하여 오류 어휘 탐지 시 고려하여야 할 점에 대해 서술한다.

  • PDF

어휘 유사 문장 판별을 위한 BERT모델의 학습자료 구축 (Methodology of Developing Train Set for BERT's Sentence Similarity Classification with Lexical Mismatch)

  • 정재환;김동준;이우철;이연수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.265-271
    • /
    • 2019
  • 본 논문은 어휘가 비슷한 문장들을 효과적으로 분류하는 BERT 기반 유사 문장 분류기의 학습 자료 구성 방법을 제안한다. 기존의 유사 문장 분류기는 문장의 의미와 상관 없이 각 문장에서 출현한 어휘의 유사도를 기준으로 분류하였다. 이는 학습 자료 내의 유사 문장 쌍들이 유사하지 않은 문장 쌍들보다 어휘 유사도가 높기 때문이다. 따라서, 본 논문은 어휘 유사도가 높은 유사 의미 문장 쌍들과 어휘 유사도가 높지 않은 의미 문장 쌍들을 학습 자료에 추가하여 BERT 유사 문장 분류기를 학습하여 전체 분류 성능을 크게 향상시켰다. 이는 문장의 의미를 결정짓는 단어들과 그렇지 않은 단어들을 유사 문장 분류기가 학습하였기 때문이다. 제안하는 학습 데이터 구축 방법을 기반으로 학습된 BERT 유사 문장 분류기들의 학습된 self-attention weight들을 비교 분석하여 BERT 내부에서 어떤 변화가 발생하였는지 확인하였다.

  • PDF

온습도에 따른 대중의 감성(감정+감각) 활동 변화 (A change of the public's emotion depending on Temperature & Humidity index)

  • 양중기;김근영;이영호;강운구
    • 디지털융복합연구
    • /
    • 제12권10호
    • /
    • pp.243-252
    • /
    • 2014
  • 소셜 미디어 데이터를 통해 파급되는 형태를 분석하여 국내 외 정치, 경제, 보건, 사회 문화현상을 대응하고자 하는 연구가 활발히 진행 중이다. 본 연구는 한국인이 가장 많이 사용하는 검색 서비스인 검색 정보를 알 수 있는 네이버 트렌드와 소셜 데이터인 네이버 블로그, 네이버 카페와 Open Data(API)를 사용하고 기상청의 온도, 습도 데이터를 사용하였다. 사람의 감성을 나타내는 감정 어휘와 감각을 표현하는 감각어휘 중 미각 어휘를 분석하여 대중의의 감성 활동 변화를 연구하였다. 적합도 검증과 계층적 군집분석으로 군집의 개수를 정하여 비 계층적 군집분석으로 군집화 하였다. 군집분석 결과 8개의 군집으로 군집화되어 감성어휘를 알 수 있었다. 판별분석에 의하면, 군집분석에서 결정된 8개의 그룹은 98.9% 정확성을 갖는 것으로 나타났다. 본 연구에서 연구한 감성 활동 변화는 온도와 습도에 의해 감성 활동을 예측 할 수 있어 감성을 공유하고 대중의 기분을 파악하여 서로 공감대를 형성 할 수 있다.

수공간의 감성 어휘 분석에 관한 연구 (A study on Analysis of Human Sensibility Word in Water Bodies)

  • 김종표;김용수;임원현
    • 감성과학
    • /
    • 제10권2호
    • /
    • pp.209-220
    • /
    • 2007
  • 본 연구의 목적은 수공간에 대한 감성을 대표하는 어휘를 선정과 수공간의 감성 유형을 분석하기 위해 수행되었다. 수공간의 감성평가를 위한 어휘를 선정하는 것은 감정의 잣대를 만드는 일이기 때문에 감성어휘를 정확하게 선정하는 것은 매우 중요한 일이다. 기초어휘 수집을 위해 첫 단계에서 수공간에 대한 감성을 표현하는 어휘를 수공간 연구, 경관 평가 연구, 환경디자인 감성연구 등에서 수집 후 최종 129개의 어휘를 선정하였다 두 번째 단계에서는 수집된 어휘를 일반인들에게 제시하여 수공간의 감성을 나타내는 어휘로서 적절함의 정도를 5점 척도로 표시하도록 하여, 평균 3.5점 이상의 39개 어휘를 선발하였다. 세 번째 단계로 이 설문으로부터 나온 데이터에 대해 요인분석, 군집분석, 다차원분석을 실시하여 수공간에 대한 9개의 감성어휘를 추출하였다. 수공간 감성평가에 최종적으로 선발된 어휘는 체험적, 감각적, 자연적, 조화된, 깨끗한, 기분좋은, 역동적, 개방적, 낭만적이다.

  • PDF

한국어 신조어 말뭉치 구축 및 신조어 중요도 측정 방법에 대한 연구 (A Study of the construct Korean New Word Corpus and Metric of New Word Importance)

  • 김현지;정상근;황태욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-19
    • /
    • 2020
  • 신조어는 자연어처리에 있어 대단히 중요하며, 시스템의 전체 성능에 직접적인 영향을 미친다. 일단위, 주단위로 신규 발생하는 어휘들에 대해, 자동으로 신규성 및 중요도가 측정되어 제공된다면, 자연어처리 연구 및 상용시스템 개발에 큰 도움이 될 것이다. 이를 위해, 본 연구는 한국어 말뭉치 KorNewVocab을 새로이 제시한다. 먼저, 신조어가 가져야 할 세부 중요 조건을 1)신규 어휘 2)인기 어휘 3)지속 사용 어휘로 정의하고, 이 조건을 만족하는 신조어 말뭉치를 2019.01~2019.08까지의 뉴스기사를 중심으로 신조어 412개와 4,532 문장으로 구성된 신조어 말뭉치를 구축하였다. 또한, 본 말뭉치의 구축에 활용된 반자동 신규어휘 검출 및 중요도 측정 방법에 대해 소개한다.

  • PDF

온톨로지를 이용한 하천 데이터의 검색 (Searching River Information using Ontology)

  • 윤홍규;유상봉
    • 한국공간정보시스템학회 논문지
    • /
    • 제2권2호
    • /
    • pp.117-126
    • /
    • 2000
  • 지리정보는 시간이 흐름에 따라 변하는 정보를 계속 저장 유지 및 관리하여야 하기 때문에 데이터의 양이 계속 증가하고 용어간의 관계도 더욱 복잡해진다. 이러한 지리정보의 특성은 네트웍을 통한 정보의 공유 및 재사용을 위해 필요한 데이터 검색을 어렵게 한다. 지리정보의 관리, 해석, 그리고 검색의 효과를 향상시키기 위하여 지리정보분야의 어휘 정의와 분류 그리고 다른 어휘와의 관계를 포함하는 온톨로지를 활용할 수 있다. 본 논분에서는 지리정보 데이터 중 하천 관련 용어간의 온톨로지를 구축하여 지리정보 데이터의 관계에 의한 구조적인 검객이 가능하도록 하였다.

  • PDF

하천공간정보의 온톨로지 구축방안 연구 (Construction of Ontology for River GeoSpatial Information)

  • 신형진;신승희;황의호;채효석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.627-627
    • /
    • 2015
  • 기존 물관련 시스템들은 독자적인 DB 구조를 가지고 있고 검색 서비스는 자체 시스템의 DB를 직접 접근하여 사용자에게 결과를 제시하는 형식이다. 이러한 서비스의 단점은 사용자가 개별 시스템의 서비스에 대한 지식이 없으면 접근하기 어렵다는 점이다. 개별 시스템의 개별 서비스의 개념을 벗어나기 위하여 물관련 시스템에 있는 하천공간자료 검색 정보를 카탈로그 서버에 등록하고, 카탈로그 서버에 등록된 검색정보를 사용자가 검색하는 방식을 적용하고자 한다. 카탈로그 서버에 자료에 대한 정보를 등록할 때 자료의 정보를 어떻게 기술할 것인가의 문제가 발생한다. 개별 서버마다 등록하게 된다면 용어 및 문화에 의한 차이로 같은 개념을 다른 용어로 등록하게 되는 혼란이 발생할 소지가 있다. 예를 들어 강우자료에 대하여 "강우", "Precipitation", "Railfall", "비" 등으로 등록할 소지가 있다. 이러면 실제 자료가 존재하는 데도 등록 방법에 따라 자료의 검색이 어려워진다. 이러한 상황을 제어하기 위하여 검사어휘(Controlled Vocabulary)를 도입한다. 이는 포털의 운영자가 미리 용어의 개념과 용어의 분류체계를 설정하고 등록 자료의 검색어를 미리 설정하여 자료의 원천 소유자가 자료를 등록 시 검사어휘를 참고하여 등록하거나 또는 등록되지 않는 용어의 자료인 경우 이 용어를 포탈에 신규로 등록한다. 검색용어의 난립을 피하기 위하여 사용자의 신규등록은 포탈의 운영자가 어느 정도 제어할 필요가 있다. 검사어휘의 정립과 하천 관련된 분류체계는 하천공간정보 검색의 포탈을 위한 필수사항이다. 검사어휘의 정립의 주된 목적은 이질성의 극복이다. 이질성의 종류는 문법적 이질성, 데이터 형식과 구조 및 문맥적 이질성이 있다. 이 중에서 문맥적 이질성이 가장 넓고 어려운 문제이다. 단위는 분야마다 호칭이 다르고 채택하는 기준마다 다르다. 유사어는 전문용어라도 분야마다 다르다. 우리나라에서 서비스 인코딩시 국어와 영어를 어떻게 처리할 지에 대한 대책도 필요하다. 수문학의 시계열 자료를 다루는 CUAHSI/HIS의 온톨로지는 대 개념으로 물리학적, 화학적 및 생물학적인 분야로 분류하고 있다. 하천공간정보의 온톨로지 구축을 위해 데이터 분석 및 분류, 온톨로지 요소 설정, 온톨로지 데이터 테이블 작성, 클래스 생성 및 계층화, 클래스 계층화에 따른 속성 설정, 클래스에 적합한 개체 삽입, 논리 관계 확인 및 수정과 같은 과정으로 온톨로지 개발을 진행하고자 한다.

  • PDF

이미지 개체 표현을 위한 논리적 프레임워크 (A Logical Framework for Image Object Representation)

  • 최준호;김성석;최창;김판구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.197-200
    • /
    • 2005
  • 의미 기반 영상 검색은 Color, Texture, Region 정보, Spatial Color Distribution 등의 저차원 특징 정보와 이미지 데이터에 의미를 부여하기 위해 주석 처리하는 것이 일반적이다. 그리고 부여된 키워드나 시소러스와 같은 어휘 사전을 이용하여 의미기반 정보검색을 수행하고 있지만, 기존의 키워드기반 텍스트 정보검색의 한계를 벗어나지 못하는 문제를 야기 시킨다. 따라서 본 논문에서는 WordNet 어휘 사전을 확장한 개념적 어휘 체계를 갖는 대형 Ontology를 기반으로 하여 이미지 데이터 내의 객체 인식과 추출된 객체간의 관계를 정의하여 이를 논리적으로 표현할 수 있는 방법을 제시하고자 한다.

  • PDF