• Title/Summary/Keyword: 어휘정보

Search Result 1,062, Processing Time 0.028 seconds

Linguistic Features Discrimination for Social Issue Risk Classification (사회적 이슈 리스크 유형 분류를 위한 어휘 자질 선별)

  • Oh, Hyo-Jung;Yun, Bo-Hyun;Kim, Chan-Young
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.11
    • /
    • pp.541-548
    • /
    • 2016
  • The use of social media is already essential as a source of information for listening user's various opinions and monitoring. We define social 'risks' that issues effect negative influences for public opinion in social media. This paper aims to discriminate various linguistic features and reveal their effects for building an automatic classification model of social risks. Expecially we adopt a word embedding technique for representation of linguistic clues in risk sentences. As a preliminary experiment to analyze characteristics of individual features, we revise errors in automatic linguistic analysis. At the result, the most important feature is NE (Named Entity) information and the best condition is when combine basic linguistic features. word embedding, and word clusters within core predicates. Experimental results under the real situation in social bigdata - including linguistic analysis errors - show 92.08% and 85.84% in precision respectively for frequent risk categories set and full test set.

Korean Probabilistic Syntactic Model using Head Co-occurrence (중심어 간의 공기정보를 이용한 한국어 확률 구문분석 모델)

  • Lee, Kong-Joo;Kim, Jae-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.9B no.6
    • /
    • pp.809-816
    • /
    • 2002
  • Since a natural language has inherently structural ambiguities, one of the difficulties of parsing is resolving the structural ambiguities. Recently, a probabilistic approach to tackle this disambiguation problem has received considerable attention because it has some attractions such as automatic learning, wide-coverage, and robustness. In this paper, we focus on Korean probabilistic parsing model using head co-occurrence. We are apt to meet the data sparseness problem when we're using head co-occurrence because it is lexical. Therefore, how to handle this problem is more important than others. To lighten the problem, we have used the restricted and simplified phrase-structure grammar and back-off model as smoothing. The proposed model has showed that the accuracy is about 84%.

Improvement of Transformation Rule-Based Korean Part-Of-Speech Tagger (변형 규칙 기반 한국어 품사 태거의 개선)

  • Lim, Heui-Seok;Kim, Jin-Dong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.216-221
    • /
    • 1996
  • 변형 규칙 기반 품사 태거는 태깅 규칙을 코퍼스로부터 자동 학습할 수 있고, 견고하며 태깅 결과를 이해하고 분석하기가 쉽다는 장점을 갖는다. 이에 최근 한국어 특성을 고려한 변형 규칙 기반 한국어 품사 태거가 개발되었다. 하지만 이 시스템은 오류 어절의 어휘 정보를 사용하지 않으므로 수정 가능 오류에 대한 변형 규칙이 제대로 학습되지 못하며, 변형 규칙 적용 과정에 새로운 오류를 발생시킨다는 문제점이 있다. 이에 본 논문은 오류 어절의 어휘 정보를 참조할 수 있는 세부변형 규칙 추출을 이용한 변형 규칙 기반 한국어 품사 태거의 개선 방안을 제안한다. 어휘 정보를 참조할 수 있는 세부 변형 규칙의 형태는 특정 문맥 C에서 어절 W의 어절 태그 ${\alpha}$를 어절 태그 ${\beta}$로 변형한다와 같다. 제안된 방법은 약 10만 어절 크기의 학습 코퍼스에서 57개의 세부 규칙을 학습하였고, 2만 어절 크기의 실험코퍼스에 적용한 결과 95.6%의 정확도를 보임으로써 기존의 변형 규칙 기반 품사 태거의 정확도를 약 15.4% 향상시켰다.

  • PDF

Linking OntoCloud to WordNet (OntoCloud와 워드넷 연결)

  • Park, Kwang-Hee;Kim, Eun-Kyung;Choi, DongHyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.172-176
    • /
    • 2010
  • 본 논문에서는 위키피디아의 '틀(temp late)'을 기조로 하여 작성된 온톨로지인 OntoCloud의 신뢰도를 보장하고 공유 및 재사용을 가능하게 하기 위하여 또 다른 어휘집합체인 워드넷(WordNet)과의 매핑을 한다. 온톨로지 매핑 기술은 온톨로지 개발 기술의 한 방법으로, 서로 비슷한 도메인을 대상으로 이미 구축되어진 서로 다른 다수의 온롤로지를 연결시킴으로서 하나의 풍부한 정보를 가지고 있는 연결망을 구축하는 방법이다. 본 논문에서는 OntoCloud와 워드넷을 두개의 온톨로지로 정의하고 각 온톨로지의 개념에 대한 정의문 비교 방법을 통해서 두개의 온톨로지에 존재하는 유사한 개념을 연결한다. 이렇게 매핑된 정보들은 OntoCloud 개념을 워드넷 어휘로 연결함으로써 개념에 대한 직관적인 이해를 돕고, 워드넷에 연결된 다른 시소러스 (예: SUMO, CoreNet 등)와 간접적으로 연결할 수 있는 틀을 마련한다. 또한 온톨로지의 상하위 계층정보를 자동으로 보강하는 등의 OntoCloud 유지보수에 활용될 수 있다. 본 논문의 실험에서는 두개의 서로 다른 온톨로지의 정의문에 사용된 어휘의 겹침 정도로 두개의 개념의 유사성을 판별하는 방법을 보인다. 본 논문에서 제시한 방법으로 약 73%의 개념 매핑에 성공하였으나, 추후 매핑 프로세스의 전처리 과정(약자 처리 및 복합명사 대응 모듈)을 추가하고 온톨로지의 구조적 특성을 활용하여 유사 개념 자동 매핑 기술을 향상시키고자 한다.

  • PDF

A Study of Null Instantiated Frame Element Resolution for Construction of Dialog-Level FrameNet (대화 수준 FrameNet 구축을 위한 생략된 프레임 논항 복원 연구)

  • Noh, Youngbin;Heo, Cheolhun;Hahm, Younggyun;Jeong, Yoosung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.227-232
    • /
    • 2020
  • 본 논문은 의미역 주석(Semantic Role Labeling) 자원인 FrameNet을 준구어 말뭉치인 드라마 대본에 주석하는 과정과 주석 결과에 대해 서술한다. 본 논문에서는 프레임 - 프레임 논항 구조의 주석 범위를 한 문장에서 여러 발화로 이루어진 장면 (Scene) 단위의 대본으로 확장하여 문장 내에서 생략된 프레임 논항(Null-Instantiated Frame Elements)을 장면 단위 대본 내의 다른 발화에서 복원하였다. 본 논문은 프레임 자동 분석기를 통해 동일한 드라마의 한국어, 영어 대본에 FrameNet 주석을 한 드라마 대본을 선발된 주석자에 의해 대상 어휘 적합성 평가, 프레임 적합성 평가, 생략된 프레임 논항 복원을 실시하고, 자동 주석된 대본과 주석자 작업 후의 대본 결과를 비교한 결과와 예시를 제시한다. 주석자가 자동 주석된 대본 중 총 2,641개 주석 (한국어 1,200개, 영어 1,461개)에 대하여 대상 어휘 적합성 평가를 실시하여 한국어 190개 (15.83%), 영어 226개 (15.47%)의 부적합 대상 어휘를 삭제하였다. 프레임 적합성 평가에서는 대상 어휘에 자동 주석된 프레임의 적합성을 평가하여 한국어 622개 (61.68%), 영어 473개 (38.22%)의 어휘에 대하여 새로운 프레임을 부여하였다. 생략된 프레임 논항을 복원한 결과 작업된 평균 프레임 논항 개수가 한국어 0.780개에서 2.519개, 영어 1.290개에서 2.253개로 증가하였다.

  • PDF

Representative Labels Selection Technique for Document Cluster using WordNet (문서 클러스터를 위한 워드넷기반의 대표 레이블 선정 방법)

  • Kim, Tae-Hoon;Sohn, Mye
    • Journal of Internet Computing and Services
    • /
    • v.18 no.2
    • /
    • pp.61-73
    • /
    • 2017
  • In this paper, we propose a Documents Cluster Labeling method using information content of words in clusters to understand what the clusters imply. To do so, we calculate the weight and frequency of the words. These two measures are used to determine the weight among the words in the cluster. As a nest step, we identify the candidate labels using the WordNet. At this time, the candidate labels are matched to least common hypernym of the words in the cluster. Finally, the representative labels are determined with respect to information content of the words and the weight of the words. To prove the superiority of our method, we perform the heuristic experiment using two kinds of measures, named the suitability of the candidate label ($Suitability_{cl}$) and the appropriacy of representative label ($Appropriacy_{rl}$). In applying the method proposed in this research, in case of suitability of the candidate label, it decreases slightly compared with existing methods, but the computational cost is about 20% of the conventional methods. And we confirmed that appropriacy of the representative label is better results than the existing methods. As a result, it is expected to help data analysts to interpret the document cluster easier.

일상어휘를 기반으로 한 선물 가격 예측모형의 개발

  • 김광용;이승용
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 1999.03a
    • /
    • pp.291-300
    • /
    • 1999
  • 본 논문은 인공신경망과 귀납적 학습방법 등의 인공지능 방법과 선물가격결정에 대한 기존 재무이론을 사용하여 일상어휘로 표현되는 파생상품 가격예측 모형을 개발하는데 있다. 모형의 개발은 1단계로 인공신경망이나 기존의 선물가격결정이론(평균보유비용모형이나 일반균형모형)을 이용하여 선물 가격을 예측한 후, 서로 비교분석하여 인공신경망 모형의 우수성을 확인하였다. 귀납적 학습방법중 CART 알고리듬을 사용하여 If-Then 규칙을 생성하였다. 특히 실용적 측면에서 선물가격의 일상어휘화를 통한 모형개발을 여러 가지 방법으로 시도하였다. 이러한 선물가격 예측모형의 유용성은 일단 If-Then 규칙으로 표현되어 전문가의 판단에 확실한 이론적인 근거를 제시할 수 있는 장점이 있으며, 특히 의사결정지원시스템으로 활용화 될 경우 매우 유용한 근거자료로 활용될 수 있다. 이러한 선물가격 예측모형은 정확성은 분석표본과 검증표본으로 나누어 검증표본에서 세가지 기본모형(평균보유비용모형, 일반균형모형, 인공신경망 모형)과 각 모형의 귀납적 학습방법 모형의 다른 3가지 어휘표현방법 3가지를 모형별로 비교 분석하였다. 분석결과 인공신경망모형은 상당한 예측력을 갖고 있는 것으로 판명되었으며, 특히 CART를 기반으로 한 일상어휘 기반의 선물가격예측 모형은 예측력이 높은 것으로 나타났다.

  • PDF

A Study on the Automatic Descriptor Assignment for Scientific Journal Articles Using Rocchio Algorithm (로치오 알고리즘을 이용한 학술지 논문의 디스크 립터 자동부여에 관한 연구)

  • Kim, Pan-Jun
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.3 s.61
    • /
    • pp.69-89
    • /
    • 2006
  • Several performance factors which have applied to the automatic indexing with controlled vocabulary and text categorization based on Rocchio algorithm were examined, and the simple method for performance improvement of them were tried. Also, results of the methods using Rocchio algorithm were compared with those of other learning based methods on the same conditions. As a result, keeping with the strong points which are implementational easiness and computational efficiency, the methods based Rocchio algorithms showed equivalent or better results than other learning based methods(SVM, VPT, NB). Especially, for the semi-automatic indexing(computer-aided indexing), the methods using Rocchio algorithm with a high recall level could be used preferentially.

A Sentence Generation System for Multiple Choice Test with Automatic Control of Difficulty Degree (난이도 자동제어가 구현된 객관식 문항 생성 시스템)

  • Kim, Young-Bum;Kim, Yu-Seop
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.1404-1407
    • /
    • 2007
  • 본 논문에서는 객관식 문항을 난이도에 따라 자동으로 생성하는 방법을 고안하여, 학습자 수준에 적합하도록 다양하고 동적인 형태로 문항 제시를 할 수 있는 시스템을 제안하였다. 이를 위해서는 주어진 문장에서 형태소 분석을 통해 키워드를 추출하고, 각 키워드에 대하여 워드넷의 계층적 특성에 따라 의미가 유사한 후보 단어를 제시한다. 의미 유사 후보 단어를 제시할 때, 워드넷에서의 어휘간 유사도 측정 방법을 사용함으로써 생성된 문항의 난이도를 사용자가 원하는 수준으로 조정할 수 있도록 하였다. 단어의 의미 유사도는 동의어를 의미하는 수준 0에서 거의 유사도를 찾을 수 없는 수준 9 까지 다양하게 제시할 수 있으며, 이를 조절함으로써 문항의 전체 난이도를 조절할 수 있다. 후보 어휘들의 의미 유사도 측정을 위해서, 본 논문에서는 두 가지 방법을 사용하여 구현하였다. 첫째는 단순히 두 어휘의 워드넷 상에서의 거리만을 고려한 것이고 둘째는 두 어휘가 워드넷에서 차지하는 비중까지 추가적으로 고려한 것이다. 이러한 방법을 통하여 실제 출제자가 기존에 출제된 문제를 토대로 보다 다양한 내용과 난이도를 가진 문제 또는 문항을 보다 쉽게 출제하게 함으로써 출제에 소요되는 비용을 줄일 수 있었다.

  • PDF