• Title/Summary/Keyword: 형태소 매칭

Search Result 19, Processing Time 0.025 seconds

EmoNSMC: Constructing Korean Emotion Tagging Dataset Using Distant Supervision (EmoNSMC: Distant Supervision 을 이용한 한국어 감정 태깅 데이터셋 구축)

  • Lee, Young-Jun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.519-521
    • /
    • 2019
  • 최근 소셜 메신저를 통해 많은 사람들이 의사소통을 주고받음에 따라, 텍스트에서 감정을 파악하는 것이 중요하다. 따라서, 감정이 태깅된 데이터가 필요하다. 하지만, 기존 연구는 감정이 태깅된 데이터의 양이 많지가 않다. 이는 텍스트에서 감정을 파악하는데 성능 저하를 야기할 수 있다. 이를 해결하기 위해, 본 논문에서는 단어 매칭 방법과 형태소 매칭 방법을 이용하여 많은 양의 한국어 감정 태깅 데이터셋인 EmoNSMC 를 구축하였다. 구축한 데이터셋은 네이버 영화 감상 리뷰 데이터 (NSMC)에 디스턴트 수퍼비전 방법 (distant supervision) 방법을 적용하여 weak labeling을 진행하였고, 이 과정에서 한국어 감정 어휘 사전 (KTEA) 을 이용하였다. 구축된 데이터셋의 감정 분포 결과, 형태소 매칭 방법을 통해 구축한 데이터셋이 좀 더 감정 분포가 균등한 것을 확인할 수 있었다. 해당 데이터셋은 공개되어 있다.

  • PDF

Key-word Recognition System using Signification Analysis and Morphological Analysis (의미 분석과 형태소 분석을 이용한 핵심어 인식 시스템)

  • Ahn, Chan-Shik;Oh, Sang-Yeob
    • Journal of Korea Multimedia Society
    • /
    • v.13 no.11
    • /
    • pp.1586-1593
    • /
    • 2010
  • Vocabulary recognition error correction method has probabilistic pattern matting and dynamic pattern matting. In it's a sentences to based on key-word by semantic analysis. Therefore it has problem with key-word not semantic analysis for morphological changes shape. Recognition rate improve of vocabulary unrecognized reduced this paper is propose. In syllable restoration algorithm find out semantic of a phoneme recognized by a phoneme semantic analysis process. Using to sentences restoration that morphological analysis and morphological analysis. Find out error correction rate using phoneme likelihood and confidence for system parse. When vocabulary recognition perform error correction for error proved vocabulary. system performance comparison as a result of recognition improve represent 2.0% by method using error pattern learning and error pattern matting, vocabulary mean pattern base on method.

KMM: A Detailed Morphological Analysis for Korean (구조화된 상세 정보를 제공하는 한국어 형태소 분석기: KMM)

  • Kim, Soora
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.202-206
    • /
    • 2010
  • 이 논문에서는 한국어 형태소 분석기 KMM(Korean Malaga Morphology)을 소개하고자 한다. KMM의 개발 동기는 이후 자연언어 처리 단계의 기반으로 사용될 수 있을 뿐 아니라 이론 형태론 연구의 도구로도 사용될 수 있도록 상세한 형태 동사 의미 정보를 제공하는 것이었다. 이론적 틀은 좌연접 문법(Left-Associative Grammar)에 기초한 LA-MORPH이며, 좌연접 기반 문법 개발 도구인 MALAGA로 구현되었다. LA-MORPH에 기반한 KMM은 분석 실행중이 아닐 때에는 사전의 규모를 최소한으로 유지하다가 분석에 필요할 때에만 분석용 사전을 자동으로 생성한다. 형태소 분석은 분석용 사전에 근거하여, 매칭과 결합이라는 단순한 알고리즘만을 사용한다. KMM의 분석은 동사 어절의 경우, 시제, 서법, 문형, 대우법, 명사 어절의 경우 격정보, 수사 결합어절의 경우 추출된 수랑 정보 등과 같은 상세한 정보를 제시한다. 세종 말뭉치와 KIBS 말뭉치를 KMM 을 이용해서 분석한 결과 각각의 94.96%와 94.59%의 분석률과 88.4%와 90.7%의 정확도를 보였다.

  • PDF

An Improved Conversational Help Agent Using Approximate Pattern Matching (근사 패턴매칭을 이용한 개선된 대화형 도우미 에이전트)

  • 김수영;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.415-417
    • /
    • 2001
  • 인터넷의 성장에 따라, 많은 웹사이트가 생기고, 더 많은 정보들이 웹사이트에 등록되었다. 웹사이트에서 등록되는 정보가 많을수록, 사용자가 원하는 정보를 얻기가 쉽지 않다. 따라서, 사용자가 찾는 정보를 쉽게 찾을 수 있도록, 웹사이트 내에 전문(full-text) 검색엔진을 도입하기도 한다. 본 논문에서는 사용자가 자연어를 이용한 대화를 통해 웹사이트 내의 정보를 습득할 수 있도록 하는 대화형 도우미 에이전트를 위하여 한글 전처리 방법과 근사패턴매칭기법을 제안한다. 사용자가 문장을 입력하면, 동의어처리와 형태소 분석을 통해 사용자의 문장을 분석하고, 이미 작성되어 있는 지식과의 매칭을 통해 사용자에게 알맞은 대답을 제시한다. 지식은 XML 형식으로 저장되며, 사용자가 입력한 문장과 아주 똑같지 않더라도, 어느 정도의 유사도를 가지고 대답을 이끌어 낼수 있다.

  • PDF

Design and Implementation of Text Recognition Algorithm for Sign Language Interpretating System (수화통역시스템 설계 및 구현)

  • Oh, Young-Jun;Jang, Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.691-693
    • /
    • 2002
  • 수화통역시스템은 청각장애인과 건청인의 사이에 수화를 통역하고 의사소통을 원활하게 하는 역할을 하는 멀티미디어시스템이다. 현재 다양한 수화통역시스템연구개발이 진행되고 있으나 기술상의 문제로 아직 널리 보급되지 못하고 있다. 본 논문에서는 청각장애인의 입장에서 이해할 수 있는 수화동작을 구현하는 문자인식 알고리즘을 제안한다. 이 알고리즘은 문장을 인식하고 단어별, 형태소별로 구분하여 지화그림 및 수화 데이터베이스에 있는 수화그림에 매칭시키고 수화단어들을 조합하여 수화동작을 움직이게 할 수 있는 그림을 생성한다. 알고리즘의 진행과정은 한글문장, 전처리, 형태소분리, 수화단어검색, 수화단어출력, 수화문장재배열과 동작표현으로 이루어진다.

  • PDF

Implementation of a Harmful Website′s Automatic Classification System based on Morphological Analysis and Skin-Color Distribution′s Human Detection Algorithm (형태소 분석과 Skin-Color분포의 Human Detection 알고리즘을 이용한 유해사이트 자동 분류 시스템의 구현)

  • 이승만;장영헌;임정환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.601-603
    • /
    • 2004
  • 인터넷은 유익하고 건전한 정보의 유통이 대부분이지만 최근에는 익명성과 상업성으로 인해 유해 정보가 급속하게 늘어나고 있는 추세이다. 이러한 부정적인 영향으로부터 청소년들과 어린이들을 보호하기 위하여, 본 논문은 유해사이트 분류를 자동으로 할 수 있는 시스템을 제안한다. 기존의 유해사이트 구축은 검색 요원들이 유해사이트를 돌아다니며 일일이 데이터를 수집하여 분류하거나 유해사이트의 내용 중에 텍스트만을 추출하여 패턴 매칭 방법으로 분류하는 것이 대부분이었지만, 본 논문은 기존 방법의 문제점을 해결하기 위하여 형태소 분석을 이용한 사이트의 유해도 측정과 Skin-Color 분포의 분석 결과를 병합하여 95% 이상의 정확도(Precision) 성능을 보이며. 신뢰도가 높은 유해사이트 자동 분류 시스템을 구현할 수 있다는 것을 증명하였다.

  • PDF

Design of Chatterbot for Internet Slangs (통신어를 위한 채팅로봇 설계)

  • Jeon, Kil-Ho;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.155-157
    • /
    • 2010
  • 채팅로봇이란 인간과 기계가 서로 대화를 하는 컴퓨터 프로그램이다. 그 목표는 나와 대화를 하고 있는 상대방이 실제 인간인 것처럼 생각하도록 하는 것이다. 오늘날도 이 목표를 달성하기 위해 많은 연구자들이 노력하고 있으며, ELIZA, Julia, ALICE, 심심이 등 많은 채팅로봇이 개발되어 일반 사용자들에게 서비스를 제공하고 있다. 하지만 현재까지 개발된 많은 종류의 채팅로봇은 대부분 단순 패턴매칭 방식을 사용하고 있으며 이는 기존에 정의된 적절한 응답을 출력하는 것에 불과하다. 본 논문에서는 인터넷을 통해서 채팅할 때 사용하는 여러 형태의 통신어를 처리할 수 있는 방법을 제시하고 입력된 문장에 대해 형태소 분석과 품사부착을 통해 문장의 구조를 파악하고 분석된 구조를 토대로 모호한 문장의 패턴을 인식하여 인식률을 높이는 형태이다. 채팅로봇은 인터넷 업계에서 단순한 대화상대뿐만 아니라 특정 주제를 가진 홈페이지 또는 각종 쇼핑몰에서 다방면으로 그 활용도가 높기 때문에 성능이 높은 채팅로봇을 제작하여 사용한다면 사용자의 편의를 향상시키는 데에 큰 도움이 될 것으로 기대된다.

  • PDF

A Robust Pattern-based Feature Extraction Method for Sentiment Categorization of Korean Customer Reviews (강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법)

  • Shin, Jun-Soo;Kim, Hark-Soo
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.12
    • /
    • pp.946-950
    • /
    • 2010
  • Many sentiment categorization systems based on machine learning methods use morphological analyzers in order to extract linguistic features from sentences. However, the morphological analyzers do not generally perform well in a customer review domain because online customer reviews include many spacing errors and spelling errors. These low performances of the underlying systems lead to performance decreases of the sentiment categorization systems. To resolve this problem, we propose a feature extraction method based on simple longest matching of Eojeol (a Korean spacing unit) and phoneme patterns. The two kinds of patterns are automatically constructed from a large amount of POS (part-of-speech) tagged corpus. Eojeol patterns consist of Eojeols including content words such as nouns and verbs. Phoneme patterns consist of leading consonant and vowel pairs of predicate words such as verbs and adjectives because spelling errors seldom occur in leading consonants and vowels. To evaluate the proposed method, we implemented a sentiment categorization system using a SVM (Support Vector Machine) as a machine learner. In the experiment with Korean customer reviews, the sentiment categorization system using the proposed method outperformed that using a morphological analyzer as a feature extractor.

A Study on Structuring Method of Study Data Supporting Efficient Keyword Search (효율적인 키워드 검색을 지원하는 학습자료의 구조화 방법 연구)

  • Kim, Eun-Kyung;Choi, Jin-Oh
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.1
    • /
    • pp.1063-1066
    • /
    • 2005
  • Most reading systems that supply various study data generally support keyword search. But the usual keyword matching techniques have a problem to require the exact keyword matching, and could not find similar field materials. Futhermore, testing materials have too little information to apply the keyword matching search. To solve these problems, this thesis proposes the method to extract the important keyword from study data and to construct the database automatically when the data are stored at the storage. And using prepared similar terminology database, we suggest the intelligent and efficient technique to find study materials.

  • PDF

Detecting Spelling Errors by Comparison of Words within a Document (문서내 단어간 비교를 통한 철자오류 검출)

  • Kim, Dong-Joo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.16 no.12
    • /
    • pp.83-92
    • /
    • 2011
  • Typographical errors by the author's mistyping occur frequently in a document being prepared with word processors contrary to usual publications. Preparing this online document, the most common orthographical errors are spelling errors resulting from incorrectly typing intent keys to near keys on keyboard. Typical spelling checkers detect and correct these errors by using morphological analyzer. In other words, the morphological analysis module of a speller tries to check well-formedness of input words, and then all words rejected by the analyzer are regarded as misspelled words. However, if morphological analyzer accepts even mistyped words, it treats them as correctly spelled words. In this paper, I propose a simple method capable of detecting and correcting errors that the previous methods can not detect. Proposed method is based on the characteristics that typographical errors are generally not repeated and so tend to have very low frequency. If words generated by operations of deletion, exchange, and transposition for each phoneme of a low frequency word are in the list of high frequency words, some of them are considered as correctly spelled words. Some heuristic rules are also presented to reduce the number of candidates. Proposed method is able to detect not syntactic errors but some semantic errors, and useful to scoring candidates.