• Title/Summary/Keyword: 단어 중의성

Search Result 121, Processing Time 0.025 seconds

Fake news detection using deep learning (딥러닝 기법을 이용한 가짜뉴스 탐지)

  • Lee, Dong-Ho;Lee, Jung-Hoon;Kim, Yu-Ri;Kim, Hyeong-Jun;Park, Seung-Myun;Yang, Yu-Jun;Shin, Woong-Bi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.384-387
    • /
    • 2018
  • SNS가 급속도로 확산되며 거짓 정보를 언론으로 위장한 형태인 가짜뉴스는 큰 사회적 문제가 되었다. 본 논문에서는 이를 해결하기 위해 한글 가짜뉴스 탐지를 위한 딥러닝 모델을 제시한다. 기존 연구들은 영어에 적합한 모델들을 제시하고 있으나, 한글은 같은 의미라도 더 짧은 문장으로 표현 가능해 딥러닝을 하기 위한 특징수가 부족하여 깊은 신경망을 운용하기 어렵다는 점과, 형태소 중의성으로 인한 의미 분석의 어려움으로 인해 기존 오델들을 적용하기에는 한계가 있다. 이를 해결하기 위해 얕은 CNN 모델과 음절 단위로 학습된 단어 임베딩 모델인 'Fasttext'를 활용하여 시스템을 구현하고, 이를 학습시켜 검증하였다.

Analysis on Sentence Error Types of Mathematical Problem Posing of Pre-Service Elementary Teachers (초등학교 예비교사들의 수학적 '문제 만들기'에 나타나는 문장의 오류 유형 분석)

  • Huh, Nan;Shin, Hocheol
    • Journal of the Korean School Mathematics Society
    • /
    • v.16 no.4
    • /
    • pp.797-820
    • /
    • 2013
  • This study intended on analyzing the error patterns of mathematic problem posing sentences by the 100 elementary pre-teachers and discussing about the solutions. The results showed that the problem posing sentences have five error patterns: phonological error patterns, word error patterns, sentence error patterns, meaning error patterns, and notation error patterns. Divided into fourteen specific error patterns, they are as in the following. 1) Phonological error patterns are consisted of the 'ㄹ' addition error pattern and the abbreviated word error pattern. 2) Words error patterns are divided with the inappropriate usage of word error pattern and the inadequate abbreviation error pattern, which are formulized four subgroups such as the case maker, ending of the word, inappropriate usage of word, and inadequate abbreviation of article or word error pattern in detail. 3) Sentence error patterns are assumed four kinds of forms: the reference, ellipsis of sentence component, word order, and incomplete sentence error pattern. 4) Meaning error patterns are composed the logical contradiction and the ambiguous meaning. 5) Notation error patterns are formed four patterns as the spacing, punctuation, orthography of Hangul, and spelling rules of foreign words in Korean. Furthermore, the solutions for these error patterns were discussed: First, it has to be perceived the differences between spoken and written language. Second, it has to be rejected the spoken expressions in written contexts. Third, it should be focused on the learning of the basic sentence patterns during the class. Forth, it is suggested that the word meaning should have the logical development perception based on what it means. Finally, it is proposed that the system of spelling of Korean has to be learned. In addition to these suggestions, a new understanding is necessary regarding writing education for college students.

  • PDF

On the relationship between the phonetic realizations of the allophones of the Korean liquid /l/ and their prosodic status (한국에 유음 /l/의 변이음들의 음성적 실현과 운율적 위상과의 상관관계에 관하여)

  • 이숙향
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.7
    • /
    • pp.85-91
    • /
    • 1999
  • The purpose of this study is to investigate phonetic realization of flap [r], one of the allophones of Korean /l/. Phonetic realization of a segment is affected by not only its neighboring segments but also its prosodic position in an utterance. This study examined how various prosodic positions affect the phonetic realization of [r]. Effects of the four prosodic positions on the phonetic realization of [r] were examined: utterance initial, Intonation Phrase initial, Accentual Phrase initial, and Accentual Medial positions. Word positional effect was also examined: word initial, medial, and final positions. Acoustic and statistical analyses showed that flap [r] was realized in a variety of phonetic forms: from sonorant(the most reduced form) to short stop(the least reduced form). It was shown that generally. word-initial position is stronger than word-medial position. It was also shown that in many cases, utterance-initial position and intonation-phrase-initial position are stronger than accentual-phrase-initial and accentual-phrase-medial positions. Sonorants were observed more often in the prosodically weaker portions. VOT duration was also shorter in accentual-phrase-initial and accentual-phrase-medial positions.

  • PDF

A Semi-Automatic Semantic Mark Tagging System for Building Dialogue Corpus (대화 말뭉치 구축을 위한 반자동 의미표지 태깅 시스템)

  • Park, Junhyeok;Lee, Songwook;Lim, Yoonseob;Choi, Jongsuk
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.5
    • /
    • pp.213-222
    • /
    • 2019
  • Determining the meaning of a keyword in a speech dialogue system is an important technology for the future implementation of an intelligent speech dialogue interface. After extracting keywords to grasp intention from user's utterance, the intention of utterance is determined by using the semantic mark of keyword. One keyword can have several semantic marks, and we regard the task of attaching the correct semantic mark to the user's intentions on these keyword as a problem of word sense disambiguation. In this study, about 23% of all keywords in the corpus is manually tagged to build a semantic mark dictionary, a synonym dictionary, and a context vector dictionary, and then the remaining 77% of all keywords is automatically tagged. The semantic mark of a keyword is determined by calculating the context vector similarity from the context vector dictionary. For an unregistered keyword, the semantic mark of the most similar keyword is attached using a synonym dictionary. We compare the performance of the system with manually constructed training set and semi-automatically expanded training set by selecting 3 high-frequency keywords and 3 low-frequency keywords in the corpus. In experiments, we obtained accuracy of 54.4% with manually constructed training set and 50.0% with semi-automatically expanded training set.

A Korean Grammar Checker based on the Trees Resulted from a Full Parser (전체 문장 분석에 기반한 한국어 문법 검사기)

  • 이공주;황선영;김지은
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.10
    • /
    • pp.992-999
    • /
    • 2003
  • The purpose of a grammar checker is to find a grammatical erroneous expression in a sentence, and to provide appropriate suggestions for them. To find those errors, grammar checker should parse the whole input sentence, which is a highly time-consuming job. B7or this reason, most Korean grammar checkers adopt a partial parser that can analyze a fragment of a sentence without an ambiguity. This paper presents a Korean grammar checker using a full parser in order to find grammatical errors. This approach allows the grammar checker to critique the errors between the two words in a long distance relationship within a sentence. As a result, this approach improves the accuracy in correcting errors, but it nay come at the expense of decrease in its performance. The Korean grammar checker described in this paper is implemented with 65 rules for checking and correcting the grammatical errors. The grammar checker shows 96.49% in checking accuracy against the test corpus including 7 million words.

The Construction of a Domain-Specific Sentiment Dictionary Using Graph-based Semi-supervised Learning Method (그래프 기반 준지도 학습 방법을 이용한 특정분야 감성사전 구축)

  • Kim, Jung-Ho;Oh, Yean-Ju;Chae, Soo-Hoan
    • Science of Emotion and Sensibility
    • /
    • v.18 no.1
    • /
    • pp.103-110
    • /
    • 2015
  • Sentiment lexicon is an essential element for expressing sentiment on a text or recognizing sentiment from a text. We propose a graph-based semi-supervised learning method to construct a sentiment dictionary as sentiment lexicon set. In particular, we focus on the construction of domain-specific sentiment dictionary. The proposed method makes up a graph according to lexicons and proximity among lexicons, and sentiments of some lexicons which already know their sentiment values are propagated throughout all of the lexicons on the graph. There are two typical types of the sentiment lexicon, sentiment words and sentiment phrase, and we construct a sentiment dictionary by creating each graph of them and infer sentiment of all sentiment lexicons. In order to verify our proposed method, we constructed a sentiment dictionary specific to the movie domain, and conducted sentiment classification experiments with it. As a result, it have been shown that the classification performance using the sentiment dictionary is better than the other using typical general-purpose sentiment dictionary.

Efficient Part-of-Speech Set for Knowledge-based Word Sense Disambiguation of Korean Nouns (한국어 명사의 지식기반 의미중의성 해소를 위한 효과적인 품사집합)

  • Kwak, Chul-Heon;Seo, Young-Hoon;Lee, Chung-Hee
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.4
    • /
    • pp.418-425
    • /
    • 2016
  • This paper presents the part-of-speech set which is highly efficient at knowledge-based word sense disambiguation for Korean nouns. 174,000 sentences extracted for test set from Sejong semantic tagged corpus whose sense is based on Standard korean dictionary. We disambiguate selected nouns in test set using glosses and examples in Standard Korean dictionary. 15 part-of-speeches which give the best performance for all test set and 17 part-of-speeches which give the best performance for accuracy average of selected nouns are selected. We obtain 12% more performance by those part-of-speech sets than by full 45 part-of-speech set.

Bootstrapping for Semantic Role Assignment of Korean Case Marker (부트스트래핑 알고리즘을 이용한 한국어 격조사의 의미역 결정)

  • Kim Byoung-Soo;Lee Yong-Hun;Na Seung-Hoon;Kim Jun-Gi;Lee Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.4-6
    • /
    • 2006
  • 본 논문은 자연언어처리에서 문장의 서술어와 그 서술어가 가지는 명사 논항들 사이의 문법관계를 의미 관계로 사상하는 즉 논항이 서술어에 대해 가지는 역할을 정하는 문제를 다루고 있다. 의미역 결정은 단어의 의미 중의성 해소와 함께 자연언어의 의미 분석의 핵심 문제 중 하나이며 반드시 해결해야 하는 매우 중요한 문제 중 하나이다. 본 연구에서는 언어학적으로 유용한 자원인 세종전자사전을 이용하여 용언격틀사전을 구축하고 격틀 선택 방법으로 의미역을 결정한 후. 결정된 의미역들에 대한 확률 정보를 확률 모델에 적용하여 반복적으로 학습하는 부트스트래핑(Bootstrapping) 알고리즘을 사용하였다. 실험 결과, 기본 모델에 대해 10% 정도의 성능 향상을 보였다.

  • PDF

Hemispheric Asymmetry in Processing Semantic Relationship Shown in Normals and Aphasic (형태소 공유 어휘의 심성 어휘집 표상 양식)

  • Jung, Jae-Bum;Lee, Hong-Jae;Moon, Young-Sun;Kim, Dong-Hyu;Pyun, Sung-Bum;Nam, Ki-Chun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.359-367
    • /
    • 1999
  • 형태소를 공유하고 있는 어휘가 심성 어휘집(mental lexicon)에 어떻게 저장되어 있고 어떻게 어휘 접근되는지에 관하여 여러 설명이 제기되었다 첫 번째 가설은 형태소 공유 어휘는 심성 어휘집에 모두 같은 어근 혹은 어간을 중심으로 저장되어 있다는 것이다. 두 번째 가설은 어간이나 어근으로의 분석을 통해 활용된 단어를 이해하는 것이 아니라 일단 활용된 형태의 어휘를 심성 어휘집에서 찾고, 만일 해당되는 것이 발견되면, 그 활용된 어절의 이해가 끝나게 되고, 만일에 해당되는 것이 심성 어휘집에 존재하지 않는 경우에만 부수적인 과정으로 구성 형태소로의 분석이 이루어진다는 것이다. 세 번째 가설은 어휘의 품사, 어휘의 빈도, 형태소 활용의 규칙성 등에 따라 구성 형태소로의 분석을 통해 활용된 단어를 이해하거나 아니면 활용된 어휘의 직접적인 접근을 통해 활용된 단어를 이해한다는 것이다. 본 연구에서는 이 세 종류의 가설 중에 어느 가설이 옳은 것인지를 조사하기 위해, "먹은" 흑은 "쥐어"와 같은 한국어 어절을 이용하여 형태소 표상 양식과 이해 과정을 다루었다. 본 연구의 목적을 위해 점화 어휘 판단 과제(primed-lexical decision task)를 사용하였다. 실험 1은 "먹은"처럼 동사 "먹다"로도 해석이 가능하고 명사 "먹"으로도 가능한 중의적 어절을 점화 문자열로 제시하고 이 문자열이 두 의미와 관련된 목표 단어 재인에 어떤 영향을 끼치는지를 조사하였다. 만일에 "먹"이라는 어근 혹은 어간으로의 분석을 통해 이 어절을 이해한다면 두 종류의 의미와 관련된 조건 모두에서 촉진적 점화 효과(facilitatory priming effect)가 나타날 것이고, 어절 전체로의 어휘 접근 과정이 일어난다면 사용빈도에서 높은 동사 뜻과 관련된 조건에서만 촉진적 점화 효과가 나타날 것이다. 실험 1의 결과는 두 종류의 의미가 모두 활성화되는 것을 보여 주었다. 즉, "먹은"과 간은 어절 이해는 구성 형태소로의 분석과 구성 형태소 어휘 접근을 통해 어절 이해가 이루어진다는 가설을 지지하고 있다. 실험 2에서는 실험 1과 다르게 한 뜻으로만 안일 수밖에 없는 "쥐어"와 같은 어절을 사용하여 이런 경우에도(즉, 어절의 문맥이 특정 뜻으로 한정하는 경우) 구성 형태소로의 분석 과정이 일어나는지를 조사하였다. 실험 2의 결과는 실험 1의 결과와는 다르게 어간의 한가지 의미와 관련된 조건만 촉진적 점화 효과가 나타나는 것을 보여주었다. 특히, 실험 2에서 SOA가 1000msec일 경우, 두 의미의 활성화가 나타나는 것을 보여주었는데, 이 같은 결과는 어절 문맥이 특정한 의미로 한정시킬 경우는 심성어휘집에 활용형태로 들어있다는 것이다. 또한 명칭성 실어증 환자의 경우에는 즉시적 점화과제에서는 일반인과 같은 형태소 처리과정을 보였으나, 그이후의 처리과정이 일반인과 다른 형태를 보였다. 실험 1과 실험 2의 결과는 한국어 어절 분석이 구문분석 또는 활용형태를 통해 어휘 접근되는 가설을 지지하고 있다. 또 명칭성 실어증 환자의 경우에는 지연된 점화과제에서 형태소 처리가 일반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.

  • PDF

Subtopic Mining of Two-level Hierarchy Based on Hierarchical Search Intentions and Web Resources (계층적 검색 의도와 웹 자원을 활용한 2계층 구조의 서브토픽 마이닝)

  • Kim, Se-Jong;Lee, Jong-Hyeok
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.2
    • /
    • pp.83-88
    • /
    • 2016
  • Subtopic mining is the extraction and ranking of possible subtopics, which disambiguate and specify the search intentions of an input query in terms of relevance, popularity, and diversity. This paper describes the limitations of previous studies on the utilization of web resources, and proposes a subtopic mining method with a two-level hierarchy based on hierarchical search intentions and web resources, in order to overcome these limitations. Considering the characteristics of resources provided by the official subtopic mining task, we extract various second-level subtopics reflecting hierarchical search intentions from web documents, and expand and re-rank them using other provided resources. Terms in subtopics with wider search intentions are used to generate first-level subtopics. Our method performed better than state-of-the-art methods in almost every aspect.