• Title/Summary/Keyword: 단어 분리

Search Result 112, Processing Time 0.025 seconds

A Computational Model for the Word-Syntax (단어통사론을 위한 계산 모형)

  • Kim, Dong-Joo;Kim, Han-Woo
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.39 no.6
    • /
    • pp.11-23
    • /
    • 2002
  • Computational models up to now for Korean morphology have been linear in that it deal with only segmentation of morphemes rather than formation of the internal structure of a word. When integrating a linear computational model with syntax analysis, it requires an additional interface component between this model and the syntax to bind morphemes into sentence constituents. Furthermore the linear model is not semantically intuitive. In this paper, based on word-syntactical viewpoint, we propose an integrated computational model that deals with morpheme segmentation, formation of syntactic element (sentence constituent), and even internal structure of word. Formalism of two-level morphology is employed to cope with morpheme segmentation and alternation problems, and functional diacritics are proposed to incorporate categorial context into the two-level formalism. A modified GLR-based algorithm is also proposed to check syntactical constraint of morphemes.

Automatic Foreign Word Transliteration Model for Information Retrieval (정보검색을 위한 외래어 자동표기 모델)

  • 이재성;최기선
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1997.08a
    • /
    • pp.17-24
    • /
    • 1997
  • 조사에 따르면 한글 문서에서 사용되는 단어 중 외래어 또는 영어가 포함된 단어가 약 26%정도를 차지하고 있으며, 이는 정보검색의 중요 색인어로 사용된다(권윤형 1996). 그러나 이들 단어들은 서로 같은 단어인데도 영어로 표기되기도 하고 이형의 외래어들로 표기되기도 하여, 정보검색의 효율을 떨어뜨리고 있다. 본 논문에서는 영어 단어와 그에 대응되어 표기되는 외래어들을 찾기 위한 한 단계로서, 영어를 한글로 음차(transliteration)하여 자동표기하는 통계적 모델을 제안하고 실험한다. 제안된 모델은 통계적 기계번역 방식과 그의 한 방법인 문서 정렬(text alignment) 방식에 근거하고 있다. 특히 이 모델에서는 효과적으로 발음의 단위를 분리한 다음 정렬을 하여. 전체적인 계산량을 줄이고 성능도 향상시켰다. 음차표기는 피봇방식과 직접방식의 두가지로 구현하였다. 피봇방식은 영어에서 발음을 생성한 후, 그 발음을 다시 한글로 표기하는 방식이고, 직접방식은 직접 영어 단어에서 한글 표기로 포기하는 방식이다. 두 방식을 제안된 모델을 이용하여 비교 테스트한 결과 직접방식이 보다 정확하게 표준 외래어로 표기하였다.

  • PDF

Segmentation of Words from the Lines of Unconstrained Handwritten Text using Neural Networks (신경회로망을 이용한 제약 없이 쓰여진 필기체 문자열로부터 단어 분리 방법)

  • Kim, Gyeong-Hwan
    • Journal of the Korean Institute of Telematics and Electronics C
    • /
    • v.36C no.7
    • /
    • pp.27-35
    • /
    • 1999
  • Researches on the recognition of handwritten script have been conducted under the assumption that the isolated recognition units are provided as inputs. However, in practical recognition system designs, providing the isolated recognition unit is an challenge due to various writing syles. This paper proposes an approach for segmenting words from lines of unconstrained handwritten text, without help of recognition. In contrast to the conventional approaches which are based on physical gaps between connected components, clues that reflect the author's writing style, in terms of spacing, are extracted and utilized for the segmentation using a simple neural network. The clues are from character segments and include normalized heights and intervals of the segments. Effectiveness of the proposed approach compared with the conventional connected component based approaches in terms of word segmentation performance was evaluated by experiments.

  • PDF

Perceptual Segregation of Distractor Reduces Within-hemisphere Interference (방해자극과 표적의 지각적 분리가 반구내와 반구간의 간섭에 미치는 영향)

  • Sohn, Young-Sook;Kim, Min-Shik
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.29-32
    • /
    • 2006
  • 이 연구에서는 표적과 방해자극을 분리시킬 때 관찰되는 간섭 감소가 반구내 및 반구간 조건에서 달리 나타난다는 것을 보여주기 위해 세 개의 실험을 실시하였다. 세 실험의 과제는 모두 색깔이 있는 원과 사각형이 주어지고 항상 검은색으로 제시되는 색 이름 단어가 주어진 상황에서 원의 색은 무시하고 사각형의 색과 단어가 의미하는 색이 같은지, 다른지를 판단하는 것이었다. 사각형의 색이 단어가 의미하는 색과 일치할 때 방해자극인 원의 색도 단어가 의미하는 색과 일치하는지 여부에 따라 방해자극의 세 조건(일치, 불일치, 중립)이 만들어졌다. 또한, 방해자극인 원이 표적 가운데 하나인 단어와 같은 시각장에 제시되는지, 혹은 반대편 시각장에 따로 제시되는지에 따라 반구 간섭조건(반구내 간섭, 반구간 간섭)이 만들어졌다 간섭효과는 불일치 조건과 중립 조건간의 차이로 측정하였다. 실험 1의 결과는 정확률과 반응시간 모두에서 반구내 간섭이 반구간 간섭보다 유의미하게 더 큰 것으로 나타났다. 실험 2에서는 방해자극인 원을 선제시하였는데 그 결과 반구내 간섭이 특히 크게 감소하여 반구내 간섭과 반구간 간섭이 차이를 보이지 않게 되었다. 그러나 표적자극인 사각형을 선제시한 실험 3에서는 반구내 간섭이 여전히 반구간 간섭보다 유의미하게 큰 것으로 나타났다. 세 실험의 결과를 종합하면 방해자극의 간섭 효과는 방해자극을 표적과 다른 반구로 분리 제시하거나, 선제시 같은 방법으로 방해자극을 표적과 분리시킬 때 유의미하게 감소하였다. 그러나 애초부터 방해자극을 표적과 다른 반구로 분리 제시하였던 반구간 간섭조건에서는 방해자극의 선제시가 간섭 감소를 가져오지 않았다. 지질의 산패를 가속화시킨 결과라고 생각된다. 따라서 호박 라면 제조시 이러한 공기와의 접촉을 차단시킬 수 있는 포장재료를 선택해야 될 것으로 사료된다.0.05), 맛, 연도, 다즙성 및 전체적인 기호성은 유의한 차이가 없었다.자체를 악하다고 볼 수 없고 더구나 구원을 이 세상에서의 이탈로 볼 수 없다. 진정한 구원이란 원래 하나님이 보시기에 아름다웠던 그 세상으로의 회복을 포함한다. 이런 면에서 하나님 주권 신앙 하에서 구원이란 전 인격적인 구원, 전 우주적인 구원이 된다. 그렇기 때문에 성도는 세상의 삶과 학문, 예술, 정치, 경제, 사회를 포함한 모든 분야를 하나님의 뜻 가운데서 그 원래의 목적에 부합할 수 있도록 회복시키는 일에 적극 참여해야 한다.자체가 이를 주도하기는 사실 어려움이 있다. 그리고 대형유통점이 영업행위를 영업시간제한에서부터 출점제한에 이르기까지 규제하는 건은 심사숙고하여야 한다. 대형유통점이 국가경제 및 지역사회에 미치는 영향이 부정적인가 긍정적인가에 대해 국내외 학계와 업계에서 여전히 많은 논란이 있기 때문이다. 정부와 지자체에 의한 시장개입은 반드시 필요한 경우에 한해 합당한 방법에 의해 이루어져야 한다. 대형유통점에 대한 규제는 지역사회에 미치는 영향을 다면적으로 평가한 결과에 근거하여 이루어져야 할 것이다. 대부분의 지자체는 체계적인 평가시스템과 객관적인 통계 자료를 갖고 있지 못한 실정이다. 향후 가장 시급한 과제는 시장개방 이후 지난 10년간 대형유통점이 지역사회에 미친 영향에 관한 광범위한 통계자료를 수집하고 이를 체계적으로 분석하여 정책방향을 올바르게 설정하는 것이라 할 수 있다.i와 K. pneumonia

  • PDF

Research on Subword Tokenization of Korean Neural Machine Translation and Proposal for Tokenization Method to Separate Jongsung from Syllables (한국어 인공신경망 기계번역의 서브 워드 분절 연구 및 음절 기반 종성 분리 토큰화 제안)

  • Eo, Sugyeong;Park, Chanjun;Moon, Hyeonseok;Lim, Heuiseok
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.3
    • /
    • pp.1-7
    • /
    • 2021
  • Since Neural Machine Translation (NMT) uses only a limited number of words, there is a possibility that words that are not registered in the dictionary will be entered as input. The proposed method to alleviate this Out of Vocabulary (OOV) problem is Subword Tokenization, which is a methodology for constructing words by dividing sentences into subword units smaller than words. In this paper, we deal with general subword tokenization algorithms. Furthermore, in order to create a vocabulary that can handle the infinite conjugation of Korean adjectives and verbs, we propose a new methodology for subword tokenization training by separating the Jongsung(coda) from Korean syllables (consisting of Chosung-onset, Jungsung-neucleus and Jongsung-coda). As a result of the experiment, the methodology proposed in this paper outperforms the existing subword tokenization methodology.

Between-hemisphere Separation of Target and Distractor Reduces Response Interference (표적과 방해자극의 반구간 분리가 반응 간섭에 미치는 영향)

  • Kim Min-Shik;Sohn Young-Sook
    • Korean Journal of Cognitive Science
    • /
    • v.17 no.1
    • /
    • pp.29-52
    • /
    • 2006
  • There has been a claim that Interaction between the cerebral hemispheres could reduce the effect interfering information (Weissman & Banich, 1999). We ran three experiments to show that between-hemisphere separation of target and distractor could be more effective for reducing interference than Interaction between the hemispheres. In experiment 1, a colored box and a rotor name were presented to a single or to separate hemispheres. In experiment 2 and 3, a colored circle (distractor) was presented along with a colored box and a color name which was always printed in black. In experiment 3, a peripheral cue was presented either to the target location(66.7%) or to the distractor location(33.3%) Immediately before the presentation of stimuli. In all experiments, the participants were asked to deride whether the moaning of the color matched the rotor of the box, Ignoring the printed rotor of the word(Exp. 1), or the color of the circle(Exp. 2 & 3). There were three renditions of distractor (congruent, incongruent, and neutral) and two conditions of matching (between- and within-hemisphere matching). If interhemispheric interaction were effective for interference reduction, there should be a decrease in the interference in the between-hemisphere compared to the within-hemisphere matching condition. The results showed that there was no difference in the interference between the two matching conditions in Exp 1. In Exp 2 and in the target-cue renditions of Exp. 3, the amount of interference in the between-hemisphere condition was greater than that in the within-hemisphere condition. These findings are consistent with what we have previously reported (Sohn et al., 1996, Sohn & Lee, 2003). However, when the distractor was precued in Exp. 3, the amount of interference did not differ between the two marching conditions. These results suggest that between-hemisphere separation of target and distractor can be more effective for reducing response interference than interhemispheric communication. It implies a possible role of an interhemispheric shielding mechanism (Merola & Liederman, 1985) to prevent the transfer of task-irrelevant, harmful information across the hemispheres.

  • PDF

Classification of Korean Documents Based on CNN Using Document Indexing Method based on Word Meaning and Order (단어의 의미와 순서를 고려하는 문서색인방법을 이용한 CNN 기반 한글문서분류)

  • Kim, Nam-Hun;Yang, Hyung-Jeong
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.41-45
    • /
    • 2017
  • 본 논문에서는 컨볼루션 신경망 네트워크(CNN:Convolution Neural Network)을 기반으로 단어의 의미와 순서를 고려하는 문서 색인 방법을 이용하여 한글 문서 분류 방법을 제안한다. 먼저 문서를 형태소 분석하여 어절 단위로 분리 한 후, 불용어를 처리 하고, 문서의 단어 의미를 고려하는 문서 표현하고, 문서의 단어 순서까지 고려하여 CNN의 입력으로 사용하였다. 실험결과 CNN 분류기를 기반으로 본 논문에서 제안하는 문서 색인 방법은 TF-IDF를 이용하는 방법보다 4.2%, Word2vec만 단독으로 사용하는 것보다 1.4%의 성능 상승을 이루었다. 이러한 결과를 통해 본 논문에서 제안하는 방법이 문서범주화 데이터 셋에서 문서 분류 성능향상에 영향을 미친다는 것을 확인하였다.

  • PDF

Design and Implementation of Text Recognition Algorithm for Sign Language Interpretating System (수화통역시스템 설계 및 구현)

  • Oh, Young-Jun;Jang, Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.691-693
    • /
    • 2002
  • 수화통역시스템은 청각장애인과 건청인의 사이에 수화를 통역하고 의사소통을 원활하게 하는 역할을 하는 멀티미디어시스템이다. 현재 다양한 수화통역시스템연구개발이 진행되고 있으나 기술상의 문제로 아직 널리 보급되지 못하고 있다. 본 논문에서는 청각장애인의 입장에서 이해할 수 있는 수화동작을 구현하는 문자인식 알고리즘을 제안한다. 이 알고리즘은 문장을 인식하고 단어별, 형태소별로 구분하여 지화그림 및 수화 데이터베이스에 있는 수화그림에 매칭시키고 수화단어들을 조합하여 수화동작을 움직이게 할 수 있는 그림을 생성한다. 알고리즘의 진행과정은 한글문장, 전처리, 형태소분리, 수화단어검색, 수화단어출력, 수화문장재배열과 동작표현으로 이루어진다.

  • PDF

Character-level Region Detection Using Attention Center (어텐션 중심을 이용한 글자 단위 영역 검출)

  • Kim, Jiin;Jeong, Chang-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.952-953
    • /
    • 2019
  • 최근 딥러닝으로 진행되는 광학 문자 인식 분야는 대부분 단어 단위로 인식하는 것으로 글자 단위의 영역을 검출하는 데에는 적합하지 못하다. 본 연구는 각 글자의 영역을 검출하기 위해 기존의 딥러닝을 이용한 광학 문자 인식 절차인 단어 분리 과정과 단어 인식 과정을 유지하면서 어텐션 중심을 이용하여 각 글자의 영역을 보다 정확하게 검출하는 것을 목표로 한다. 제안하는 모델은 CRAFT 와 Attention Network 를 사용한 OCR 과정을 확장한 모델로 각 단어 문자열 결과물에 각 글자의 영역을 추가로 나타내게 되며 각 글자와 라벨 간의 IOU 평균은 0.671 로 나타났다.

Probabilistic Segmentation and Tagging of Unknown Words (확률 기반 미등록 단어 분리 및 태깅)

  • Kim, Bogyum;Lee, Jae Sung
    • Journal of KIISE
    • /
    • v.43 no.4
    • /
    • pp.430-436
    • /
    • 2016
  • Processing of unknown words such as proper nouns and newly coined words is important for a morphological analyzer to process documents in various domains. In this study, a segmentation and tagging method for unknown Korean words is proposed for the 3-step probabilistic morphological analysis. For guessing unknown word, it uses rich suffixes that are attached to open class words, such as general nouns and proper nouns. We propose a method to learn the suffix patterns from a morpheme tagged corpus, and calculate their probabilities for unknown open word segmentation and tagging in the probabilistic morphological analysis model. Results of the experiment showed that the performance of unknown word processing is greatly improved in the documents containing many unregistered words.