• 제목/요약/키워드: grammatical morpheme

검색결과 18건 처리시간 0.029초

한국어 형태소 분석기에서 '아/어'로 시작되는 어미의 분석 (The Analysis of Endings Which Begin with 'a/a in Korean Morphological Analyzer)

  • 강승식;김영택
    • 인지과학
    • /
    • 제3권1호
    • /
    • pp.25-39
    • /
    • 1991
  • 한국어 어미 중 '아/어'로 시작되는 어미는 용언의 어간과 결합할 때 '아/어'가 축약되거나 '아/어'의 'ㅇ' 이 탈락되기도 한다.특히'ㅎ'불규칙 용언과 결합할 때는 용언의 어간모음과 화합되어 '-ㅐ-','-ㅒ-'로 바뀌는 경우가 있고,'-하다-'로 끝나는 용언의 어간과 결합하면 '-여-'혹은'-ㅐ-'로 바뀌게 된다.본 논문에서는 한국어 형태소 분석기에서 '아/어'로 시작되는 어미의 변이체를 처리하기 위하여 문법형태소 사전을 어떻게 구성하여야하고, 문법형태소 사전이 주기억 장치에 적제될 때 2진트리를 어떻게 구성할 것인에 대한 방법론을 제시함으로써 '아/어' 로 시작되는 어미의 변이체를 형태소 분석할때 발생하기 쉬운 오류를 방지할수 있도록 한다.

Out-of-Vocabulary 단어에 강건한 병렬 Tri-LSTM 문장 임베딩을 이용한 감정분석 (Sentiment Analysis using Robust Parallel Tri-LSTM Sentence Embedding in Out-of-Vocabulary Word)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.16-24
    • /
    • 2021
  • word2vec 등 기존의 단어 임베딩 기법은 원시 말뭉치에 출현한 단어들만을 대상으로 각 단어를 다차원 실수 벡터 공간에 고정된 길이의 벡터로 표현하기 때문에 형태론적으로 풍부한 표현체계를 가진 언어에 대한 단어 임베딩 기법에서는 말뭉치에 출현하지 않은 단어들에 대한 단어 벡터를 표현할 때 OOV(out-of-vocabulary) 문제가 빈번하게 발생한다. 문장을 구성하는 단어 벡터들로부터 문장 벡터를 구성하는 문장 임베딩의 경우에도 OOV 단어가 포함되었을 때 문장 벡터를 정교하게 구성하지 못하는 문제점이 있다. 특히, 교착어인 한국어는 어휘형태소와 문법형태소가 결합되는 형태론적 특성 때문에 미등록어의 임베딩 기법은 성능 향상의 중요한 요인이다. 본 연구에서는 단어의 형태학적인 정보를 이용하는 방식을 문장 수준으로 확장하고 OOV 단어 문제에 강건한 병렬 Tri-LSTM 문장 임베딩을 제안한다. 한국어 감정 분석 말뭉치에 대해 성능 평가를 수행한 결과 한국어 문장 임베딩을 위한 임베딩 단위는 형태소 단위보다 문자 단위가 우수한 성능을 보였으며, 병렬 양방향 Tri-LSTM 문장 인코더는 86.17%의 감정 분석 정확도를 달성하였다.

Head-Tail 토큰화 기법을 이용한 한국어 품사 태깅 (Korean Part-Of-Speech Tagging by using Head-Tail Tokenization)

  • 서현재;김정민;강승식
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 기존의 한국어 품사 태깅 방식은 복합어를 단위 형태소들로 분해하여 품사를 부착하므로 형태소 태그가 세분화되어 있어서 태거의 활용 목적에 따라 불필요하게 복잡하고 다양한 어절 유형들이 생성되는 단점이 있다. 딥러닝 언어처리에서는 키워드 추출 목적으로 품사 태거를 사용할 때 복합조사, 복합어미 등 문법 형태소들을 단위 형태소로 분할하지 않는 토큰화 방식이 효율적이다. 본 연구에서는 어절을 형태소 단위로 토큰화할 때 어휘형태소 부분과 문법형태소 부분 두 가지 유형의 토큰으로만 분할하는 Head-Tail 토큰화 기법을 사용하여 품사 태깅 문제를 단순화함으로써 어절이 과도하게 분해되는 문제점을 보완하였다. Head-Tail 토큰화된 데이터에 대해 통계적 기법과 딥러닝 모델로 품사 태깅을 시도하여 각 모델의 품사 태깅 정확도를 실험하였다. 통계 기반 품사 태거인 TnT 태거와 딥러닝 기반 품사 태거인 Bi-LSTM 태거를 사용하여 Head-Tail 토큰화된 데이터셋에 대한 품사 태깅을 수행하였다. TnT 태거와 Bi-LSTM 태거를 Head-Tail 토큰화된 데이터셋에 대해 학습하여 품사 태깅 정확도를 측정하였다. 그 결과로, TnT 태거는 97.00%인데 비해 Bi-LSTM 태거는 99.52%의 높은 정확도로 품사 태깅을 수행할 수 있음을 확인하였다.

딥러닝을 활용한 웹 텍스트 저자의 남녀 구분 및 연령 판별 : SNS 사용자를 중심으로 (Authorship Attribution of Web Texts with Korean Language Applying Deep Learning Method)

  • 박찬엽;장인호;이준기
    • 한국IT서비스학회지
    • /
    • 제15권3호
    • /
    • pp.147-155
    • /
    • 2016
  • According to rapid development of technology, web text is growing explosively and attracting many fields as substitution for survey. The user of Facebook is reaching up to 113 million people per month, Twitter is used in various institution or company as a behavioral analysis tool. However, many research has focused on meaning of the text itself. And there is a lack of study for text's creation subject. Therefore, this research consists of sex/age text classification with by using 20,187 Facebook users' posts that reveal the sex and age of the writer. This research utilized Convolution Neural Networks, a type of deep learning algorithms which came into the spotlight as a recent image classifier in web text analyzing. The following result assured with 92% of accuracy for possibility as a text classifier. Also, this research was minimizing the Korean morpheme analysis and it was conducted using a Korean web text to Authorship Attribution. Based on these feature, this study can develop users' multiple capacity such as web text management information resource for worker, non-grammatical analyzing system for researchers. Thus, this study proposes a new method for web text analysis.

말 늦은 아동의 문장 이해 전략 (Sentence interpretation strategies by typically developing and late-talking Korean toddlers)

  • 조수정;황민아;최경순
    • 말소리와 음성과학
    • /
    • 제6권3호
    • /
    • pp.13-21
    • /
    • 2014
  • Late talkers are young children who are delayed in their expressive language skills despite normal nonverbal cognitive ability, adequate hearing and typical personality development. The purpose of this study is to investigate the sentence interpretation strategies used by Korean-speaking late talkers and age-matched normal children. Nine late talkers and nine normal children matched by age at 30-35months were participated in this study. 27 simple noun-noun-verb(NNV) sentences were generated by factorial combination of case-marker [nominal case-marker on the first noun and accusative on the second (C1), accusative on the first noun and nominative on the second (C2), and no case markers on both nouns (C0)], and animacy of the nouns [animate-inanimate(AI), inanimate-animate(IA), animate-animate(AA)]. All the children were asked to "act out" their interpretation of the given sentence. For each type of sentences the percentage of choices of the first noun as the agent was calculated. The results of group (2) ${\times}$ animacy(3) ${\times}$ case-marker(3) mixed ANOVA showed a significant main effect for 'animacy', 'case marker' and 'group(2) ${\times}$ case-marker (3)'. The late talkers relied on semantic (animacy) cues in their interpretation of the sentences, while the normal peers utilized both animacy and grammatical morpheme (case-marker) cues. The results indicated that the late-talkers' comprehension skills were also delayed.

언어발달지체아동과 일반아동의 시제 표지 이해 및 산출 특성 (The Comprehension and Production of Tense Markings in Language Delayed Children and Typically Developing Children)

  • 조미옥;최소영;황민아
    • 말소리와 음성과학
    • /
    • 제6권2호
    • /
    • pp.123-131
    • /
    • 2014
  • The purpose of this study is to investigate the comprehension and production of various tense markings in Korean-speaking children with and without language delay. Thirty children with language delay(LD) and 30 typically developing(TD) children participated in the study. In each group, half were at the age of 4-years and the other half at 7-years. In both the comprehension and production task, 28 verbs containing four types of tense markings were used: past tense '-et ta', two present progressives '-ko itta', '-enta', and future tense '-elyeko hanta'. In the comprehension task, the children were presented with three printed still-scenes of video recording of a verb action, each representing future, present progressive, and past tense of the verb, respectively. Then they listened to the action verb with one of the 4 tense markings and had to pick the scene that matched the verb tense. In the production task, the children were given one of the three scenes and asked to produce the verb with appropriate tense marking. In both tasks, the LD children performed significantly worse than the TD children, and the older children performed significantly better than the younger children. Interestingly, the pattern of performances across different types of tense markings at the two language-age levels were closely similar in LD children and TD children. This similarity of groups seemed stronger in the comprehension task than the production task.

레그테크 기반의 자본시장 규제 해석 온톨로지 및 딥러닝 기술 개발을 위한 제언 (Suggestions for the Development of RegTech Based Ontology and Deep Learning Technology to Interpret Capital Market Regulations)

  • 최승욱;권오병
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제30권1호
    • /
    • pp.65-84
    • /
    • 2021
  • Purpose Based on the development of artificial intelligence and big data technologies, the RegTech has been emerged to reduce regulatory costs and to enable efficient supervision by regulatory bodies. The word RegTech is a combination of regulation and technology, which means using the technological methods to facilitate the implementation of regulations and to make efficient surveillance and supervision of regulations. The purpose of this study is to describe the recent adoption of RegTech and to provide basic examples of applying RegTech to capital market regulations. Design/methodology/approach English-based ontology and deep learning technologies are quite developed in practice, and it will not be difficult to expand it to European or Latin American languages that are grammatically similar to English. However, it is not easy to use it in most Asian languages such as Korean, which have different grammatical rules. In addition, in the early stages of adoption, companies, financial institutions and regulators will not be familiar with this machine-based reporting system. There is a need to establish an ecosystem which facilitates the adoption of RegTech by consulting and supporting the stakeholders. In this paper, we provide a simple example that shows a procedure of applying RegTech to recognize and interpret Korean language-based capital market regulations. Specifically, we present the process of converting sentences in regulations into a meta-language through the morpheme analyses. We next conduct deep learning analyses to determine whether a regulatory sentence exists in each regulatory paragraph. Findings This study illustrates the applicability of RegTech-based ontology and deep learning technologies in Korean-based capital market regulations.

언간에 나타나는 어기활용형에 대한 고찰 (On the base inflectional forms of Korean old vernacular letters)

  • 이현주
    • 동양고전연구
    • /
    • 제56호
    • /
    • pp.297-329
    • /
    • 2014
  • 언간자료에는 '--'를 접사로 취하는 단어들 중에 어간의 일부가 된 '--'와 그에 뒤따르는 어미들이 생략되어 나타나는 경우가 빈번하게 나타난다. 이를 어기활용형이라 칭하고 언간에 나타나는 어기활용형의 기능 및 형대론적, 통사론적 제약을 살펴보았다. 제한된 시간 속에서 운필의 노력과 시간을 절약하기 위해 언간에서 독특하게 발달한 형식이 어기활용형이다. '-'구성에서 필수적인 내용은 'X'가 모두 가지고 있고 '--'와 뒤따르는 어미는 형식적인 기능만을 담당하기 때문에 어기 'X'만 남기고 후행성분은 과감히 생략하게 된 것이다. 어기활용형이 언어수행 상 나타나는 수의적인 언어현상이긴 하지만, 모든 조건에서 일어날 수 있는 것은 아니다. 가장 기본적인 문법적 기능만을 가지는 '-, -, -, -, -'가 쉽게 생략될 수 있음을 알 수 있었다. 그리고 언간자료에서 어기활용형을 구성하는 어기는 [+동작성]이든 [-동작성]이든 모두 서술성을 갖는다는 공통점이 있다. 이 시기의 파생접사 '--'는 어휘적 의미는 전혀 갖지 못하고 형식적 기능만을 갖고 있다. 이러한 이유로 '서술성어기+--'구성은 언어수행 면에서 어떤 조건만 주어지면 파생접사 '--'가 쉽게 생략될 수 있었다.