• Title/Summary/Keyword: 언어 분석

Search Result 4,670, Processing Time 0.028 seconds

Comparing Byte Pair Encoding Methods for Korean (음절 단위 및 자모 단위의 Byte Pair Encoding 비교 연구)

  • Lee, Chanhee;Lee, Dongyub;Hur, YunA;Yang, Kisu;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.291-295
    • /
    • 2018
  • 한국어는 교착어적 특성이 강한 언어로, 교착어적 특성이 없는 영어 등의 언어와 달리 형태소의 수에 따라 조합 가능한 어절의 수가 매우 많으므로 어절 단위의 처리가 매우 어렵다. 따라서 어절을 더 작은 단위로 분해하는 전처리 단계가 요구되는데, 형태소 분석이 이를 위해 주로 사용되었다. 하지만 지도학습 방법을 이용한 형태소 분석 시스템은 다량의 학습 데이터가 요구되고, 비지도학습 방법을 이용한 형태소 분석은 성능에 큰 하락을 보인다. Byte Pair Encoding은 데이터를 압축하는 알고리즘으로, 이를 자연어처리 분야에 응용하면 비지도학습 방법으로 어절을 더 작은 단위로 분해할 수 있다. 본 연구에서는 한국어에 Byte Pair Encoding을 적용하는 두 가지 방법인 음절 단위 처리와 자모 단위 처리의 성능 및 특성을 정량적, 정성적으로 분석하는 방법을 제안하였다. 또한, 이 방법을 세종 말뭉치에 적용하여 각각의 알고리즘을 이용한 어절 분해를 실험하고, 그 결과를 어절 분해 정확도, 편향, 편차를 바탕으로 비교, 분석하였다.

  • PDF

A Study on the Natural Language Generation by Machine Translation (영한 기계번역의 자연어 생성 연구)

  • Hong Sung-Ryong
    • Journal of Digital Contents Society
    • /
    • v.6 no.1
    • /
    • pp.89-94
    • /
    • 2005
  • In machine translation the goal of natural language generation is to produce an target sentence transmitting the meaning of source sentence by using an parsing tree of source sentence and target expressions. It provides generator with linguistic structures, word mapping, part-of-speech, lexical information. The purpose of this study is to research the Korean Characteristics which could be used for the establishment of an algorism in speech recognition and composite sound. This is a part of realization for the plan of automatic machine translation. The stage of MT is divided into the level of morphemic, semantic analysis and syntactic construction.

  • PDF

A Study on the Sociopsychological Factors Affecting Verbal Abuse of Children (아동학대에서 발생하는 언어폭력에 영향을 미치는 심리사회적 요인에 관한 연구)

  • Kim, Jin-Young;Kang, Hye-Won;Park, Ji-sun
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.6
    • /
    • pp.545-555
    • /
    • 2020
  • The present study investigated the characteristics of perpetrators/victims of verbal abuse in childhood, and analyzed sociopsychological factors affecting verbal abuse. Based on child abuse cases between 2010 and 2015 collected from Public Prosecutors' Offices nationwide, we investigated 154 cases with verbal abuse of children and compared them with 398 cases without verbal abuse. Perpetrators of verbal abuse of children were more likely to be male, alcoholic, and with previous criminal convictions than those without verbal abuse. Additionally, perpetrators of verbal abuse of children were more likely to be hostile and controlling toward children, discriminate amongst siblings, and favor one child over another than those without verbal abuse. Finally, we discussed practical applications for prevention of child abuse and verbal abuse in particular and limitations of the study, and made suggestions for future research.

Parameter. Subset Principle, and the Acquisition of Korean Reflexive Anaphora (매개변항, 부분집합원리, 재귀대명사습득)

  • Cho, Sook-Whan
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.296-301
    • /
    • 1989
  • 본 논문의 목적은 매개변항(parameter)과 부분집합원리(subset principle)를 재귀대명사 구조분석 및 습득에 적용하여 보편문법(Universal Grammar)과 언어습득의 상호관계를 검토하는 데에 있다. 본 논문은 첫째, 재귀대명사 '자기'를 매개변항이론에 근거하여 분석하고, 둘째, 재귀사의 구조를 부분집합원리에 적용하여 '자기'의 습득과정을 관찰한다. 본 논문의 목적을 위해 두 가지 가설을 세워 실험적으로 검증하였다. 실험결과, 선행사자격 습득단계의 가설이 확증되었으며, 지배변항 습득단계의 가설은 결정적 증거가 미비해 앞으로의 과제로 남아 있다.

  • PDF

Design of a Statics analysis tool through Worm Code (Worm코드를 이용한 정적분석 도구의 설계)

  • 김상영;이영식;황선명
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.385-387
    • /
    • 2002
  • 개발자는 품질 요구사항을 만족하는 소프트웨어를 만들 책임이 있기 때문에 최종 제품의 품질뿐만 아니라 중간 제품의 품질에도 관심을 갖는다. 이러한 이유에서 품질관리를 위해서는 소프트웨어 품질 테스팅이 필요로 하게 되는데 테스팅의 방법에는 크게 WhiteBox Testing과 BlackBox Testing으로 나누어 진다 본 논문에서는 C++ 언어에 적용할 수 있는 정적 분석 도구를 설계하였으며, 이 도구의 특징은 테스팅 도구에 테스터의 의도를 전달 할 수 있는 테스트 제어 언어를 정의하고, 또한 이 정의 언어를 사용하여 Worm 코트론 삽입하여 테스팅 할 수 있는 정적 태스팅 도구를 설계하였다.

  • PDF

Overview of Problems and Methodologies for Korean Language Processing (한국어 정보처리의 문제점 및 방법론 고찰)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.329-334
    • /
    • 1998
  • 자연언어 처리 시스템은 시제품 개발이 비교적 용이한 반면에 이를 실용적인 시스템으로 발전 시키는데 많은 어려움이 있다. 본 논문에서는 형태소 분석기와 구문분석기, 기계번역 시스템 등을 개발할 때 발생하는 문제점과 방법론을 고찰하고, 실용적인 시스템을 개발하기 위한 효율적인 방법으로 2-step 패러다임과 이를 실현하는 방안으로 기능별 모듈화에 의한 divide and conquer 기법, 단순화 기법, 예외처리 기법 등을 활용하는 방법을 제안한다.

  • PDF

Some Issues in Conversational Analysis: Telephone conversations for hotel reservation (대화분석에 있어서의 몇가지 문제: 호텔 예약 전화대화를 중심으로)

  • Choe, Jae-Woong
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.7-16
    • /
    • 1996
  • 본 연구의 목표는 자연스러운 대화를 분석할 때 부딪히게 되는 언어학적, 전산학적 문제점들을 살펴보는데 있다. 본 연구는 실제 상황에서 수집 전사한 호텔예약대화를 기반으로 하고 있다. 그러한 구체적인 자료를 중심으로 대화연구의 어려움과 연구 방향 등을 논의한다.

  • PDF

The Study of ambiguity in the 'wa/kwa' (와/과'구문의 중의성 연구)

  • 유혜원
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.383-389
    • /
    • 2000
  • 본고는 한영번역기 개발을 위한 기초 작업으로 '와/과'구문에 나타나는 여러 가지 패턴을 정리하고 이들 구문에서 보이는 중의성 문제를 해결하고자 하였다. 이러한 작업을 위해서는 자료 수집 및 분석이 우선이기 때문에 코퍼스에서 '와/과'구문을 뽑아서 분석하여 규칙을 마련하였다. 여기에서 사용된 자질연산문법(FCG)은 자연언어처리를 위한 문법으로 변형규칙과 수형도의 개념 없이 자질을 이용한 연산 체계로서 언어처리를 하고자 하는 문법이다. 이 이론을 바탕으로 규칙을 세우고 실제 언어 자료를 뽑아서 테스트를 하여 95%의 성공률을 보여주었다. 그러나 여기서의 연구는 '와/과'구문의 처리를 위한 가장 뼈대가 되는 기초연구이며, 앞으로 좀 더 많은 처리가 이루어져야 하리라 생각된다.

  • PDF

Avoiding Security Analysis Inaccuracy of SLam Calculus after CPS Transform (CPS 변환 후에도 함수형 SLam 언어의 안전성 정확하게 분석하기)

  • 장성순;이광근
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.76-78
    • /
    • 2001
  • Secure Lambda calculus(SLam)는 정보 보안을 보장해주는 언어이나, Continuation Passing Style(CPS) 변환 후에는 안전성 분석의 정확도가 떨어진다. CPS의 논리적인 성질(ordered linearity)을 반영하여 변환 후에도 정확도가 떨어지지 않는 타입 시스템을 고안하고 무간섭성을 증명하였다. 함수형 SLam 언어에서 정확도가 떨어지는 경우는 앞으로 계산할 값의 인자가 쓰이지 않는 경우임을 밝혀내었다.

Specification of Real-time Embedded System using STSR (STSR의 실시간 내장형 시스템의 명세)

  • 김진현;이수영;손한성;최진영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.268-270
    • /
    • 2003
  • 원자력 발전소 안전계통이나 의료 시스템과 같은 실시간 내장형 시스템의 설계는 그 안전성을 분석하기 위한 정형 명세가 요구된다. 이러한 실시간 내장형 시스템이 명세를 위해 본 논문에서는 Statecharts를 확장하여 시간적 명세 및 분석에 용이하고 하드웨어/소프트웨어 통합 설계에 유리한 언어를 제시한다. 그리고 그 언어의 의미론을 기술하고, SyncCharts라는 정형명세 언어로 그 행위의 의미론을 부여한다. 이렇게 하여 기존의 Statecharts를 실시간 내장형 시스템에 적합하도록 수정하고 그 의미론을 부여한다.

  • PDF