• Title/Summary/Keyword: 쉼표

Search Result 27, Processing Time 0.022 seconds

Comma Usage Classification for Improving Parsing Accuracy of Long Sentences in English-Korean Machine Translation (영한 기계번역에서 긴 문장의 구문 분석 정확성 향상을 위한 쉼표의 용도 분류)

  • Kim, Sung-Dong;Park, Sung-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.1-6
    • /
    • 2006
  • 영한 기계번역에서 긴 문장은 분석 복잡도가 높아서 정확하게 분석하기 어렵다. 본 논문에서는 영어 구문 분석의 정확성을 향상시키기 위해서 긴 문장을 구성하는 쉼표의 역할을 자동적으로 판단하는 방법을 연구하였다. 쉼표는 긴 문장을 구성할 때 많이 사용되며 하나의 긴 문장을 만들 때 다양한 역할을 한다. 긴 문장을 분석할 때 쉼표에 의해 분할되는 부분을 독립적으로 분할하고 쉼표의 역할에 따라 분석된 결과를 적절하게 결합한다면 보다 빠르고 정확하게 주어진 문장 구조를 얻을 수 있다. 본 논문에서는 쉼표의 용도가 표시된 말뭉치로부터 분포 차이를 이용하여 쉼표 분류 규칙을 생성한다. 실험을 통해 논문에서 제시한 방법과 다른 학습방법에 의한 쉼표 분류의 정확도를 비교하여 본 논문에서 제시한 방법이 실용적 가치가 있음을 보인다.

  • PDF

Segmentation of Long Chinese Sentences using Comma Classification (쉼표의 자동분류에 따른 중국에 장문분할)

  • Jin Me-Ixun;Kim Mi-Young;Lee Jong-Hyeok
    • Journal of KIISE:Software and Applications
    • /
    • v.33 no.5
    • /
    • pp.470-480
    • /
    • 2006
  • The longer the input sentences, the worse the parsing results. To improve the parsing performance, many methods about long sentence segmentation have been reserarched. As an isolating language, Chinese sentence has fewer cues for sentence segmentation. However, the average frequency of comma usage in Chinese is higher than that of other languages. The syntactic information that the comma conveys can play an important role in long sentence segmentation of Chinese languages. This paper proposes a method for classifying commas in Chinese sentences according to the context where the comma occurs. Then, sentences are segmented using the classification result. The experimental results show that the accuracy of the comma classification reaches 87.1%, and with our segmentation model, the dependency parsing accuracy of our parser is improved by 5.6%.

Segmentation of Chinese Long Sentence Using Support Vector Machine (SVM 모델을 이용한 중국어 장문 분할)

  • Jin, Mei-Xun;Kim, Mi-Young;Kim, Dong-Il;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.261-266
    • /
    • 2003
  • 문장이 길면 구문분석의 정확률이 크게 낮아진다. 따라서 장문을 분할하여 분석하면 구문분석의 복잡도를 크게 줄일 수 있어 정확률 향상에 크게 기여할 수 있다. 특히, 중국어는 고립어로서, 교착어나 융합어와 비교할 때 자연어처리에 도움을 줄 수 있는 굴절이나 어미정보가 없어 구문분석에 어려움이 더욱 많다. 반면, 중국어 문자에서는 쉼표를 비교적 많이 사용하고 있고 또한 쉼표의 쓰임이 정확하므로 구문 분석에 도움을 줄 수 있다. 본 논문에서는 쉼표가 많이 쓰이고 있는 중국어 문장에서 해당 쉼표위치 문장 분할가능여부를 Support Vector Machine을 이용 판단하여 정확률 88.61%의 높은 분할 성능을 보였다.

  • PDF

Study on Sentence Rewriting in English-Korean Machine Translation (영한 기계번역에서 문장 다시 쓰기에 관한 연구)

  • Kim, Sung-Dong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.257-261
    • /
    • 2008
  • 규칙 기반의 영한 기계번역에서는 영어의 문법 규칙을 구축하고 이를 이용하여 영어의 구문 분석을 수행한다. 그러나 쉼표를 포함한 문장이나 특수한 형식의 문장들은 문법에 의해 분석하기 어렵다. 이를 문법에 의해 분석하기 위해서는 문법이 복잡해지고 문법의 수가 많아지게 되어 분석의 복잡도를 증가시키게 된다. 이러한 문제를 해결하기 위해 이미 존재하는 규칙에 의해 분석할 수 있는 형태로 문장을 바꾸는 문장 다시 쓰기를 제안한다. 문장 다시 쓰기를 위해 쉼표를 포함한 문장에 대해서 다시 쓰기가 필요한 패턴을 구축하였으며 이에 대해 문장 다시 쓰기를 실험하였다. 문장 다시 쓰기를 통해 입력 문장을 변형함으로써 규칙의 추가 없이 구문 분석이 가능하며 제안한 방법은 특수한 형식을 가진 문장 및 쉼표에 의해 연결되는 문장들에 대해 보다 정확한 분석과 번역을 위한 새로운 방법으로서 의의가 있다.

  • PDF

A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling (문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구)

  • Han, Seunggyu;Yang, Kisu;Lim, HeuiSeok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

회원사탐방 - 우림 조경을 찾아서

  • Kim, Hae-Ung
    • Landscaping Tree
    • /
    • s.122
    • /
    • pp.18-23
    • /
    • 2011
  • 옛날부터 대나무로 이름난 죽향의 고장 전남 담양. "푸른대숲. 녹색쉼표"를 주제로 대나무 축제가 한창인 담양군 고서면에 자리한 우리 조경수협회 광주. 전남서부지회 사무국장을 맡고 있는 이근형 대표의 우림조경을 찾았다.

  • PDF

Evolutionary Theory and Twentieth Century Music -Focused on 4'33" by John Cage- (진화론으로 바라본 20세기 현대 음악 -존 케이지 4분 33초를 중심으로-)

  • Kim, Hyokyung
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.10
    • /
    • pp.100-108
    • /
    • 2020
  • 20th century music has been recognized as disconnected. Some criticized that it is not music. This controversy has been continued over decades in music history. This study applied Darwin's evolutionary theory to John Cage's 4'33", the most popular music in 20th century and tried to prove musical continuity embedded in it. 4'33" has always been a subject of controversy because it has no sound. However, the study found out that 4'33" has the common musical factor, the rest. 4'33" can be interpreted as the variation of the rest in evolutionary view. The rest has undergone a variety of variations in form and meaning since the beginning of the musical notation and was suitable for a new musical environment changed in 20th century. In the evolutionary view, 4'33" is evolved music, not disconnected.

Automated Recognition of Printed Music using Fuzzy ART Algorithm and Performance (퍼지 ART 알고리즘을 이용한 인쇄 악보의 자동 인식과 연주)

  • Kim, Mi-Jeong;Kim, Kwang-Baek;Park, Choong-Shik
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2008.10a
    • /
    • pp.410-414
    • /
    • 2008
  • 음악 연구에 따른 컴퓨터의 역할이 점차 중요한 비중을 차지함에 따라 보다 효과적인 악보 인식 방법이 요구된다. 기존의 악보 인식 방법에서는 특정 수정 프로그램에서 만든 악보만 그 프로그램에서 재수정과 재생이 가능하다는 단점이 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 이미 작성 되어있는 악보들을 자동으로 인식하고 재생을 할 수 있는 방법을 제안한다. 제안된 악보 인식 방법은 수평 히스토그램을 이용하여 악보 이미지의 오선을 제거한 후, Grassfire 알고리즘을 적용하여 잡음을 제거하고 악보 구성 기호들을 추출한다. 추출된 악보 구성 기호들은 악보 구성 기호의 특징을 이용하여 음표와 쉼표, 그 외의 기호들로 분리한다. 분리된 음표 기호들은 박자마다 다른 음표 형태의 특징을 이용하여 다시 세밀하게 분리하고 쉼표와 그 외의 기호들은 퍼지 ART 알고리즘을 적용하여 인식한다. 인식된 악보 구성 기호들을 이용하여 각각 정보를 저장하고 향후에 악보 구성 기호에 해당하는 음의 재생을 용이하게 한다. 제안된 악보 인식 방법의 성능을 평가하기 위해 50장의 악보 영상을 대상으로 실험한 결과, 본 논문에서 제시한 악보 영상의 인식 방법이 실험을 통해서 효율적인 것을 확인하였다.

  • PDF

An Efficient Frequent Melody Indexing Method to Improve Performance of Query-By-Humming System (허밍 질의 처리 시스템의 성능 향상을 위한 효율적인 빈번 멜로디 인덱싱 방법)

  • You, Jin-Hee;Park, Sang-Hyun
    • Journal of KIISE:Databases
    • /
    • v.34 no.4
    • /
    • pp.283-303
    • /
    • 2007
  • Recently, the study of efficient way to store and retrieve enormous music data is becoming the one of important issues in the multimedia database. Most general method of MIR (Music Information Retrieval) includes a text-based approach using text information to search a desired music. However, if users did not remember the keyword about the music, it can not give them correct answers. Moreover, since these types of systems are implemented only for exact matching between the query and music data, it can not mine any information on similar music data. Thus, these systems are inappropriate to achieve similarity matching of music data. In order to solve the problem, we propose an Efficient Query-By-Humming System (EQBHS) with a content-based indexing method that efficiently retrieve and store music when a user inquires with his incorrect humming. For the purpose of accelerating query processing in EQBHS, we design indices for significant melodies, which are 1) frequent melodies occurring many times in a single music, on the assumption that users are to hum what they can easily remember and 2) melodies partitioned by rests. In addition, we propose an error tolerated mapping method from a note to a character to make searching efficient, and the frequent melody extraction algorithm. We verified the assumption for frequent melodies by making up questions and compared the performance of the proposed EQBHS with N-gram by executing various experiments with a number of music data.