• Title/Summary/Keyword: 쉼표

검색결과 27건 처리시간 0.024초

영한 기계번역에서 긴 문장의 구문 분석 정확성 향상을 위한 쉼표의 용도 분류 (Comma Usage Classification for Improving Parsing Accuracy of Long Sentences in English-Korean Machine Translation)

  • 김성동;박성훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.1-6
    • /
    • 2006
  • 영한 기계번역에서 긴 문장은 분석 복잡도가 높아서 정확하게 분석하기 어렵다. 본 논문에서는 영어 구문 분석의 정확성을 향상시키기 위해서 긴 문장을 구성하는 쉼표의 역할을 자동적으로 판단하는 방법을 연구하였다. 쉼표는 긴 문장을 구성할 때 많이 사용되며 하나의 긴 문장을 만들 때 다양한 역할을 한다. 긴 문장을 분석할 때 쉼표에 의해 분할되는 부분을 독립적으로 분할하고 쉼표의 역할에 따라 분석된 결과를 적절하게 결합한다면 보다 빠르고 정확하게 주어진 문장 구조를 얻을 수 있다. 본 논문에서는 쉼표의 용도가 표시된 말뭉치로부터 분포 차이를 이용하여 쉼표 분류 규칙을 생성한다. 실험을 통해 논문에서 제시한 방법과 다른 학습방법에 의한 쉼표 분류의 정확도를 비교하여 본 논문에서 제시한 방법이 실용적 가치가 있음을 보인다.

  • PDF

쉼표의 자동분류에 따른 중국에 장문분할 (Segmentation of Long Chinese Sentences using Comma Classification)

  • 김미훈;김미영;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권5호
    • /
    • pp.470-480
    • /
    • 2006
  • 입력문장이 길어질수록 구문분석의 정확률은 크게 낮아진다. 따라서 긴 문장의 구문분석 정확률을 높이기 위해 장문분할 방법들이 많이 연구되었다. 중국어는 고립어로서 자연언어처리에 도움을 줄 수 있는 굴절이나 어미정보가 없는 대신 쉼표를 비교적 많이, 또 정확히 사용하고 있어서 이러한 쉼표사용이 장문분할에 도움을 줄 수 있다. 본 논문에서는 중국어 문장에서 쉼표 주변의 문맥을 파악하여 해당 쉼표위치에 문장분할이 가능한지 Support Vector Machine을 이용해 판단하고자 한다. 쉼표의 분류의 정확률이 87.1%에 이르고, 이 분할모델을 적용한 후 구문분석한 결과, 의존트리의 정확률이 5.6% 증가했다.

SVM 모델을 이용한 중국어 장문 분할 (Segmentation of Chinese Long Sentence Using Support Vector Machine)

  • 김미훈;김미영;김동일;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.261-266
    • /
    • 2003
  • 문장이 길면 구문분석의 정확률이 크게 낮아진다. 따라서 장문을 분할하여 분석하면 구문분석의 복잡도를 크게 줄일 수 있어 정확률 향상에 크게 기여할 수 있다. 특히, 중국어는 고립어로서, 교착어나 융합어와 비교할 때 자연어처리에 도움을 줄 수 있는 굴절이나 어미정보가 없어 구문분석에 어려움이 더욱 많다. 반면, 중국어 문자에서는 쉼표를 비교적 많이 사용하고 있고 또한 쉼표의 쓰임이 정확하므로 구문 분석에 도움을 줄 수 있다. 본 논문에서는 쉼표가 많이 쓰이고 있는 중국어 문장에서 해당 쉼표위치 문장 분할가능여부를 Support Vector Machine을 이용 판단하여 정확률 88.61%의 높은 분할 성능을 보였다.

  • PDF

영한 기계번역에서 문장 다시 쓰기에 관한 연구 (Study on Sentence Rewriting in English-Korean Machine Translation)

  • 김성동
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.257-261
    • /
    • 2008
  • 규칙 기반의 영한 기계번역에서는 영어의 문법 규칙을 구축하고 이를 이용하여 영어의 구문 분석을 수행한다. 그러나 쉼표를 포함한 문장이나 특수한 형식의 문장들은 문법에 의해 분석하기 어렵다. 이를 문법에 의해 분석하기 위해서는 문법이 복잡해지고 문법의 수가 많아지게 되어 분석의 복잡도를 증가시키게 된다. 이러한 문제를 해결하기 위해 이미 존재하는 규칙에 의해 분석할 수 있는 형태로 문장을 바꾸는 문장 다시 쓰기를 제안한다. 문장 다시 쓰기를 위해 쉼표를 포함한 문장에 대해서 다시 쓰기가 필요한 패턴을 구축하였으며 이에 대해 문장 다시 쓰기를 실험하였다. 문장 다시 쓰기를 통해 입력 문장을 변형함으로써 규칙의 추가 없이 구문 분석이 가능하며 제안한 방법은 특수한 형식을 가진 문장 및 쉼표에 의해 연결되는 문장들에 대해 보다 정확한 분석과 번역을 위한 새로운 방법으로서 의의가 있다.

  • PDF

문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구 (A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling)

  • 한승규;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

회원사탐방 - 우림 조경을 찾아서

  • 김해웅
    • 조경수
    • /
    • 통권122호
    • /
    • pp.18-23
    • /
    • 2011
  • 옛날부터 대나무로 이름난 죽향의 고장 전남 담양. "푸른대숲. 녹색쉼표"를 주제로 대나무 축제가 한창인 담양군 고서면에 자리한 우리 조경수협회 광주. 전남서부지회 사무국장을 맡고 있는 이근형 대표의 우림조경을 찾았다.

  • PDF

진화론으로 바라본 20세기 현대 음악 -존 케이지 4분 33초를 중심으로- (Evolutionary Theory and Twentieth Century Music -Focused on 4'33" by John Cage-)

  • 김효경
    • 한국콘텐츠학회논문지
    • /
    • 제20권10호
    • /
    • pp.100-108
    • /
    • 2020
  • 20세기 음악은 다르다. 이로 인하여 20세기 음악은 이전의 음악과 공통점을 찾아볼 수 없는 음악, 단절된 음악으로 인식되어왔다. 본 연구는 단절된 음악으로 여겨져 온 20세기 음악의 음악사적 연속성을 증명하기 위해 다윈의 진화론을 존 케이지 <4분 33초>에 적용해 보았다. 소리가 없는 음악으로 늘 논란의 대상이 되어온 <4분 33초>를 진화론의 관점에서 바라본다면, 이는 서양음악 속에 늘 존재해온 쉼표와 그 명맥을 같이한다. 쉼표는 음악 기보가 시작된 이래, 그 형태와 의미 면에서 다양한 변이를 거쳤으며, 20세기에 이르러 하나의 음악으로 존중될 정도의 확장을 이루었다. 이렇게 확장된 쉼표 위에 전기 개발이 이룩한 새로운 음악 환경이 접목되었고, 이로 인해 <4분 33초>가 20세기를 선도하는 음악으로 선택될 수 있었음을 주장하고자 한다. 본 연구는 다름의 출현이 단절과 고립이 아닌 관점의 전환으로 이어져야 함을 <4분 33초> 연구를 통하여 제안 해보고자 하였다.

퍼지 ART 알고리즘을 이용한 인쇄 악보의 자동 인식과 연주 (Automated Recognition of Printed Music using Fuzzy ART Algorithm and Performance)

  • 김미정;김광백;박충식
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.410-414
    • /
    • 2008
  • 음악 연구에 따른 컴퓨터의 역할이 점차 중요한 비중을 차지함에 따라 보다 효과적인 악보 인식 방법이 요구된다. 기존의 악보 인식 방법에서는 특정 수정 프로그램에서 만든 악보만 그 프로그램에서 재수정과 재생이 가능하다는 단점이 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 이미 작성 되어있는 악보들을 자동으로 인식하고 재생을 할 수 있는 방법을 제안한다. 제안된 악보 인식 방법은 수평 히스토그램을 이용하여 악보 이미지의 오선을 제거한 후, Grassfire 알고리즘을 적용하여 잡음을 제거하고 악보 구성 기호들을 추출한다. 추출된 악보 구성 기호들은 악보 구성 기호의 특징을 이용하여 음표와 쉼표, 그 외의 기호들로 분리한다. 분리된 음표 기호들은 박자마다 다른 음표 형태의 특징을 이용하여 다시 세밀하게 분리하고 쉼표와 그 외의 기호들은 퍼지 ART 알고리즘을 적용하여 인식한다. 인식된 악보 구성 기호들을 이용하여 각각 정보를 저장하고 향후에 악보 구성 기호에 해당하는 음의 재생을 용이하게 한다. 제안된 악보 인식 방법의 성능을 평가하기 위해 50장의 악보 영상을 대상으로 실험한 결과, 본 논문에서 제시한 악보 영상의 인식 방법이 실험을 통해서 효율적인 것을 확인하였다.

  • PDF

허밍 질의 처리 시스템의 성능 향상을 위한 효율적인 빈번 멜로디 인덱싱 방법 (An Efficient Frequent Melody Indexing Method to Improve Performance of Query-By-Humming System)

  • 유진희;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권4호
    • /
    • pp.283-303
    • /
    • 2007
  • 최근 방대한 양의 음악데이타를 효율적으로 저장하고 검색하기 위한 방법의 필요성이 증대되고 있다. 현재 음악 데이타 검색에서 가장 일반적으로 쓰이는 방법은 텍스트 기반의 검색 방법이다. 그러나 이러한 방법은 사용자가 키워드를 기억하지 못할 경우 검색이 어려울 뿐만 아니라 키워드와 정확하게 일치하는 정보만 검색해 주기 때문에 유사한 내용을 가진 정보를 검색하기에 부적절하다. 이러한 문제점을 해결하기 위해 본 논문에서는 내용 기반 인덱싱 방법(Content-Based Indexing Method)을 사용하여 사용자가 부정확한 멜로디(Humming)로 질의하였을 경우라도 원하는 음악을 효율적으로 찾아주는 허밍 질의처리 시스템(Query-By-Humming System)을 설계한다. 이를 위해 방대한 음악 데이타베이스에서 한 음악을 대표하는 의미 있는 멜로디를 추출하여 인덱싱하는 방법을 제안한다. 본 논문에서는 이러한 의미 있는 멜로디를 사용자가 자주 질의할 가능성이 높은 멜로디로서 하나의 음악에서 여러 번 나타나는 반면 멜로디와 긴 쉼표 후에 시작되는 쉼표 단위 멜로디로 정의한다. 실험을 통해 사용자들이 이들 멜로디를 자주 질의한다는 가정을 증명하였다. 본 논문은 성능 향상을 위한 3가지 방법을 제안한다. 첫 번째는 검색속도를 높이기 위해 인덱스에 저장할 멜로디를 문자열 형태로 변환한다. 이때 사용되는 문자 변환 방법은 허밍에 포함된 에러를 허용한 방법으로써 검색 결과의 정확도를 높일 수 있다. 두 번째는 사용자가 자주 질의할 가능성이 높은 의미 있는 멜로디를 인덱싱 하여 검색 속도를 높이고자 한다. 이를 위해 신뢰도가 높은 의미 있는 멜로디를 생성하는 빈번 멜로디 추출 알고리즘과 쉼표 단위 멜로디 추출 방법을 제안한다. 세 번째로는 정확도를 향상시키기 위한 3단계 검색 방법을 제안한다. 이는 데이타베이스 접근을 최소화하여 정확한 검색 결과를 얻기 위하여 제안되었다. 또한 기존 허밍 질의 처리 시스템의 대표적인 인덱싱 방법으로 제안되었던 N-gram 방법과의 성능 비교를 통해 본 논문이 제안하는 방법의 성능이 보다 더 향상되었음을 검증하였다.