• Title/Summary/Keyword: 말도

Search Result 11,138, Processing Time 0.03 seconds

Estimation of the Corpus Size for Solving Data Sparseness (자료 빈약성을 해소하기 위한 말뭉치 크기의 예측)

  • Yang, Dan-Hui;Im, Su-Jong;Song, Man-Seok
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.4
    • /
    • pp.568-583
    • /
    • 1999
  • 대량의 말뭉치(corpus)로부터 구문 정보나 의미 정보를 컴퓨터를 사용하여 자동으로 발췌하려는 연구가 활발하다. 그러나 실용적인 자연언어처리 시스템이 되기 위해 필요한 망라성(coverage)과 견고성(robustness)을 갖기 위해 어느 정도 규모의 말뭉치가 필요한지에 대한 연구는 극히 미비하다. 본 연구는 '우리말큰사전'상의 주요 4가지 품사에 속하는 단어들을 중심으로 상이 단어(different words) 수와 말뭉치 크기간의 상관관계를 통계적으로 고찰하여 수학적 예측함수(estimating functions)를 구한다. 그리고 이를 통해 자료 빈약성(data sparseness)현상을 타당한 수준으로 감소시켜 말뭉치를 기반 자연어처리의 신뢰도를 높이기 위해 요구되는 말뭉치 크기를 예측한다. 또한 예측된 말뭉치 크기를 근거로 합리적인 말뭉치 구축 방법을 제안한다.

Unicode and Code Conversion for Sejong 21 Raw Corpus (21세기 세종계획 원시 말뭉치의 유니코드와 코드 변환)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.262-265
    • /
    • 2009
  • 21세기 세종계획은 국어정보화를 위한 범국가적 사업으로서 국어 기초 자원을 구축하는데 매우 큰 기여를 하였으며, 그 주요 결과물로 배포된 세종 말뭉치는 많은 연구자들에게 꼭 필요한 가치있는 결과물이다. 이처럼 소중한 국어 자원을 실제 연구자들이 활용하고자 할 때 불편함을 느끼는 경우가 있는데 그 이유는 균형 말뭉치의 구축이라는 말뭉치의 특성 및 원문 자료의 내용을 최대한 보존하기 위한 노력의 일환으로 사용자 정의 영역에 정의된 문자들이 다수 포함되어 있기 때문이다. 본 논문에서는 자연언어 처리, 정보검색 분야 연구자들이 세종계획 최종 결과물 중에서 원시 말뭉치를 활용하는데 있어서 말뭉치에 사용된 문자코드의 유형을 중심으로 코드 변환 문제점과 그 해결 방안을 모색하고자 한다.

  • PDF

Automated Generation of Word Balloons in Comics (만화 영상에서 말풍선의 자동 생성 방법)

  • Ryu, Dong-Sung;Chun, Bong-Kyung;Park, Kyu-Tae;Cho, Hwan-Gue
    • Journal of the Korea Computer Graphics Society
    • /
    • v.13 no.1
    • /
    • pp.33-36
    • /
    • 2007
  • Generally, word balloon have played a role to connect the script with character in comics. The location of word balloons depicts the process of story in comics, because they are located by reading order. Therefore, it is very Important works to generate and place word balloons, these work usually is processed manually by comic writer's. In this paper, we discuss the automated generation and placement of word balloon. For this, we modeled 6 kinds of word balloons. And these word balloons are placed by heuristic method based on EPFLP. We also generate the tail of word balloon automatically by considering the direction and reference points of word balloon.

  • PDF

A Research on Comparison of Cultural Idea of Horse Between Korea and Mongolia - In view of customs related to horse in Korea and Mongolia (한·몽 말 문화 연구 시론 -한국과 몽골의 말과 관련된 세시풍속을 중심으로-)

  • Yoon, Eun-Sook
    • Journal of The Korean Society of Grassland and Forage Science
    • /
    • v.24 no.4
    • /
    • pp.347-358
    • /
    • 2004
  • In Mongolia which consists of nomadic populations, horse has been loved by nomads and considered most important transportation means. Horses have been used when they were making long journey looking for new plain ground for grazing. Therefore, horse is closely connected with Mongolian nomadic culture. In Korea, too, horses had been considered one of most important means for transportation and military. The symbolism of horse that is represented in both Mongolia and Korea is Heavenly Horse which communicates with the God and it was sanctified as a Sacrificing Horse which was sent to God for sacrifice, and it was even worshiped as Divine Horse, the diety. As is the case of two of Mongolian customs associated with Mongolian language are 'the ceremony of horse's giving birth her young' and 'the ceremony of letting the mare go where it was before', all the cases are related with cattle's milk. The ceremony of 'horse's giving birth her young' is the ceremony where people hope that they would see the young can grow well which were born in early summer thus increasing the numbers of horse. To go with this, they perform a ceremony of Chachal in which they sprinkle the best quality white milk which is the symbol of good luck and hope they would produce plentiful of dairy products. The ceremony of 'letting the mare go where it was before' is also the ceremony where people hope to have many new born young horses thus produce more dairy products and Airag for the next year as milking is no more available for that you. Since the unified Silla Era, Koreans have performed a sacrifice rituals to horse in auspicious day. It's purpose is to see their horses get no disease and bear as many youngs as possible. The Back Ins Je, one of well blown festivals in Jeju Island, was originated from people's wish to prosper in stock farming. It can be said that the custom of Korea and Mongolia related with horse's giving birth was originated from the wishes to god for fertility and fecundity. On top of that, while Mongolians sprinkled horse's milk both on the ground and to the air hoping they would have increased houses and, thus, secure many dairy products, Koreans wish that they would see the increased number of horses and their healthy conditions through heavenly rituals.

Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR (나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

Korean Semantic Tagged Corpus Construction working (한국어 의미 표지 부착 말뭉치 구축 작업)

  • Lee, Min-Ji;Lee, Yoon-Jeong;Lee, Jung-Kuk;Kim, Jong-Dae;Park, Chan-Young;Song, Hae-Jung;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.99-103
    • /
    • 2012
  • 의미 역 결정 (Semantic Role Labeling)은 문장 내의 술어-논항 요소들의 의미 관계를 결정하는 과정이다. 이를 위해서는 의미 표지 부착 말뭉치가 필요하지만 한국어의 경우 이 데이터가 매우 부족한 상황이다. 본 논문에서는 한국어 Proposition Bank(이하 PropBank) 말뭉치와 세종 용언 격틀 말뭉치 구축을 위한 의미 표지 부착 작업에 대해 설명한다. 표지 부착 작업은 말뭉치의 의존 관계를 사람이 파악하여 적절한 의미 역 태그를 다는 과정이고, 이 과정으로부터 얻은 말뭉치는 의미 역 결정을 위한 기계 학습 방법론의 훈련 자료로 이용된다. 이 과정에서 필요한 구문 표지 부착 밀뭉치로는 한국전자통신연구원의 구문표지 부착 말뭉치를, 그리고 언어자원으로는 한국어 PropBank의 frame file과 세종 용언 격틀 사전을 사용한다.

  • PDF

Verification of POS tagged Corpus (품사 표지 부착 말뭉치 검증)

  • Lee, Mi-Kyoung;Jung, Han-Min;Sung, Won-Kyung;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.145-150
    • /
    • 2005
  • 본 논문에서는 자연어 처리 연구에서 이용되는 품사 표지 부착 말뭉치의 오류 검증 방안에 대해 제안한다. 현재까지의 품사 표지 부착 말뭉치들은 정제보다는 구축에 중점을 두고 있으며, 기존의 오류 검출과 정정 방안에 관련된 연구들은 기 구축된 말뭉치를 대상으로 한 것이 아니라, 품사 표지 부착 시스템의 후 처리에 집중하고 있다. 형태소 분석기나 품사 표지 부착 시스템의 학습에 이용되는 품사 표지 부착 말뭉치가 오류 검증 단계를 거친다면 이 시스템들은 좀 더 높은 신뢰성을 가지게 될 것이다. 본 논문에서는 품사 표지부착 말뭉치 검증을 위한 어절 분할 오류, 철자 오류, 표지 부착 오류, 형식 오류, 일관성 오류의 5가지 오류 유형과 검증 방안을 제안한다. 또한 제안한 방법에 따라 세종 계획의 형태소 분석 말뭉치의 오류를 검증해 보았으며, 그 결과 말뭉치 오류 정제가 말뭉치의 신뢰도를 향상시킬 수 있음을 보인다.

  • PDF

Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR (나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어 모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

Improving Quality of Training Corpus for Named Entity Recognition Using Heuristic Rules (휴리스틱을 이용한 개체명 인식 학습 말뭉치 품질 향상)

  • Lee, Seong-Hee;Song, Yeong-Kil;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.202-205
    • /
    • 2015
  • 개체명 인식은 문서에서 개체명을 추출하고 추출된 개체명의 범주를 결정하는 작업이다. 기존의 지도 학습 기법을 이용한 개체명 인식을 위해서는 개체명 범주가 수동으로 부착된 대용량의 학습 말뭉치가 필요하며, 대용량의 말뭉치 구축은 인력과 시간이 많이 들어가는 일이다. 본 논문에서는 학습 말뭉치 구축비용을 최소화하고 초기 학습 말뭉치의 노이즈를 제거하여 말뭉치의 품질을 향상시키는 방법을 제안한다. 제안 방법은 반자동 개체명 사전 구축 방법으로 구축한 개체명 사전과 원거리 감독법을 사용하여 초기 개체명 범주 부착 말뭉치를 구축한다. 그리고 휴리스틱을 이용하여 초기 말뭉치의 노이즈를 제거하여 학습 말뭉치의 품질을 향상시키고 개체명 인식의 성능을 향상시킨다. 실험 결과 휴리스틱 적용을 통해 개체명 인식의 F1-점수를 67.36%에서 73.17%로 향상시켰다.

  • PDF

Development of a Foreign Language Speaking Training System Based on Speech Recognition Technology (음성 인식 테크놀로지 기반의 외국어 말하기 훈련 시스템 개발)

  • Koo, Dukhoi
    • Journal of The Korean Association of Information Education
    • /
    • v.23 no.5
    • /
    • pp.491-497
    • /
    • 2019
  • As the world develops into a global society, more and more people want to speak foreign languages fluently. To speak fluently, you must have sufficient training in speaking, which requires a dialogue partner. Recently, it is expected that the development of voice recognition information technology will enable the development of a system for conducting foreign language speaking training without human beings from the other party. In this study, a test bed system for foreign language speaking training was developed and applied to elementary school classes. Elementary school students were asked to present their English conversation situation and conduct speaking training. Then, satisfaction with the system and potential for continuous utilization were surveyed. The system developed in this study has been identified as helpful for the training of learning to speak a foreign language.