• 제목/요약/키워드: word and segment classification

검색결과 8건 처리시간 0.025초

단어 분류에 기반한 텍스트 영상 워터마킹 알고리즘 (An Algorithm for Text Image Watermarking based on Word Classification)

  • 김영원;오일석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권8호
    • /
    • pp.742-751
    • /
    • 2005
  • 본 논문은 단어 분류에 기반한 새로운 텍스트 영상 워터마킹 알고리즘을 제안한다. 간단한 특징을 이용하여 단어를 K개로 분류한다. 이웃한 몇 개의 단어들을 조합하여 세그먼트를 구성하고, 세그먼트에 속한 단어들의 부류에 의해 세그먼트 또한 분류된다. 각 세그먼트에 동일한 양의 신호가 삽입된다. 신호 삽입은 세그먼트 부류가 갖는 단어 간 공백의 통계값을 조작함으로써 이루어진다. 몇 가지 기준에 따라 기존 단어 이동 알고리즘과의 주관적인 비교가 제시된다.

Discriminative Training of Stochastic Segment Model Based on HMM Segmentation for Continuous Speech Recognition

  • Chung, Yong-Joo;Un, Chong-Kwan
    • The Journal of the Acoustical Society of Korea
    • /
    • 제15권4E호
    • /
    • pp.21-27
    • /
    • 1996
  • In this paper, we propose a discriminative training algorithm for the stochastic segment model (SSM) in continuous speech recognition. As the SSM is usually trained by maximum likelihood estimation (MLE), a discriminative training algorithm is required to improve the recognition performance. Since the SSM does not assume the conditional independence of observation sequence as is done in hidden Markov models (HMMs), the search space for decoding an unknown input utterance is increased considerably. To reduce the computational complexity and starch space amount in an iterative training algorithm for discriminative SSMs, a hybrid architecture of SSMs and HMMs is programming using HMMs. Given the segment boundaries, the parameters of the SSM are discriminatively trained by the minimum error classification criterion based on a generalized probabilistic descent (GPD) method. With the discriminative training of the SSM, the word error rate is reduced by 17% compared with the MLE-trained SSM in speaker-independent continuous speech recognition.

  • PDF

한국어 음소분리에 관한 연구 (A Study on the Phonemic Analysis for Korean Speech Segmentation)

  • Lee, Sou-Kil;Song, Jeong-Young
    • The Journal of the Acoustical Society of Korea
    • /
    • 제23권4E호
    • /
    • pp.134-139
    • /
    • 2004
  • It is generally known that accurate segmentation is very necessary for both an individual word and continuous utterances in speech recognition. It is also commonly known that techniques are now being developed to classify the voiced and the unvoiced, also classifying the plosives and the fricatives. The method for accurate recognition of the phonemes isn't yet scientifically established. Therefore, in this study we analyze the Korean language, using the classification of 'Hunminjeongeum' and contemporary phonetics, with the frequency band, Mel band and Mel Cepstrum, we extract notable features of the phonemes from Korean speech and segment speech by the unit of the phonemes to normalize them. Finally, through the analysis and verification, we intend to set up Phonemic Segmentation System that will make us able to adapt it to both an individual word and continuous utterances.

중규모급 단어 인식기의 실시간 구현을 위한 무감독 단어집단화 알고리듬 (Unsupervised Word Grouping Algorithm for real-time implementation of Medium vocabulary recognition)

  • 임동식;김진영;백성준
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.81-84
    • /
    • 1999
  • 본 논문에서는 중규모급 단어인식기의 실시간 구현을 위한 무감독 단어집단화 알고리듬을 제안한다. 무감독 단어집단화는 인식대상 어휘 수가 많은 대용량 음성인식 시스템에서 대상 어휘 수를 줄여주는 역할을 하는 전처리기의 성격을 갖는다. 무감독 집단화를 위해 각 단어의 유$\cdot$무성음 고유의 특성을 잘 반영할 수 있는 특징 파라미터 5개를 사용하여 패턴 인식과 회귀분석에서 널리 사용되고 있는 분류$\cdot$회귀트리(Classification And Regression Tree)에 적용시키는 방법으로 접근하였고, 각 단어의 frame 수를 일정하게 n개로 분할(segment)하여 1개의 tree를 생성시키는 방법과 각 segment에 해당하는 tree를 생성시켜 segment들 사이의 교집합 성분으로 단어들을 집단화 하였다 실험결과 탐색 대상단어 22개에서 평균2.21개로 줄어 전체 대상 단어의 $10\%$만을 탐색하여 인식할 수 있는 방법을 제시할 수 있었다.

  • PDF

GAP 군집화에 기반한 필기 한글 단어 분리 (Word Segmentation in Handwritten Korean Text Lines based on GAP Clustering)

  • 정선화;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.660-667
    • /
    • 2000
  • 본 논문에서는 필기 한글 문자열 영상에 대한 단어 분리 방법을 제안한다. 제안된 방법은 gap 의 크기 정보를 사용하여 단어를 분리하는데, 이때 gap은 문자열 영상을 수직방향으로 투영한 후 흰-런 (white-run)을 찾음으로써 구할 수 있다. 문자열 영상으로부터 얻어지는 gap들의 크기를 측정한 후, 각각의 gap을 단어와 단어사이에 존재하는 gap과 문자와 문자사이에 존재하는 gap 중 하나로 분류한다. 본 논문에서는 필기 영문 문자열의 단어 분리를 위해 제안된 기존의 세 가지 거리 척도를 채택하고 군집화에 기반한 세 가지 분류방법을 적용하여 한글 문자열의 단어 분리를 위한 최적의 조합을 선정하였다. 우편봉투 상에 작성된 주소열로부터 수작업으로 추출한 305 개의 문자열 영상을 사용하여 실험한 결과 BB(bounding box) 거리를 사용하여 순차적 군집 방법을 적용하는 경우 3 순위까지의 누적 단어 분리 성공률이 88.52% 로서 가장 우수한 성능을 보여 주었다. 또한 하나의 문자열 영상에 대한 단어 분리 속도는 약 0.05초이다.

  • PDF

Towards Improving Causality Mining using BERT with Multi-level Feature Networks

  • Ali, Wajid;Zuo, Wanli;Ali, Rahman;Rahman, Gohar;Zuo, Xianglin;Ullah, Inam
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권10호
    • /
    • pp.3230-3255
    • /
    • 2022
  • Causality mining in NLP is a significant area of interest, which benefits in many daily life applications, including decision making, business risk management, question answering, future event prediction, scenario generation, and information retrieval. Mining those causalities was a challenging and open problem for the prior non-statistical and statistical techniques using web sources that required hand-crafted linguistics patterns for feature engineering, which were subject to domain knowledge and required much human effort. Those studies overlooked implicit, ambiguous, and heterogeneous causality and focused on explicit causality mining. In contrast to statistical and non-statistical approaches, we present Bidirectional Encoder Representations from Transformers (BERT) integrated with Multi-level Feature Networks (MFN) for causality recognition, called BERT+MFN for causality recognition in noisy and informal web datasets without human-designed features. In our model, MFN consists of a three-column knowledge-oriented network (TC-KN), bi-LSTM, and Relation Network (RN) that mine causality information at the segment level. BERT captures semantic features at the word level. We perform experiments on Alternative Lexicalization (AltLexes) datasets. The experimental outcomes show that our model outperforms baseline causality and text mining techniques.

인쇄체 문서의 문자영역에서 한글과 한자의 구별에 관한 연구 (A Study on Classification into Hangeul and Hanja in Text Area of Printed Document)

  • 심상원;이성범;남궁재찬
    • 한국통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.802-814
    • /
    • 1993
  • 본 논문에서는 문서인식시스템의 문자인식부에서 각 문자를 인식하기 위한 전처리 단계인 한글과 한자를 구별하는 알고리즘을 제안한다. 본 연구에서는 문자의 구별에 큰 영향을 미치고, 쓰기형태와 글자체에 따라서 변동을 흡수할 수 있는 9가지의 한자 특성을 제안하고, 문자의 크기에 영향을 받지 않고 문자를 구별할 수 있도록 문자 크기에 따른 비율을 제안된 각 특성에 반영하여 문자의 구별을 행하였다. 입력된 문서 제안한 9가지의 한자 구조적 특성을 조사하여, 한글과 한자로 구별한다. KS-C5601의 한글 2350자와 한자 4888자의 고딕, 명조체에 대하여, 실험결과는 인쇄 표본, 신문, 학회지, 잡지 교재에서 각각 98.8%, 92%, 96%, 98%, 98%을 얻었다.

  • PDF

자소 클래스 인식에 의한 off-line 필기체 한글 문자 분할 (Consonant-Vowel Classification Based Segmentation Technique for Handwritten Off-Line Hangul)

  • 황순자;김문현
    • 한국정보처리학회논문지
    • /
    • 제3권4호
    • /
    • pp.1002-1013
    • /
    • 1996
  • 문자 분할은 필기체 문서 서식의 자동 인식 과정에서 중요한 부분이다. 본 연구는 off-line 필기체 한글로부터 문자를 분할하기 위한 방법을 제안한다. 제안한 방법은 한글의 구조적 특성에 기반을 두고 있다. 먼저 투영에 의하여 입력 단어로 부터 분할 을 위한 특징과 연결 화소, 획을 추출한다. 두 번째 단계에서 획의 모양과 위치, 획과 획과의 관계를 이용하여 한글의 기본 자소 클래스 영역을 찾는다. 세 번째 단계는 분할 과정으로 WRC(While Run Column)다음에 초성이나 수평 모음이 오는 경우 이 WRC에서 수직으로 분할하며, 분할된 세그먼트의 길이가 임계값 이상아면 자소 클래 스와 문자의 칼럼에 대한 특징을 이용하여 예상 분할 영역을 찾고, 이 영역에 있는 획을 따라 요철 형태로 분할한다.

  • PDF