• 제목/요약/키워드: trigram

검색결과 39건 처리시간 0.027초

형태소 발음변이를 고려한 음성인식 단위의 성능 (Performance of speech recognition unit considering morphological pronunciation variation)

  • 방정욱;김상훈;권오욱
    • 말소리와 음성과학
    • /
    • 제10권4호
    • /
    • pp.111-119
    • /
    • 2018
  • This paper proposes a method to improve speech recognition performance by extracting various pronunciations of the pseudo-morpheme unit from an eojeol unit corpus and generating a new recognition unit considering pronunciation variations. In the proposed method, we first align the pronunciation of the eojeol units and the pseudo-morpheme units, and then expand the pronunciation dictionary by extracting the new pronunciations of the pseudo-morpheme units at the pronunciation of the eojeol units. Then, we propose a new recognition unit that relies on pronunciation by tagging the obtained phoneme symbols according to the pseudo-morpheme units. The proposed units and their extended pronunciations are incorporated into the lexicon and language model of the speech recognizer. Experiments for performance evaluation are performed using the Korean speech recognizer with a trigram language model obtained by a 100 million pseudo-morpheme corpus and an acoustic model trained by a multi-genre broadcast speech data of 445 hours. The proposed method is shown to reduce the word error rate relatively by 13.8% in the news-genre evaluation data and by 4.5% in the total evaluation data.

Computational Analysis of Neighboring Genes on Arabidopsis thaliana Chromosomes 4 and 5: Their Genomic Association as Functional Subunits

  • Goh, Sung-Ho;Kim, Tae-Hyung;Kim, Jee-Hyub;Nam, DouGu;Choi, Doil;Hur, Cheol-Goo
    • Genomics & Informatics
    • /
    • 제1권1호
    • /
    • pp.40-49
    • /
    • 2003
  • The genes related to specific events or pathways in bacteria are frequently localized proximate to the genome of their neighbors, as with the structures known as operon, but eukaryotic genes seem to be independent of their neighbors, and are dispersed randomly throughout genomes. Although cases are rare, the findings from structures similar to prokaryotic operons in the nematode genome, and the clustering of housekeeping genes on human genome, lead us to assess the genomic association of genes as functional subunits. We evaluated the genomic association of neighboring genes on chromosomes 4 and 5 of Arabidopsis thaliana with and without respectively consideration of the scaffold/matrix­attached regions (S/MAR) loci. The observed number of functionally identical bigrams and trig rams were significantly higher than expected, and these results were verified statistically by calculating p-values for weighted random distributions. The observed frequency of functionally identical big rams and trig rams were much higher in chromosome 4 than in chromosome 5, but the frequencies with, and without, consideration of the S/MAR in each chromosome were similar. In this study, a genomic association among functionally related neighboring genes in Arabidopsis thaliana was suggested.

뉴스 댓글의 감정 분류를 위한 자질 가중치 설정 (Feature Weighting for Opinion Classification of Comments on News Articles)

  • 이공주;김재훈;서형원;류길수
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제34권6호
    • /
    • pp.871-879
    • /
    • 2010
  • 본 논문은 뉴스 기사의 댓글에 대한 사용자의 감정을 분류하는 시스템을 제안한다. 제안된 시스템은 댓글의 문서 분류 시스템으로 기계학습에 기반을 두고 있다. 댓글은 일반적인 문서와 달리 본문을 가지고 있으며 본문의 내용이 독자의 감정에 영향을 줄 수 있다. 본 논문에서는 이와 같은 댓글의 특성과 여러 가지 자원을 이용하여 감정 분류를 위한 자질을 제안하고 이들의 가중치 설정 방법을 제안한다. 실험을 통해 이러한 가중치 설정 방법이 한글 뉴스의 댓글에 대한 감정을 분류하는데 효과적임을 알 수 있었다. 또한 댓글과 같이 많은 오류를 포함하는 문서에 대해서 문자 단위의 2음절과 3음절 자질도 충분히 이용 가치가 있음을 확인할 수 있었다. 향후에 뉴스 기사의 댓글뿐 아니라 상품 댓글 등 일반적인 감정 분석에 적용할 계획이다.

조선 중기 유가(儒家)의 세계관이 반영된 집터 선정과 건축적 표현 -양평군 소재 택당 이식의 택풍당을 중심으로- (The Selection of House Site and Its Architectural Expression in the Chosun Dynasty : A Case Study of Confucianist Lee-sik's Taegpoongdang in Yangpyung, Kyungki-do)

  • 성동환;조인철
    • 한국지역지리학회지
    • /
    • 제11권3호
    • /
    • pp.367-380
    • /
    • 2005
  • 택당 이식은 조선 중기의 한문대가로 널리 알려진 성리학자이다. 택당 이식의 "택당집"에는 조선중기 유학자들의 조상에 대한 관념과 선영의 관리, 은거지의 선정과 건축물의 조영에 대한 생각의 일단을 엿볼 수 있다. 택당은 시초점으로 음택과 양택을 최종적으로 결정하였으며 그 입지 특성을 풍수지리적인 관점에서 해석하였다. 그는 선영의 자리를 선정할 때 시초점 점사의 내용을 참고하여 결정하였으며 이를 은거지였던 택풍당의 건축 조영에도 반영하였다. 그가 은거지에 들어간 후 조영한 택풍당은 자신의 생활 좌우명으로 삼았던 택풍대과괘(澤風大過卦)의 개념을 반영한 것이었다. 택풍당의 평면, 단면의 형식과 연못을 조성하고 가운데 버드나무를 심었던 것이 모두 택풍괘를 본뜬 것이다. 택당 이식이 건축한 택풍당은 택풍대과괘의 주역개념을 바탕으로 하여 지어진 것이었다. 그리고 택풍당이 자리잡은 지평백아곡(현재 앙평군 양동면 쌍학리 안골)의 마을입지는 풍수지리에 바탕을 두고 있었다.

  • PDF

이종의 통계정보를 이용한 품사 부착 기법 (Part-Of-Speech Tagging using multiple sources of statistical data)

  • 조세형
    • 한국지능시스템학회논문지
    • /
    • 제18권4호
    • /
    • pp.501-506
    • /
    • 2008
  • 통계적 방식의 품사부착 문제는 보통 N-그램과 같을 단일 통계정보를 활용하지만 단순한 통계 정보라는 원천적인 한계가 있어 많은 오류가 발생한다. 따라서 다양한 정보를 활용하는 것이 정확도를 높일 가능성이 있다는 데는 이론의 여지가 없다. 그러나 다른 종류의 통계 자료는 배타적 자료가 아닌 한 상충되는 정보를 가질 수밖에 없으므로 이러한 정보들로부터 어떻게 종합적인 결론을 내는가가 문제이다. 본 논문에서는 이러한 상이한 통계정보를 통합하는 방법으로 언어 모델의 구성에서 활용된 바 있는 최대엔트로피 모델의 한국어 품사 부착에의 사용 가능성을 제시한다. 여기서는 이종의 통계정보로서 N그램과, 트리거 쌍을 사용하게 된다. 이러한 트리거 쌍 통계정보를 N그램과 함께 최대엔트로피 모델링을 했을 경우 퍼플렉시티가 어떻게 변화하는지에 대한 실험결과를 관찰하게 될 것이다. 트리거 쌍은 또한 다양하게 문맥사이즈를 변화할 수 있으며, N그램의 확률 모델도 다양하기 때문에 여러 종류의 실험을 통한 많은 향상을 예상 할 수 있다. 본 실험에서는 단일 모델 사용시 94.9 %의 정확도를 가진 3-그램 모델에 트리거 쌍을 최대 엔트로피 방식으로 추가한 견우 95.6% 의 정확도를 보여 0.7% 포인트의 정확도 향상을 기록하였다. 따라서 향후 다양한 정보원을 개발하여 최대엔트로피 방식으로 통합할 경우 지속적인 정확도 향상을 가져 올 수 있는 가능성을 보여준다고 할 수 있다.

Hidden Markov Network 음성인식 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of Hidden Markov Network Speech Recognition System)

  • 오세진;김광동;노덕규;위석오;송민규;정현열
    • 융합신호처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.30-39
    • /
    • 2003
  • 본 논문에서는 한국어 음성 데이터를 대상으로 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다. HM-Net은 기존의 SSS(Successive State Splitting) 알고리즘을 개량한 PDT(Phonetic Decision Tree)-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행하며, 마지막으로 파라미터의 공유를 통해 triphone 형태의 최적인 모델 네트워크를 작성하게 된다. 인식에 사용된 알고리즘은 음소 및 단어인식의 경우에는 One-Pass Viterbi 빔 탐색을 사용하며 트리 구조 형태의 사전과 phone/word-pair 문법을 채용하고 있다. 연속음성인식의 경우에는 단어 bigram과 단어 trigram 언어모델과 목구조 형태의 사전을 채용한 Multi-Pass 빔 탐색을 사용하고 있다. 전체적으로 본 논문에서는 다양한 조건에서 HM-Net 음성인식 시스템의 성능평가를 수행하였으며, 지금까지 소개된 음성인식 시스템과 비교하여 매우 우수한 인식성능을 보임을 실험을 통해 확인할 수 있었다.

  • PDF

한글 글자 유형이 시각 폭과 읽기 능력에 미치는 영향 (Effect of syllable complexity on the visual span of Korean Hangul reading and its relation to reading abilities)

  • 최영은;김태훈
    • 인지과학
    • /
    • 제27권2호
    • /
    • pp.325-353
    • /
    • 2016
  • 읽기의 초기 단계에서 처리되는 글자의 정보량을 지칭하는 시각 폭은 개별 글자의 획수가 증가하거나 폰트의 종류, 고정된 지면에서 차지하는 잉크의 면적, 글자 간의 간격과 같은 복잡성 요인들에 의해 영향을 받는다. 한글은 자음과 모음들이 조합되는 독특한 알파벳-음절 표기법을 사용하는 글자 체계를 가지고 있어 영어나 중국어를 중심으로 한 결과들에 비해, 자모구성의 글자 유형에 따라서도 복잡성이 달라질 수 있다는 특수성이 있다. 본 연구에서는 세 글자 쌍 패러다임을 이용하여 글자의 유형에 따라 한글 읽기 시각 폭의 크기가 영향을 받는지 살펴보았다. 그리고 여러 글자 유형의 시각 폭 중 읽기 능력의 개인차를 예측하는 글자 유형을 확인해보고자 시각 폭과 읽기 폭, 읽기 유창성, 읽기 이해와의 상관도 살펴보았다. 실험결과, 글자 유형이 복잡해질수록 글자 재인 정확률이 감소하고 시각 폭이 줄어드는 경향이 관찰되었으나 자음+모음+자음의 형태가 자음+모음 형태보다 글자 재인율이 높고 시각 폭도 큰 것으로 나타나 자모조합의 복잡성에 따른 영향이 선형적이지 않고 다른 요인이 개입할 가능성이 관찰되었다. 자음만 제시한 조건과 CV조건의 글자 재인율은 읽기 이해와 정적 상관을 보여 향후 읽기 능력과 관련한 시각 폭 측정 시 사용할 수 있는 글자 유형으로 나타났다.

노주(老洲) 오희상(吳熙常)의 경설(經說)과 그 특징(特徵) (Noju Oh Hui-sang's ConfucianismDoctrine and its Characteristics)

  • 김영호
    • 한국철학논집
    • /
    • 제38호
    • /
    • pp.129-162
    • /
    • 2013
  • 노주 오희상은 조선후기 순조대에 활약한 유학자로서 당시 산림의 종장이었다. 그는 절충파 성리학자로서 알려져 있으나 생부 오재순과 백형 오윤상으로 이어지는 가학을 계승하여 경학에도 조예가 깊었다. 이에 본 논문에서는 노주의 경설과 그 특징을 살펴보았다. 노주 경설의 경학방법론의 특징으로는 다음과 같은 점이 주목된다. 첫째, 전체적으로 분석이 정밀하며 경서해석에 있어서 주로 성리설과 관계된 장절을 주석하였다. 둘째, 주자주에 대한 견해는 물론 사서집주대전의 소주(小注)에 대해서도 깊이 있는 탐구를 하고 있다. 다만 노주는 주자설의 경우 반대하기 보다는 주자설(朱子說)의 미흡한 점을 보완하는 선에서 경서를 해석했다. 소주의 제가의 견해에 대해서는 찬동 보다는 비판적인 학설을 많이 개진하고 있다. 셋째, 중국 유학자는 물론 우리나라 유학자의 설을 많이 인용하고 있다. 이율곡을 비롯하여 남당 한원진의 학설을 주로 소개하고 있다. 특히 그중에서도 한원진의 "경의기문록"을 자주 인용하고 있다. 넷째, 노주는 선배 유학자설을 인용함에 있어서 적극적으로 수용하는 경우도 많지만 그 학설이 타당하지 않다고 생각될 경우 과감하게 그 오류를 지적하고 있다. 우암, 율곡은 물론 심지어는 맹자설에 대해서도 그 오류를 낱낱이 변파하고 있다. 다섯째, 특히 "주역"에 대해 심도있는 논의를 전개하고 있다. 정자의 "역전"에 대해서는 비판을 주자의 "본의"에 대해서는 수용하는 양상을 보이고 있다. 전체적으로 "주역"의 개략적인 설명이 많고 건괘를 제외하고는 괘를 직접 설명한 것은 적으며 특히 "계사전" 설명이 상세하다.

『태극도통감』의 도상을 통해 본 대순사상의 '선·후천' 개념 (The Concept of 'the Former World and the Later World' in Daesoon Thought as Introduced via the Diagrams of The Comprehensive Mirror of Taegeukdo)

  • 이봉호
    • 대순사상논총
    • /
    • 제47집
    • /
    • pp.65-103
    • /
    • 2023
  • 대순사상의 핵심 경전인 『전경』에는 선천과 후천을 상극의 시대와 상생의 시대로 구분한다. 이러한 선천과 후천 개념은 『태극도통감』에서는 역학의 도상으로 나타난다. 역학에서 선천과 후천은 송대 도서역의 주요한 개념이다. 역학의 도상에서 「복희8괘차서도」, 「복희8괘방위도」, 「복희64괘차서도」, 「복희64괘방위도」는 선천에 해당하고, 「문왕8괘차서도」, 「문왕8괘방위도」 등은 후천에 해당한다. 『태극도통감』에서는 이 역학의 도상들을 대순사상에 따라 재해석한다. 「문왕시대 팔괘도」는 역학에서 「문왕팔괘도」에 해당한다. 이 도상은 「설괘전」 제5장의 경문에 따라 그려진 도상이다. 이 도상은 곤(坤)을 중심으로 한 "지존시대(地尊時代)"에 해당한다. 역학의 「복희팔괘방위도」는 대순사상에서 「복희시대 팔괘방위도」에 해당한다. 이 도상에서 가장 큰 특징은 동서남북 정방위에서 남북 방위에 배당된 괘가 천지비괘라는 것이다. 이는 비괘(否卦)가 음양의 교류와 소통이 전혀 일어나지 않는 괘상을 의미한다. 당연히 이는 음양의 상극을 상징한다. 이를 대순사상에서는 "천존시대(天尊時代)"라고 표현한다. 『태극도통감』의 「정역시대 팔괘도」의 도상의 가장 큰 특징은 동서남북 정방위에서 남북 방위에 배당된 괘가 지천태괘(地天泰卦)이다. 이는 감리괘가 정방위에서 벗어나 있어 오행에서 상극이 해소된 도상이다. 그래서 이 도상은 "어떠한 상극의 이치도 없는(全無相克之理)" 세상이자 "인존시대(人尊時代)"를 상징한다. 『전경』의 내용에 따르면, 상제께서 선천의 상극을 바로 잡는 삼계공사를 행하시고, 이 삼계공사의 결과로 후천 세계의 상생 도가 구현된다. 상제의 삼계공사는 신명계에서 행한 일이지만, 이는 후천 세계에서는 상생의 도가 구현되는 선경으로 나타난다. 이러한 후천의 세계를 도상으로 구현한 것이 『태극도통감』의 「정역시대 팔괘도」이다.