• 제목/요약/키워드: 문장종속

검색결과 54건 처리시간 0.031초

종속격 정보를 적용한 동사 의미 중의성 해소 (Verb Sense Disambiguation using Subordinating Case Information)

  • 박요셉;신준철;옥철영;박혁로
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.241-248
    • /
    • 2011
  • 동형이의어는 여러 가지 의미를 가진 단어를 의미한다. 문장의 의미를 이해하기 위해서는 필수적으로 문장에 포함된 동형이의어의 의미를 결정해야 한다. 기존의 단어 의미 중의성 연구들은 공기 빈도를 기반으로 해결하였다. 하지만, 동사의 경우에는 정확도 향상을 위해서 격 정보가 중요하다. 왜냐하면, 동사 동형이의어의 의미는 행위의 주체나 객체에 따라 결정되어서 종속격(목적격, 부사격, 보격) 정보가 필요하며, 동사동형이의어 의미마다 서로 다른 격 정보가 필요하기 때문이다. 본 논문에서는 한국어 격 정보를 적용한 동사 의미 중의성 해소를 제안한다. 격정보는 표준국어대사전에 명시된 조사 정보를 이용하였다. 실험은 고빈도 동형이의어 12개를 대상으로 하였으며, 실험결과 정확도가 기존의 97.3%에서 98.7%로 1.34% 향상되었다. 이는 원래의 오류율을 2.7%에서 1.3%으로 절반정도 줄였다.

종속성 그래프 기반 클래스 테스팅 (The class testing based on a dependence graph)

  • 임동주;배상현
    • 인터넷정보학회논문지
    • /
    • 제1권1호
    • /
    • pp.105-113
    • /
    • 2000
  • 절차적 프로그램의 표현방법은 클래스, 객체, 계승, 동적 바인딩 등으로 이루어진 객체지향 프로그램 표현에 그대로 적용될 수 없다. 더군다나 기존의 프로그램 종속성은 변수간이 아니라 문장간의 종속성을 나타내고 있다. 즉, 주어진 변수에 어떠한 변수들이 영향을 미치고 있는가 하는 문제를 해결할 수 없다. 따라서 본 연구는 객체지향 프로그램에서 변수간의 종속성을 포함한 구현 수준의 정보를 나타내는 메소드 종속성 모델을 제시하고자 한다. 또한 객체지향 프로그램의 테스트 적합성 기준에 근거한 구현기반 클래스 테스팅 방법을 제안한다. 데이터 멤버간 종속성과 테스트 데이터 적합성에 대한 공리들을 고려하여 흐름 그래프 기반 테스팅 기준을 만족시키는 테스트 케이스인 메소드의 시퀀스를 생성시킨다. 파생 클래스 테스팅을 위해서 유산관계와 실험을 통해 테스트 비용 절감을 검증한 부모 클래스에 대한 테스팅 정보의 재사용성을 고려한다.

  • PDF

전화음성에 강인한 문장종속 화자인식에 관한 연구 (On a robust text-dependent speaker identification over telephone channels)

  • 정의상;최홍섭
    • 음성과학
    • /
    • 제2권
    • /
    • pp.57-66
    • /
    • 1997
  • This paper studies the effects of the method, CMS(Cepstral Mean Subtraction), (which compensates for some of the speech distortion. caused by telephone channels), on the performance of the text-dependent speaker identification system. This system is based on the VQ(Vector Quantization) and HMM(Hidden Markov Model) method and chooses the LPC-Cepstrum and Mel-Cepstrum as the feature vectors extracted from the speech data transmitted through telephone channels. Accordingly, we can compare the correct recognition rates of the speaker identification system between the use of LPC-Cepstrum and Mel-Cepstrum. Finally, from the experiment results table, it is found that the Mel-Cepstrum parameter is proven to be superior to the LPC-Cepstrum and that recognition performance improves by about 10% when compensating for telephone channel using the CMS.

  • PDF

띄어쓰기 비종속 품사 태깅 시스템 개발 (Development of POS Tagging System Independent to Word Spacing)

  • 이경일;안태성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-72
    • /
    • 2003
  • 본 논문에서는 입력된 한국어 문자열로부터 형태소를 분석하고, 품사를 태깅하는 방법에 있어 개선된 통계적 모델을 제안하고, 이에 기반한 띄어쓰기 비종속 형태소 분석 및 태깅 시스템의 개발과 성능 평가에 대한 결과를 소개하고 있다. 제안된 통계 기반품사 태깅 시스템은 입력된 문자열로부터 음절의 띄어쓰기 확률값을 계산하여 유사어절을 생성하고, 유사어절 단위로 사용자 띄어쓰기와 상관없이 형태소 후보 리스트를 생성하며, 인접한 후보 형태소들의 접속 확률 계산에 있어 어절 간 접속 확률과 어절 내 접속 확률을 모두 사용함으로, 최적의 형태소 리스트를 결정하는 모델을 사용하고 있다. 특히, 형태소들의 접속 확률 계산 시 어절 간 접속 확률과 어절 내 접속 확률의 결합 비율이 음절의 띄어쓰기 확률 값과 사용자의 띄어쓰기 여부에 따라 자동으로 조절되는 특징을 가지고 있으며, 이를 통해 극단적으로 띄어 쓰거나 붙여 쓴 문장에 대해서도 평균 90%수준의 품사 태깅 성능을 달성할 수 있었다.

  • PDF

음성 인식에서 훈련 및 인식 과정에 사용되는 대상 어휘의 차이에 대한 음향 모델의 성능 평가 (Performance Evaluation of Acoustic Models According to Differences between Vocabularies in Training and Test Phases of Speech Recognition)

  • 김회린;이항섭;권오욱
    • 한국음향학회지
    • /
    • 제17권7호
    • /
    • pp.22-27
    • /
    • 1998
  • 본 논문에서는 ETRI에서 개발한 가변 어휘 음성 인식기의 어휘 독립 음향 모델링 방법을 기술하고, 이 모델의 어휘 종속, 어휘 독립 및 어휘적응 성능을 평가하기 위하여 다 양한 고립단어 및 연속음성 DB에 대하여 실험한 결과를 분석하였다. 평가를 위하여 사용한 음성 DB로는 고립단어 음성으로 POW(Phonetically Optimized Words) 3848, PBW(Phonetically Balanced Words) 445, PBW 452, 호텔예약 244 단어, 게임 제어용 단어 등이며, 연속음성으로 일반 문장 음성 및 연속 숫자음을 이용하였다. 성능 분석 결과 40개 음소 모델만으로도 비교적 높은 인식률을 보여 주었지만, 어휘독립의 경우는 어휘종속에 비 하여 성능이 크게 낮았고, 특히 대상 어휘가 숫자음, 알파벳, 연속음 등의 경우에는 POW 데이터나 PBW 데이터만 가지고는 우수한 가변 어휘 음성 인식기를 구현하기에 한계가 있 음을 알 수 있다. 또한, 훈련 데이터의 어휘와 평가데이터의 어휘가 비슷할 경우에는 변이음 모델을 사용하면 음소 모델만을 사용할 경우에 비하여 그 성능이 우수하였지만, 일반적인 어휘독립의 상황에서는 효과가 별로 없음을 알 수 있었다.

  • PDF

SVM을 사용한 한국어 종속절의 의존관계 분석 (Analyzing Dependency of Korean Subordinate Clauses Using Support Vector Machine)

  • 김상수;박성배;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.148-155
    • /
    • 2006
  • 한국어 구문 분석에서 가장 어려운 작업들 중에 하나는 종속절의 의존관계 파악이다. 본 논문에서는 이를 해결하기 위해서 종속절의 의존관계를 걸을 구성하는 서술어부(동사와 어미)의 관련 정보의 유무에 따라 의존관계가 성립한다고 가정했다. 즉 각각의 절들의 서술부의 관련 정보의 유무로 보고, 이진 분류 문제로 이 문제를 해결하였다. 사용한 자질은 정적 자질(static feature)와 동적 자질(dynamic feature)를 구성되어 있다. 정적 자질은 동사와 어미에서 표면적인 어휘 정보이고 이는 단어, POS 테그 및 위치 정보들이다. 동적 자질은 문장에서 절이 가지는 문법적인 형태를 의미하고, 이를 추출하기 위해 간단한 규칙을 만들고 이를 바탕으로 CKY 차트 파서를 통하여 추출하였다. 기계학습 방법으로는 이진 분류 문제에서 널리 사용되는 SVM을 사용하였다. 실험 결과 어휘 정보들 중에서 어미의 정보만 사용하였을 경우는 64.4%의 정확도를 보였고 문법적인 정보인 동적 자질을 사용한 경우는 73.5%로 어휘 정보만을 사용한 경우 보다 9.1%의 성능 향상됨을 보였다

  • PDF

소프트웨어의 유지보수를 위한 PSDG기반 의미분할모형의 설계 (A design of the PSDG based semantic slicing model for software maintenance)

  • 여호영;이기오;류성열
    • 한국정보처리학회논문지
    • /
    • 제5권8호
    • /
    • pp.2041-2049
    • /
    • 1998
  • 소프트웨어의 품질을 향상시키며, 기존코드의 결함식별을 용이하게 하는 방법으로 프로그램의 후상태 종속성 분석을 통한 프로그램 ?살 및 유지보수지원 기법을 제안한다. 결함을 식별하고 분석하기에 이해도가 중요시 되는 교정유지보수를 위해서, 기존 코드의 분석 및 세그먼트화를 후상태 종속성모형(PSDG)을 이용하여 정적분할과 동적분할 및 의미분할의 장점을 살린 코드분할로 수행한다. 분할의 원리는 기존코드의 상태 종속성을 추적하여 그래프로 모형화한 후, 조각화(Clustering)와 강조분할(Highlighting)을 통해서 프로그램을 분할한다. PSDG 모형화의 결과로 비효율적인 프로그램 결함코드(Deadcode)의 식별 및 제거가 가능하며, 관련 프로그램 문장들을 일반화할 수 있고, 상태전이도 모형과의 확장연계로 분석 및 설계의 문서로 이용될 수 있다.

  • PDF

L-R HMM 갖는 문장 종속 음성 향상 방법 (Text Dependent Speech Enhancement based L-R HMM)

  • 이종주;이기용
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.61-64
    • /
    • 2002
  • 본 논문에서는 Left-Right HMM 모델에 기초를 둔 음질 향상 방법을 제안하였다. 기존 HMM에 기초를 둔 음질 향상 방법은 ergodic HMM에 기초를 두고 음질을 향상시켰다. 본 논문에서는 Left-Right HMM이 현재 상태에서 다음상태로만 변하는 성질을 이용하여 현재의 상태를 결정하여 다음 프레임에서 현재와 다음 상태에서만 계산을 하는 방법을 사용하였다. 그 결과 기존의 방법에 비해 많은 시간을 줄일 수 있었다.

  • PDF

동적 시간 신축 알고리즘을 이용한 화자 식별 (Speaker Identification Using Dynamic Time Warping Algorithm)

  • 정승도
    • 한국산학기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.2402-2409
    • /
    • 2011
  • 음성에는 전달하고자 하는 정보 이외에 화자 고유의 음향적 특징을 담고 있다. 화자간의 음향적 차이를 이용하여 말하고 있는 사람이 누구인지 판단하는 방법이 화자 인식이다. 화자 인식에는 화자 확인과 화자 식별로 구분되는데 화자 확인은 1명의 음성을 대상으로 본인인지 아닌지를 검증하는 방법이다. 반면, 화자 식별은 미리 등록된 다수의 종속 문장으로부터 가장 유사한 모델을 찾아 대상 의뢰인이 누군지 식별하는 방법이다. 본 논문에서는 MFCC(Mel Frequency Cepstral Coefficient) 계수를 추출하여 특징 벡터를 구성하였고, 특징 간 유사도 비교는 동적 시간 신축(Dynamic Time Warping) 알고리즘을 이용한다. 각 화자마다 두 개의 종속 문장을 훈련 데이터로 사용하여 음운성에 기반을 둔 공통적 특징을 기술하였고, 이를 통해 데이터베이스에 저장되어 있지 않은 단어를 사용하더라도 동일 화자임을 식별할 수 있도록 하였다.

효과적인 애스팩트 마이닝을 위한 다중 레이블 분류접근법 (Multi-Label Classification Approach to Effective Aspect-Mining)

  • 원종윤;이건창
    • 경영정보학연구
    • /
    • 제22권3호
    • /
    • pp.81-97
    • /
    • 2020
  • 최근의 감성분류 연구는 출력변수가 하나인 단일레이블 분류방법을 사용한 연구가 많다. 특히, 이러한 연구는 하나의 극성 값(긍정, 부정)만을 찾는 연구가 많다. 그러나 한 문장 안에는 다중적인 의미가 내포되어 있다. 그 중에서도 감정과 오피니언이 이러한 특징을 갖는다. 본 논문은 두 가지 연구목적을 제시한다. 첫째, 한 문장 안에 다양한 토픽(주제 또는 애스팩트)이 있다는 사실을 기반으로, 해당 문장을 각 애스팩트 별로 감성을 분류하는 애스팩트 마이닝을 수행한다. 둘째, 두개 이상의 종속변수(출력 값)를 한 번에 분석하는 다중레이블 분류방법을 적용한다. 이에 본 연구는 감성분류의 연구가 단일분류기에 의해서만 이루어진 연구를 개선하고자 다중레이블 분류방법에 의한 애스팩트 마이닝을 수행하고자 한다. 이와 같은 연구목적을 달성하기 위해 국내 뮤지컬 데이터를 수집하였다. 분석결과 문장 안에 있는 다양한 애스팩트별 감성을 추출하였고, 유의한 결과를 얻었다.