• 제목/요약/키워드: word-net

검색결과 258건 처리시간 0.024초

문서 클러스터를 위한 워드넷기반의 대표 레이블 선정 방법 (Representative Labels Selection Technique for Document Cluster using WordNet)

  • 김태훈;손미애
    • 인터넷정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.61-73
    • /
    • 2017
  • 본 연구에서는 문서 클러스터링 결과 도출된 개별 클러스터가 함축하고 있는 의미를 파악하는 데 필요한 어휘들의 정보량을 활용한 문서 클러스터 레이블링(Documents Cluster Labeling) 방법을 제안하였다. 이를 위해, 클러스터에 포함된 어휘들이 해당 클러스터에서 얼마나 중요한 비중을 차지하고 있는지 파악하기 위하여 각 어휘의 출현 빈도와 정보량을 이용한 어휘의 가중치를 계산한 후, 워드넷을 이용하여 클러스터에 포함된 어휘들의 최근접 공통 상위어를 후보 레이블로 식별하였다. 이상의 과정을 거쳐 식별된 후보 레이블의 정보량과 클러스터내에서의 중요도 가중치를 활용해, 해당 클러스터의 의미와 특징을 포괄적으로 표현할 수 있는 대표 레이블을 결정하였다. 본 연구의 우수성을 입증하기 위해 다음과 같은 실험을 수행하였다. 실험은 본 연구에서 제안한 방법에 따라 선정된 레이블과 후보 레이블을 워드넷에 프로젝션한 후, 워드넷상에서 이들 레이블의 위치(깊이)를 확인하였다. 또한 선정된 후보 레이블을 상위어로 갖고 있는 클러스터 내 어휘의 수를 도출하여, 휴리스틱 방법에 따라 선정된 레이블을 전문가가 찾은 대표 레이블과의 비교를 수행하였다. 평가지표로 후보 레이블의 적합성($Suitability_{cl}$)과 대표 레이블의 적절성($Appropriacy_{rl}$)을 활용하였다. 실험 결과, 본 연구에서 제안한 방법을 적용해 문서 클러스터 레이블링을 수행할 경우, 후보 레이블의 적합성의 경우 기존의 방법보다 약간 감소하지만 계산량이 기존 방법의 약 20% 정도로 감소하였으며, 대표 레이블의 적절성의 경우 기존의 방법보다 우수한 결과를 도출하는 것을 확인하였다.

한국어 음성인식 성능향상을 위한 문맥의존 음향모델에 관한 연구 (A Study-on Context-Dependent Acoustic Models to Improve the Performance of the Korea Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.9-15
    • /
    • 2001
  • 본 연구에서는 한국어 음성인식 성능향상을 위한 문맥의존 음향 모델을 개선하기 위하여 한국어 음성학적 지식과 결정트리를 접목한 음소결정트리 기반 상태분할 알고리즘으로 한국어에 적합한 문맥의존 음향 모델에 관해 고찰한다. HMM (Hidden Markov Model)의 각 상태를 네트워크로 연결하여 문맥의존 음향모델로 표현하는 HM-Net(Hidden Markov Network)이 있는데 이는 SSS(Successive State Splitting) 알고리즘으로 작성한다. 이 방법은 음향 모델의 상태공유관계와 모델의구조를 결정하는데 효율적이지만 모델을 학습할때 문맥환경에 따라 출현하지 않는 문맥이 존재하는 문제점이 있다 본 연구에서는 이러한 문제점을 해결하기 위해 2진 결정트리와 SSS 알고리즘의 장점을 결합하여 문맥방향 상태분할을 수행할 때 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어에 따라 상태분할 하는 방법으로서 PDT-SSS(Phonetic Decision Tree-based SSS) 알고리즘을 적용한다. 적용한 방법으로 작성한 문맥의존 음향 모델의 유효성을 확인하기 위해 국어공학센터 (KLE)m이 452 단어와 항공편 예약관련 200문장(YNU 200)에 대해 화자독립 음소, 단어 및 연속음성인식 실험을 수행하였다. 인식실험결과, 문맥 의존 음향모델에 대한 화자독립 음소, 단어 및 연속음성 인식실험에서 기존의 단일 HMM 모델보다 향상된 인식률을 보여, 한국어에 적합한 문맥의존 음향 모델을 작성하는데 한국어 음성학적 지식과 음소결정트리 기반 상태분할 알고리즘이 유효함을 확인하였다.

  • PDF

의미커널과 한글 워드넷에 기반한 지능형 채점 시스템 (An Intelligent Marking System based on Semantic Kernel and Korean WordNet)

  • 조우진;오정석;이재영;김유섭
    • 정보처리학회논문지A
    • /
    • 제12A권6호
    • /
    • pp.539-546
    • /
    • 2005
  • 최근 인터넷 사용자가 급증하면서 원격교육의 발전과 함께 평가에서도 원격을 이용한 방법이 많이 사용되고 있다. 하지만 현재까지는 자연언어처리의 어려움으로 객관식이나 단답식 평가가 주류를 이루고 있다. 본 논문에서는 서술형 주관식 문제의 빠르고 공정한 지능형 채점을 위하여, 다양한 언어 지식을 활용하였다. 이를 위하여, 가공되지 않은 말뭉치에서 의미커널을 구축하고, 수험자가 작성한 답안과 이미 구축된 정답을 벡터로 구성하여 이 답안간의 유사도를 의미커널을 통해 계산하여 정답여부를 자동으로 판단하도록 하였다. 의미커널을 구축하기 위하여 벡터 공간 모델에 기반한 은닉 의미 분석을 이용하였으며, 또한 한글 워드넷을 이용하여 답안의 정보부족 문제를 줄여보고자 하였다. 실험을 위하여 3000 문항의 주관식 문제를 구축하였으며, 의미커널의 구축을 위하여 38,727개의 신문기사를 모아 말뭉치로 구성하고 75,175개의 색인어를 추출하였다. 의미커널에 기반한 자동 채점 시스템으로 실제 수험자에 의하여 작성된 답안을 채점한 결과, 출제자가 실제로 채점한 결과를 기준으로 하여 최고 0.894의 상관관계를 얻을 수 있었다

가중특징 Mahalanobis거리를 이용한 마이크 어레이 음석인식의 성능향상 (Performance Improvement of Microphone Array Speech Recognition Using Features Weighted Mahalanobis Distance)

  • ;정현열
    • The Journal of the Acoustical Society of Korea
    • /
    • 제29권1E호
    • /
    • pp.45-53
    • /
    • 2010
  • In this paper, we present the use of the Features Weighted Mahalanobis Distance (FWMD) in improving the performance of Likelihood Maximizing Beamforming (Limabeam) algorithm in speech recognition for microphone array. The proposed approach is based on the replacement of the traditional distance measure in a Gaussian classifier with adding weight for different features in the Mahalanobis distance according to their distances after the variance normalization. By using Features Weighted Mahalanobis Distance for Limabeam algorithm (FWMD-Limabeam), we obtained correct word recognition rate of 90.26% for calibrate Limabeam and 87.23% for unsupervised Limabeam, resulting in a higher rate of 3% and 6% respectively than those produced by the original Limabearn. By implementing a HM-Net speech recognition strategy alternatively, we could save memory and reduce computation complexity.

지식기반 웹 문서 필터링 (Knowledge-Based Web Document Filtering)

  • 황상규;김상모;변영태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.51-53
    • /
    • 1999
  • 인터넷에서 검색 가능한 정보의 양은 폭발적으로 증가하고 있으며, 그에 따라 웹 기반 정보검색시스템은 사용자가 원하는 정보만을 필터링하여 이용자의 정보검색 수행과정에 부담을 덜어줄 필요가 있다. 본 연구에서는 웹 정보검색에 익숙치 못한 초보 이용자들이 실제 웹 정보검색을 수행하는데 있어 발생할 수 있는 문제점을 살펴보고, 초보 이용자들의 보다 편리한 웹 정보검색을 도와줄 수 있도록 하기 위하여 WordNet을 활용한 지식베이스와 SDCC(Semantic Distance for Common Category)를 이용한 웹 문서 필터링 알고리즘을 개발하고 그 효율성을 확인하였다.

  • PDF

LG HomeNet Solution 적용 사례

  • 박현
    • 정보처리학회지
    • /
    • 제11권3호
    • /
    • pp.91-94
    • /
    • 2004
  • 최근 정통부는 9년 동안 정체되어 있는 국민소득 1만불 시대에서 2만불 시대로의 돌파를 위해서 "IT 839전략"을 추진하고 있다. 그 주요 요지는 8대 신규 서비스, 3대 인프라, 그리고 9대 신성장 엔진을 통해 2012년에 2만불 시대를 달성하자는 것이다. "IT386전략"의 핵심 내용을 살펴보면 항목 하나 하나가 홈네트워크, 더 나아가 유비쿼터스 네트워크(Ubiquitous Network)의 구성 요소로 가득 차 있다. 홈네트워크는 PC, 인터넷, 모바일 이후를 대표하는 차세대 IT Key word로서 자리 매김하고 있으며 시장 규모적인 측면이나, 국민경제에 미치는 파급효과, 각 개인의 생활의 변화 등 다방면에서 큰 파장을 일으킬 것으로 예상되고 있다. (중략)으킬 것으로 예상되고 있다. (중략)

  • PDF

전문 웹 사이트에서의 통계적 기법과 태그 정보를 이용한 문서 분류 (Web Document Clustering Using Statistical Techniques & Tag Information on the Specific-Domain Web site)

  • 조은휘;변영태
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.297-302
    • /
    • 2002
  • 특정 영역에 대해 사용자에게 관련 정보를 제공하는 서비스를 위해 정보 에이전트를 개발하고 있다. 이 시스템은 웹 상에서 문서를 수집해 오는데 특정 영역과 관련한 지식베이스를 토대로 하고 있는데, 이들 중 몇몇 전문 사이트 내의 정보가 많이 포함되어 있음을 볼 수 있다. 그러므로 전문 사이트 내의 관련 문서 수집은 중요한 의의가 있다. 본 논문에서는 이들 전문 사이트 내의 전문 문서 수집을 위해 문서간의 유사성을 토대로 클러스터링 한다. 즉, 문서내의 텀(term)과 HTML 태그(tag), 지식베이스의 WordNet 계층구조를 data로 하고 SVD(Singular Value Decomposition)을 사용하여 문서간의 관계를 밝혀내었다.

  • PDF

모듈구조 신경망을 이용한 한국어 단어 인식에 관한 연구 (Korean Isolated Word Recognition Using Modular Structured Neural Network)

  • 최환진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1991년도 학술발표회 논문집
    • /
    • pp.11-14
    • /
    • 1991
  • 음소단위로 구성된 음소군들 각각에 대해 구성된 신경 회로망을 하나로 통합하는 모듈구조로 신경망을 이용하여 일반적인 예약 시스템에서 사용할 수 있는 어휘인 시간명, 월명, 지역명등 총 34 단어에 대한 인식 실험내용을 기술한다. 구문회로망(context net)를 이용하는 경우에 약 91.2%의 인식율을, 단순히 음소단위를 기반으로하여 인식할 경우에 약 72%의 인식율을 얻으므로써, 음소 단위 인식시스템의 경우에 보다 높은 인식율을 얻기 위해서는 상위 level의 처리가 수반되어야 함을 확인할 수 있었다.

  • PDF

어휘확장을 통한 문장분석 시스템의 개선 (Improvement of a Sentence Analysis System through Lexical Expansion)

  • 김민찬;김곤;배재학
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.496-498
    • /
    • 2005
  • 본 논문에서는 미등록 어휘로 인한 구문분석의 실패를 해결하는 방법으로 WordNet의 유의어 정보를 이용하였다. 이 방법을 또한 설화용 온톨러지 OfN의 어휘확장에 적용하였다. 실험을 통하여 구문분석 과정에서 나타나는 미등록 어휘문제의 해결과 문장의 의미분석 과정이 순조롭게 진행될 수 있음을 확인하였다.

  • PDF

국소 문맥과 공기 정보를 이용한 비교사 학습 방식의 명사 의미 중의성 해소 (Unsupervised Noun Sense Disambiguation using Local Context and Co-occurrence)

  • 이승우;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권7호
    • /
    • pp.769-783
    • /
    • 2000
  • 본 논문에서는 한국어 명사의 중의성 해소를 위해, 원시 말뭉치로부터 얻을 수 있는 지식원으로서 국소문맥을 정의하고 추출하는 방법을 제시한다. 동일한 국소 문맥을 갖는 서로 다른 명사는 그 의미가 유사하다는 직관을 바탕으로 대상 명사의 중의성 해소를 위해 대상명사를 포함하는 국소문맥과 동일한 국소문맥을 갖는 단어를 단서로 사용함으로써 학습 자료의 활용도를 높일 수 있고 빈도수가 적은 단어의 의미 중의성도 해결할 수 있으며, 용언의 확장을 통해 자료 부족 현상을 줄일 수 있다. 대상 명사는 동일한 국소문맥에 의한 단서들과의 최대 유사도 계산을 통해 그 의미가 결정된다. 두 단어간의 유사도는 WordNet으로부터 차용한 의미 계층 구조에서 두 단어가 가지는 개념 사이의 거리에 의해 계산된다. 최대 유사도를 계산하는 과정에서는 단서들의 중의성을 점차 줄여 나감으로써 유사도 계산의 속도를 향상시킬 수 있다. 대상 명사가 둘 이상의 국소문맥을 가질 때에는 각 국소문맥의 종류에 따른 가중치를 부여하여 국소문맥의 종류에 따른 의미제약의 차이를 구현하였다. 또 하나의 지식원으로서 사전 정의와 예문으로부터 공기정보를 얻고, 이를 국소문맥을 보완하기 위한 지식으로 사용하여 최선의 의미를 선택할 수 있도록 하였다. 실험을 통해, 제안하는 방법은 국소 문맥의 적용률이 높고, 공기 정보는 국소 문맥과 상호 보완적으로 사용되어 정확도를 높일 수 있음을 보였다. 본 방법을 실험한 결과, 사용된 단어의 의미 중의성이 크면서도, 기존의 의미 부착 말뭉치를 이용한 교사 학습 방식의 성능보다도 높은 정확도(89.8%)를 얻을 수 있었다.

  • PDF