• 제목/요약/키워드: 비음수 행렬 분해

검색결과 80건 처리시간 0.027초

문서의 의미특징을 이용한 주제 기반의 다중문서 요약 (Topic-Based Multi-Document Summarization using Semantic Features of Documents)

  • 박선;안동언;김철원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.715-716
    • /
    • 2009
  • 인터넷의 발전은 대량의 정보를 양산하였고, 이러한 대량의 정보 집합 내에서는 비슷한 정보가 재활용 되거나 반복되는 정보중복문제를 가지고 있다. 중복되는 정보들로부터 사용자에게 원하는 정보를 신속히 검색할 수 있도록 하는 정보 요약에 대한 필요성은 점차 증가하고 있다. 본 논문은 비음수 행렬 인수분해(NMF, non-negative matrix factorization)에 의한 문서의 의미특징을 이용하여 주제기반의 다중문서를 요약하는 새로운 방법을 제안한다. 본 논문에서는 다중문서가 포함하고 있는 문서들 간의 고유구조를 문서요약에 이용하여서 요약의 질을 높일 수 있고, 주제와 문장 간의 유사성과 다양성 고려하여서 쉽게 과잉정보를 제거하여 문장을 요약할 수 있는 장점을 갖는다.

군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법 (Enhancing Document Clustering Method using Synonym of Cluster Topic and Similarity)

  • 박선;김철원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1538-1541
    • /
    • 2011
  • 본 논문은 군집 주제의 유의어와 유사도를 이용하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 비음수행렬분해의 의미특징을 이용하여 군집 주제(topic)의 용어들을 선택함으로서 문서 군집 집합의 내부구조를 잘 표현할 수 있으며, 군집 주제의 용어들에 워드넷의 유의어를 사용하여서 확장함으로써 문서를 용어집합(bag-of-words)으로 표현하는 문제를 해결할 수 있다. 또한 확장된 군집 주제의 용어와 문서집합에 코사인 유사도를 이용하여서 군집의 주제에 적합한 문서를 잘 군집하여서 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

시간 변화에 따른 사전 정보와 이득 함수를 적용한 NMF 기반 음성 향상 기법 (A NMF-Based Speech Enhancement Method Using a Prior Time Varying Information and Gain Function)

  • 권기수;진유광;배수현;김남수
    • 한국통신학회논문지
    • /
    • 제38C권6호
    • /
    • pp.503-511
    • /
    • 2013
  • 본 논문은 비음수 행렬 인수분해(NMF)를 이용한 음성향상 기법을 다루고 있다. 음성과 잡음에서 적절한 훈련을 통해 각각의 기저(basis) 행렬을 구하고 이 행렬들을 이용하여 두 음원을 분리 하는 것이다. 이 때 훈련으로부터, 시간 흐름에 따른 기저 사용량의 변화량을 각기 독립적인 가우시안 모델들로 만들고, 이를 이용하여 매 시간 프레임에서 주어진 모델들에 일정 가중치만큼 가까워지는 방향으로 최적화를 수행하였다. 또한 매 시간 얻은 NMF의 부호화 행렬의 결과를 이전 시간 프레임의 부호화 행렬 값과 평활화(smoothing) 과정을 수행하였다. 향상 과정에서는 Log-spectral Amplitude를 이용하여 이득(gain) 함수를 구하였다. 실험 결과에서는 PESQ 값을 지표로 사용하였고, 기존의 NMF를 이용한 음성 향상 보다 이 두 과정을 적용한 방법이 뛰어남을 확인 했다.

주파수 특성 기저벡터 학습을 통한 특정화자 음성 복원 (Target Speaker Speech Restoration via Spectral bases Learning)

  • 박선호;유지호;최승진
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권3호
    • /
    • pp.179-186
    • /
    • 2009
  • 본 논문에서는 학습이 가능한 특정화자의 발화음성이 있는 경우, 잡음과 반향이 있는 실 환경에서의 스테레오 마이크로폰을 이용한 특정화자 음성복원 알고리즘을 제안한다. 이를 위해 반향이 있는 환경에서 음원들을 분리하는 다중경로 암묵음원분리(convolutive blind source separation, CBSS)와 이의 후처리 방법을 결합함으로써, 잡음이 섞인 다중경로 신호로부터 잡음과 반향을 제거하고 특정화자의 음성만을 복원하는 시스템을 제시한다. 즉, 비음수 행렬분해(non-negative matrix factorization, NMF) 방법을 이용하여 특정화자의 학습음성으로부터 주파수 특성을 보존하는 기저벡터들을 학습하고, 이 기저벡터들에 기반 한 두 단계의 후처리 기법들을 제안한다. 먼저 본 시스템의 중간단계인 CBSS가 다중경로 신호를 입력받아 독립음원들을(두 채널) 출력하고, 이 두 채널 중 특정화자의 음성에 보다 가까운 채널을 자동적으로 선택한다(채널선택 단계). 이후 앞서 선택된 채널의 신호에 남아있는 잡음과 다른 방해음원(interference source)을 제거하여 특정화자의 음성만을 복원, 최종적으로 잡음과 반향이 제거된 특정화자의 음성을 복원한다(복원 단계). 이 두 후처리 단계 모두 특정화자 음성으로부터 학습한 기저벡터들을 이용하여 동작하므로 특정화자의 음성이 가지는 고유의 주파수 특성 정보를 효율적으로 음성복원에 이용 할 수 있다. 이로써 본 논문은 CBSS에 음원의 사전정보를 결합하는 방법을 제시하고 기존의 CBSS의 분리 결과를 향상시키는 동시에 특정화자만의 음성을 복원하는 시스템을 제안한다. 실험을 통하여 본 제안 방법이 잡음과 반향 환경에서 특정화자의 음성을 성공적으로 복원함을 확인할 수 있다.

NMF 와 코사인유사도를 이용한 질의 기반 문서요약 (Query-Based Text Summarization Using Cosine Similarity and NMF)

  • 박선;이주홍;안찬민;박태수;송재원;김덕환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.473-476
    • /
    • 2006
  • 인터넷의 발달로 인하여 정보의 양은 시간이 지날수록 폭발적으로 증가하고 있다. 이러한 방대한 정보로부터 정보검색시스템은 사용자에게 너무 많은 검색결과를 제시하여 사용자가 원하는 정보를 찾기 위해 너무 많은 시간을 소요하게 하는 정보의 과적재 문제가 있다. 질의 기반의 문서요약은 정보의 사용자가 원하는 정보의 검색시간을 줄임으로써 정보의 과적재 문제를 해결하는 방법으로서 점차 중요성이 증가하고 있다. 본 논문은 비음수 행렬 인수분해 (NMF, Non-negative Matrix Factorization)과 코사인 유사도를 이용하여 질의 기반의 문서를 요약하는 새로운 방법을 제안하였다. 제안된 방법은 질의와 문서 간에 사전학습이 필요 없다. 또한 문서를 그래프로 변형시키는 복잡한 처리 없이 NMF 에 의해 얻어진 의미 특징(semantic feature)과 의미 변수(semantic variable)로 문서의 고유 구조를 반영하여 요약의 정확도를 높일 수 있다. 마지막으로 단순한 방법으로 문장을 쉽게 요약할 수 있다.

  • PDF

의사연관피드백과 용어 가중치에 의한 문서요약 (Document Summarization using Pseudo Relevance Feedback and Term Weighting)

  • 김철원;박선
    • 한국정보통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.533-540
    • /
    • 2012
  • 본 논문은 의사연관피드백과 의미특징기반의 용어 가중치에 의한 문서요약 방법을 제안한다. 제안된 방법은 의사연관피드백을 이용하여 사용자의 간섭을 최소화 시키며, 의미특징으로부터 유도된 용어의 가중치는 문장집합의 내부 특징을 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다. 또한 가중치가 부여된 의미특징과 확장된 질의를 이용하여서 사용자의 요구사항과 제안방법의 요약결과 사이의 의미적 차이를 감소시킨다. 실험결과 제안방법이 용어의 가중치를 부여하지 않은 방법에 비해서 좋은 성능을 보인다.

퍼지와 의미특징을 이용한 스니핏 추출 향상 방법 (Enhancing Snippet Extraction Method using Fuzzy and Semantic Features)

  • 박선;이연우;조광문;양후열;이성로
    • 한국정보통신학회논문지
    • /
    • 제16권11호
    • /
    • pp.2374-2381
    • /
    • 2012
  • 본 논문은 퍼지와 의미특징을 이용한 새로운 스니핏 추출의 성능향상 방법을 제안한다. 제안방법은 문장집합의 의미특징을 이용하여 대표문장을 생성하고, 대표문장과 문장집합의 퍼지관계를 이용함으로써 질의를 잘 나타내는 스니핏을 추출한다. 또한 의사연관 피드백을 이용하여 질의를 확장함으로써 사용자의 의도가 의미적으로 더 잘 포함되는 스니핏을 추출할 수 있다. 실험결과 제안방법이 다른 방법에 비해서 스니핏 추출에 더 좋은 성능을 보인다.

저차원 선형 모델을 이용한 하이브리드 협력적 여과 (A Hybrid Collaborative Filtering Using a Low-dimensional Linear Model)

  • 고수정
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권10호
    • /
    • pp.777-785
    • /
    • 2009
  • 협력적 여과는 특별한 아이템에 대한 사용자의 선호도를 예측하는 데 사용하는 기술이다. 이러한 협력적 여과 기술은 사용자 기반 접근 방식과 아이템 기반 접근 방식으로 구분할 수 있으며, 많은 상업적인 추천 시스템에서 광범위하게 사용되고 있다. 본 논문에서는 저차원 선형 모델을 사용하여 사용자 기반과 아이템 기반을 통합하는 하이브리드 협력적 여과 방법을 제안한다. 제안한 방법에서는 저차원 선형모델 중 비음수 행렬 분해(NMF)를 이용하여 기존의 협력적 여과 시스템의 문제점인 희박상과 대용량성의 문제점을 해결한다. 협력적 여과 시스템에서 NMF를 이용하는 방법은 사용자를 의미 관계로 표현할 때 유용하게 사용되나 사용자-아이템 행렬의 평가값에 따라 정확도가 낮아질 수 있으며, 모델 기반의 방법이기 때문아 계산 과정이 복잡하여 동적인 추천이 불가능하다는 단점을 갖는다. 이러한 단점을 보완하기 위하여 제안된 방법에서는 NMF에 의해 군집된 그룹을 대상으로 TF-lDF를 이용하여 그룹의 특징을 추출한다. 또한, 아이템 기반에서 아이템간의 유사도를 계산하기 위하여 상호정보량(mutual information)을 이용한다. 오프라인 상에서 훈련집합의 사용자를 군집시키고 그룹의 특징을 추출한 후, 온라인 상에서 추출한 그룹의 특징을 이용하여 새로운 사용자를 가장 최적의 그룹으로 분류함으로써 사용자를 분류하는 데 걸리는 시간을 단축시켜 동적인 추천을 가능하게 하며, 사용자 기반과 아이템 기반을 병합함으로써 기존의 방법보다 정확도를 높인다.

복층 자기부호화기를 이용한 음향 신호 군집화 및 분리 (Audio signal clustering and separation using a stacked autoencoder)

  • 장길진
    • 한국음향학회지
    • /
    • 제35권4호
    • /
    • pp.303-309
    • /
    • 2016
  • 본 논문은 자기부호화기를 이용한 음향신호 분리방법을 제안한다. 사용된 복층구조 신경망 자기부호화기는 입력 신호의 효율적인 표현방법을 자동으로 학습하며, 유사한 특징을 가지고 있는 요소신호들을 군집함으로써 다른 특징의 신호들을 분리할 수 있다. 시간영역과 주파수영역의 변이특성을 추출하기 위하여 단구간푸리에변환(Short-Time Fourier Transform, STFT)을 수행하였으며, 정해진 크기의 사각형 창을 모든 가능한 위치에 적용하여 얻은 단구간 주파수 스펙트럼을 자기부호화기의 입력으로 사용하였다. 자기부호화기의 부호노드들의 값을 이용하여 유사한 스펙트럼 창들을 군집하고, 이를 이용하여 원래의 음원들로 분리해 낼 수 있었다. 분리된 원음들은 원래의 입력신호의 특징을 확실히 나타내었으며, 기존의 비음수 행렬분해(Non-negative Matrix Factorization, NMF) 결과와 주파수 스펙트럼 비교를 통해 그 유효성을 보일 수 있었다.

사례기반추론과 텍스트마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템 연구 (An Intelligence Support System Research on KTX Rolling Stock Failure Using Case-based Reasoning and Text Mining)

  • 이형일;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.47-73
    • /
    • 2020
  • KTX 차량은 수많은 기계, 전기 장치 및 부품들로 구성되어 있는 하나의 시스템으로 차량의 유지보수에는 상당히 많은 전문성과 유지보수 작업자들의 경험을 필요로 한다. 차량 고장발생 시 유지보수자의 지식과 경험에 따라 문제 해결의 시간과 작업의 질적 차이가 발생하며 그에 따른 차량의 가용율이 달라진다. 일반적으로 문제해결은 고장 매뉴얼을 기반으로 하지만 경험이 많고 능숙한 전문가의 경우는 이와 더불어 개인의 노하우를 접목하여 신속하게 진단하고 조치를 취한다. 이러한 지식은 암묵지 형태로 존재하기 때문에 후임자에게 완전히 전수되기 어려우며, 이를 위해 사례기반의 철도차량 전문가시스템을 개발하여 데이터화된 지식으로 바꾸려고 하는 연구들이 있어왔다. 하지만, 간선에 가장 많이 투입되고 있는 KTX 차량에 대한 연구나 텍스트의 특징을 추출하여 유사사례를 검색하는 시스템 개발은 아직 미비하다. 따라서, 본 연구에서는 이러한 차량 유지보수 전문가들의 노하우를 통해 수행된 고장들에 대한 진단과 조치 이력을 문제 해결의 사례로 활용하여 새롭게 발생하는 고장에 대한 조치가이드를 제공하는 지능형 조치지원시스템을 제안하고자 한다. 이를 위하여, 2015년부터 2017년동안 생성된 차량고장 데이터를 수집하여 사례베이스를 구축하였고, 차원축소 기법인 비음수 행렬 인수분해(NMF), 잠재의미분석(LSA), Doc2Vec을 통해 고장의 특징을 추출하여 벡터 간의 코사인 거리를 측정하는 방식으로 유사 사례를 검색하였으며, 위의 알고리즘에 의해 제안된 조치내역들 간 성능을 비교하였다. 분석결과, 고장 내역의 키워드가 적은 경우의 유사 사례 검색과 조치 제안은 코사인 유사도를 직접 적용하는 경우에도 좋은 성능을 낸다는 것을 알 수 있었고 차원 축소 기법들의 성능 비교를 통해 문맥적 의미를 보존하는 차원 축소 방식 중 Doc2Vec을 적용하는 것이 가장 좋은 성능을 나타낸다는 것을 알 수 있었다. 텍스트 마이닝 기술은 여러 분야에서 활용을 위한 연구들이 이루어지고 있는 추세이나, 본 연구에서 활용하고자 하는 분야처럼 전문적인 용어들이 다수이고 데이터에 대한 접근이 제한적인 환경에서 이러한 텍스트 데이터를 활용한 연구는 아직 부족한 실정이다. 본 연구는 이러한 관점에서 키워드 기반의 사례 검색을 보완하고자 텍스트 마이닝 기법을 접목하여 고장의 특징을 추출하는 방식으로 사례를 검색해 조치를 제안하는 지능형 진단시스템을 제시하였다는 데에 의의가 있다. 이를 통해 현장에서 바로 사용 가능한 진단시스템을 단계적으로 개발하는데 기초자료로써 시사점을 제공할 수 있을 것으로 기대한다.