• 제목/요약/키워드: 문장 분할

검색결과 131건 처리시간 0.024초

비음수 행렬 분해와 군집의 응집도를 이용한 문서군집 (Document Clustering Method using Coherence of Cluster and Non-negative Matrix Factorization)

  • 김철원;박선
    • 한국정보통신학회논문지
    • /
    • 제13권12호
    • /
    • pp.2603-2608
    • /
    • 2009
  • 문서군집은 정보검색의 많은 응용분야에 사용되는 중요한 문서 분석 방법이다. 본 논문은 비음수 행렬 분해 (NMF, non-negative matrix factorization)를 군집방법과 군집의 응집도(coherence of cluster)를 이용한 군집 내 문서들의 정제를 이용한 새로운 문서군집방법을 제안한다. 제안된 방법은 문서집합의 내부구조를 나타내는 의미특징행렬과 의미변수행렬 이용하여 문서군집의 성능을 높일 수 있고, 문장들 간의 유사도에 기반 한 군집의 응집도를 이용하여 군집내의 문서들을 정제하여서 재 할당함으로써 군집의 효율을 향상시킬 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

연구 보고서의 공기관계 정보에 제목 및 요약의 가중치를 적용한 유사도 계산 (Calculation of similarity by weighting title and summary in word co-occurrence of research reports)

  • 김남훈;주종민;박혁로;양형정
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.37-40
    • /
    • 2017
  • 본 논문에서는 국가 연구 보고서의 공기 관계 정보와 제목, 요약 등에 가중치를 적용한 유사도 계산방법을 제안한다. 이를 위해 국가 연구개발 보고서에서 텍스트를 추출하여 한 문장 단위로 문서를 분할하고, 기본 불용어와 보고서에서 특징적으로 나타나는 불용어를 처리하고 형태소 분석을 한 뒤 공기관계를 추출하였다. 또한 문서의 유사도 계산시 정확성을 높이기 위해 제목과 요약 부분에 가중치를 부여하였다. 이를 통해 본 논문에서 제안하는 방법이 문서 검색 라이브러인 루씬(Lucene)을 이용한 방법보다 2.5%의 검색성능 향상을 그리고 Knn-휴리스틱 방법보다는 1.1%의 검색성능 향상을 보였다. 이러한 결과를 통해 문서의 요약과 제목 그리고 공기관계 정보가 연구보고서의 유사도를 계산 하는데 영향을 미친다는 것을 보였다.

  • PDF

웹 문서 검색을 위한 검색어 추출과 확장에 관한 연구 (A Study on Keyword Extraction and Expansion for Web Text Retrieval)

  • 윤성희
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권9호
    • /
    • pp.1111-1118
    • /
    • 2004
  • 웹 문서 검색 시스템 사용자에게 자연어 질의를 입력하는 방법은 가장 이상적인 인터페이스이다. 본 논문은 자연어 질의를 입력하는 웹 문서 검색 시스템을 위해 자연어 처리 기술에 기반하여 사용자의 입력 질의 문장을 구문 분석한 후 검색어를 추출하고 확장하는 다중검색 기법을 제안한다. 질의문에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하며, 검색어가 되는 음역어와 축약어들을 확장하여 다중 검색함으로써 재현율과 정확도를 향상시킬수 있음을 보였다.

  • PDF

확률 발음사전을 이용한 대어휘 연속음성인식 (Large Vocabulary Continuous Speech Recognition using Stochastic Pronunciatioin Lexicon Modeling)

  • 윤성진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.315-319
    • /
    • 1998
  • 대어휘 연속음성인식을 위한 확률 발음사전 모델에 대해서 제안하였다. 제안된 확률 발음 사전은 연속음성과 같은 자연스런 발성에서 자주 발생되는 단어의 변이를 확률적인 subword-state로 이루어진 HMM으로 모델화 함으로써 단어의 발음 변이를 효과적으로 표현할 수 있으며, 단위 인식 시스템의 성능을 보다 높일 수 있도록 구성되었다. 확률 발음사전의 생성은 음성 자료와 음소 모델을 이용하여 단어 단위의 분할과 학습을 통해서 자동으로 생성되게 됨 음소와 같은 언어학적인 단위뿐만 아니라 PLU 이나 비언어학적인 인식 모델을 이용한 연속음성인식기에도 적용이 가능하다.연속음성인식실험결과 확률 발음사전을 사용함으로써 표준 발음 표기를 사용하는 인식 시스템에 비해 단어 오류율은 39.8%, 문장 오류율은 24.4%의 큰 폭으로 오류율을 감소시킬 수 있었다.

  • PDF

효율적인 한국어 형태소분석 방법 (An Efficient Method on Korean Morphological Analysis)

  • 정일형;양기주;김영환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.379-384
    • /
    • 1993
  • 본 논문은 효율적인 한국어 형태소분석 방법을 제안한다. 기존의 형태소분석 방법에서는 분석속도와 분석정도가 상호보상 관계에 있으므로 형태소분석기가 이용되는 분야에 따라서 다른 분석방법이 사용되고 있다. 본 논문에서 제안한 형태소 분석 알고리즘은 하나의 어절을 이루는 형태소들 사이의 구성원리를 이용하여 각 어절 타입을 예측하고 각 타입에 적합한 분석을 함으로써 적은 회수의 형태소 분할로도 정확한 형태소분석이 가능하게 한다. 본 알고리즘은 많은 문장으로 형태소 분석실험을 하였고 그 실험 결과는 기존의 방법 보다 우수하여 분석속도와 분석정도에 있어서 범용성이 입증되었다. 본 논문은 효율적인 형태소분석 방법을 제시하고 이를 반영한 형태소분석 시스템의 설계 및 구현에 관하여 기술한다.

  • PDF

제주 택시 텔레매틱스 시스템에서 이동 이력 데이터의 처리 구조 (Data Processing Architecture on the Jeju Taxi Telematics System)

  • 이정훈;홍영신;박경린
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.879-880
    • /
    • 2008
  • 본 논문은 제주 택시 텔레매틱스 시스템에 축적되고 있는 차량들의 이동이력 데이터에 대한 처리구조를 설계하고 구현한다. 각 차량은 1분마다 자신의 위치와 GPS 정보 및 택시의 상태에 관련된 보고를 발생시키며 중앙의 관제시스템은 이를 수합하여 이력데이터를 구성한다. 본 논문에서 구현하는 시스템은 위치 보고를 처리하여 인코딩 변환, 좌표 변환, 맵 매칭, 도로상에서의 위치 계산 등을 수행한 후 오라클 데이터베이스의 이력 테이블에 저장하도록 한다. 이를 위하여 도로 네트워크가 데이터베이스로 변환되었으며 도로망에의 가시화를 위하여 지도 인터페이스 프로그램이 구현되었다. 이러한 정보들은 이력 테이블과 아울러 공간 데이터베이스 엔진과 결합하여 C 언어나 SQL 문장에 의하여 다양한 위치기반 질의를 가능하게 할 뿐 아니라 배차 정보 분석, 현재 통행 속도 분석 등 부가가치가 높은 정보를 산출하는데 필수적인 역할을 수행한다.

음향 및 음소 정보를 이용한 연속제의 자동 음소 분할에 대한 연구 (A Study on Automatic Phoneme Segmentation of Continuous Speech Using Acoustic and Phonetic Information)

  • 박은영;김상훈;정재호
    • 한국음향학회지
    • /
    • 제19권1호
    • /
    • pp.4-10
    • /
    • 2000
  • 본 논문은 자동 음소 분할기의 음소 경계 오류를 보상하기 위한 후처리(Postprocessing)에 관한 연구이다. 자동 분절 경계의 오류 범위를 줄일 수 있는 후처리기를 제안하고, 자동 분절 결과를 직접 합성 단위로 사용할 수 있는 대량의 합성용 운율데이터 베이스 구축에 유용함을 기술한다. 제안된 후처리기는 수작업으로 보정된 데이터의 특징벡터를 다층 신경회로망(MLP: Multi-layer perceptron)을 통해 학습을 한 후, 자동 분절 결과와 MLP 기반 후처리를 이용하여 새로운 음소 경계를 추출한다. 우선, 특징벡터 set은 음성학적 지식이 최대한 반영되도록 선정되었다. 그리고, 경계를 추출하기 위해서 비선형 패턴분리에 탁월한 성능을 보이는 MLP를 이용한다. MLP는 매우 다양하게 나타나는 음소 경계간 음성학적 특징을 단시간 내에 적용할 수 있기 때문이다. 마지막으로, 음운환경별로 특징 벡터가 적용되는 제안된 후처리 알고리즘을 이용하여 자동 분절의 경계 오류에 대한 보상이 이루어진다. 문장 단위로 발화된 합성용 데이터베이스에서 후처리기로 보정된 분절 결과는 음성 언어 번역 시스템의 분할율보다 약 19.9%의 향상된 성능을 보였으며, 절대오류 (|Hand label position-Auto label position|)는 약 28.6% 감소되었다.

  • PDF

비음수행렬분해와 위키피디아를 이용한 사용자기반의 문서요약 (User-based Document Summarization using Non-negative Matrix Factorization and Wikipedia)

  • 박선;정민아;이성로
    • 대한전자공학회논문지SP
    • /
    • 제49권2호
    • /
    • pp.53-60
    • /
    • 2012
  • 본 논문은 위키피디아의 외부지식을 이용하여 사용자의 질의를 확장하고, 확장된 질의와 문서집합의 내부구조를 표현하는 의미특징을 이용하여 문서를 요약하는 새로운 방법을 제안한다. 제안된 방법은 사용자의 초기 질의에 위키피디아 기반의 연관 피드백을 적용하여 사용자가 요구하는 요약문장을 추출할 수 있도록 질의를 확장하며, 비음수 분해된 문서의 의미특징을 이용함으로써 문서의 내부 구조를 잘 표현 할 수 있다. 확장된 질의와 의미특징을 이용하여 의미 있는 문장을 추출함으로써 사용자의 요구사항과 제안방법의 요약결과 사이의 의미적 차이를 감소시킨다. 실험결과 제안방법이 기존방법에 비해서 문서요약에 대해 더 좋은 성능을 보인다.

구음장애 환자용 영우글자판 개발 (Development of Youngwoo Keyboard for Dysarthria Patients)

  • 윤현진;김영철
    • 실천공학교육논문지
    • /
    • 제14권2호
    • /
    • pp.341-350
    • /
    • 2022
  • 본 논문은 구음장애 환자들이 겪고 있는 말하기 장애를 돕기 위한 영우글자판을 개발하였다. 기존의 구음장애 환자가 의사소통을 하는 방법은 자음과 모음이 적힌 글자판과 안구 마우스 및 의사소통 보조 애플리케이션이 있으나 한 문장당 5분 이상이 시간이 지체되어 소통에 많은 어려움이 있었다. 하지만 기존의 방법과 달리, 제안하는 방법은 구음장애 환자가 안구의 움직임으로 문장을 완성할 수 있도록 하여 의사소통을 할 수 있도록 개선하였다. 본 논문의 결론 및 향후 연구과제에서는 영우글자판을 위한 교육적 활용 가치를 분석하였으며, 이 훈련이 루게릭 환자가 있는 가족들에게 큰 도움을 줄 수 있다는 것을 보여주었다. 본 연구의 기대효과는 구음장애 환자들이 갖고 있는 의사소통을 원활히 함으로써 가족의 애로사항을 개선할 수 있을 것으로 판단된다.

카탈루냐어의 전통적 시각표현의 해석적 모호성과 관련된 언어-문화적 현상 (The linguistic and cultural phenomena derived from the interpretative ambiguity in the traditional Catalan time telling expressions)

  • 곽재용
    • 비교문화연구
    • /
    • 제50권
    • /
    • pp.225-259
    • /
    • 2018
  • Institut d'Estudis Catalans에 따르면 카탈루냐어에서 사용하는 전통적 시각 표현 체계는 기본적으로 시간을 'quart(=quarter)'로 나누는 것에 기반을 두어 '8시15분/30분/45분'은 각각 '${\acute{E}}s$ un quart de nou.', '$S{\acute{o}}n$ dos quarts de nou.', '$S{\acute{o}}n$ tres quarts de nou.'라고 표현하며 '$S{\acute{o}}n$ les vuit i quinze.', '$S{\acute{o}}n$ les vuit i trenta/mitja.', '$S{\acute{o}}n$ les vuit i quaranta-cinc.'와 같은 구조를 사용하지 않는데 그 이유는 이와 같은 표현들은 방언에서 발견되는 변이형이나 소위 국제적 표기 방식으로 고려되는 표현이기 때문이다. 아울러 카탈루냐 전통적 시각표현 방식은 'cinc(=five)'와 'deu(=ten)'를 제외하고 다른 기수사의 사용은 허용하지 않는다. 이러한 언어적 현상은 결국 카탈루냐인들만이 공감하고 이해할 수 있는 독특한 디지털시계의 발명과 아날로그시계의 디자인 까지 영향을 미치게 되었다. 카탈루냐어 회화체에서 'quart' 체계는 일상생활에서 흔히 접할 수 있는 '$S{\acute{o}}n$ quarts of nou'과 같은 문장이나 'entre dos i tres quarts'와 같은 표현도 16분과 44분 사이에 어떤 시각을 구체적으로 의미하는지를 판단하기 어려운 해석상의 모호성을 야기한다. 본 연구는 카탈루냐어의 전통적 시각 표현은 감산방식을 사용하지 않으며 단어 'quart'는 어원적으로 타종체계와 관련이 있는 단어이므로 시계 체계와 관련되는 '15분'이란 구체적인 양적 의미는 원래 없다는 사실을 문법적 특수성과 대화상의 맥락 그리고 특수한 시계의 발명이나 아날로그시계의 디자인에서 나타나는 언어적 특수성 등을 통해 살펴보고자 한다.