• 제목/요약/키워드: TextRank

검색결과 83건 처리시간 0.034초

SVD-LDA: A Combined Model for Text Classification

  • Hai, Nguyen Cao Truong;Kim, Kyung-Im;Park, Hyuk-Ro
    • Journal of Information Processing Systems
    • /
    • 제5권1호
    • /
    • pp.5-10
    • /
    • 2009
  • Text data has always accounted for a major portion of the world's information. As the volume of information increases exponentially, the portion of text data also increases significantly. Text classification is therefore still an important area of research. LDA is an updated, probabilistic model which has been used in many applications in many other fields. As regards text data, LDA also has many applications, which has been applied various enhancements. However, it seems that no applications take care of the input for LDA. In this paper, we suggest a way to map the input space to a reduced space, which may avoid the unreliability, ambiguity and redundancy of individual terms as descriptors. The purpose of this paper is to show that LDA can be perfectly performed in a "clean and clear" space. Experiments are conducted on 20 News Groups data sets. The results show that the proposed method can boost the classification results when the appropriate choice of rank of the reduced space is determined.

웨이브렛 특징과 순위 기반 인식을 이용한 한글 문서 영상 검색 시스템 (A Hangul Document Image Retrieval System Using Rank-based Recognition)

  • 이득용;김우연;오일석
    • 한국콘텐츠학회논문지
    • /
    • 제5권2호
    • /
    • pp.229-242
    • /
    • 2005
  • 우리는 스캔된 한글 문서 영상에 대한 전문(full-text) 검색 시스템을 구축하였다. 이 시스템은 크게 전처리부, 인식부, 그리고 검색부로 구성되어 있다 검색 알고리즘은 k순위까지의 인식 결과를 이용한다. 이 방법은 검색 성능이 인식 오류에 둔감할 뿐만 아니라, 재현률과 정확률을 사용자가 조절할 수 있는 장점을 갖는다. 객관적인 성능 평가를 위해 KISTI가 제공하는 정보과학회 논문지 영상을 실험에 사용하였다. 인식과 검색 성능을 통하여 시스템이 실용적임을 보였다.

  • PDF

A Study on the Recognition Analysis of Participants in Urban Regeneration Project Using Text Network Analysis Technique (NetMiner): Focused on the Urban Regeneration Leading Area in Suncheon-City

  • Gim, Eo-Jin;Koo, Ja-Hoon
    • International Journal of Advanced Culture Technology
    • /
    • 제7권4호
    • /
    • pp.246-254
    • /
    • 2019
  • The purpose of this study is to analyze the issues related to urban regeneration project at the present time through surveys and interviews of participants in the urban regeneration leading project of Suncheon city. Most of the comments were related to business fragmentation and things that should be improved in the future. The text network technique is applied to the subject analysis using unstructured text data. As a result of the frequency of appearance and analysis of page rank centrality between words, words of 'parking', 'need', 'lack', 'region' and 'resident' appeared at the top, and the result of analyzing the mediation centrality of key words showed 'culture', 'Need', 'region', 'inflow' and 'lack' appeared at the top. In the network analysis, the most central words appeared, and many words appeared in the important position in the sentence. Text network analysis has provided timely results in terms of sustainability after completion of the Suncheon City Regeneration Leading Project..

정보검색에서의 어의 중의성 해소를 위한 자동 키워드망의 이용 (Resolving the Ambigities in World Sense by using Automatic Keyword Network in Information Retrieval)

  • 김정세;장덕성
    • 한국정보처리학회논문지
    • /
    • 제7권12호
    • /
    • pp.3855-3865
    • /
    • 2000
  • 문서 검색 시스템에서 자동 색인은 필수적이다. 그러나 자동 색인만으로 최적합 문서들을 상위에 위치시키기 불가능하다. 뿐만 아니라 동음이의어를 갖는 부적합한 문서들이 상위에 위치되는 것을 막을 길이 없다. 본 논문에서는 이런 문제를 해소하고 검색 효과를 높이기 위해 2차 검색에 자동 키워드망을 이용하는 두 단계 검색시스템을 연구하였다. 1차 검색은 자동색인으로 만들어진 역색인 파일을 이용하며, 2차 검색은 단어 연관성을 기초로 만든 자동 키워드망을 이용한다. 2차 검색을 위한 문서 순위 재조정 식들을 여러 개 만들어 비교하였으며, 이 식들이 동음이의어 어의 중의성 해소에 얼마나 효과가 있는지 성능을 평가하였다.

  • PDF

실시간 문맥독립 화자인식 시스템의 성능향상을 위한 수정된 가중모델순위 결정방법 (Modified Weighting Model Rank Method for Improving the Performance of Real-Time Text-Independent Speaker Recognition System)

  • 김민정;오세진;석수영;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.107-110
    • /
    • 2002
  • 현재까지 개발된 화자식별 시스템 중 가중모델순위(Weighting Model Rank; WMR)방법을 이용한 화자인식 시스템이 비교적 높은 인식성능을 나타내고 있다. WMR 방법은 각 화자에 대한 프레임 유사도의 순위에 따라 지수함수 가중치로 대치시키는 방법을 사용하고 있으나, 이 방법은 유사도 본래의 변별력이 전체 계산에서 고려되지 않는 문제가 있었다. 이를 해결하기 위해 본 논문에서는 각 화자의 프레임 유사도와 지수함수를 이용한 가중치를 곱한 값을 이용하여 전체 스코어를 계산하도록 하는 수정된 가중모델 순위방법(Modified Weighting Model Rank; MWMR)을 제안한다. 제안한 방법의 유효성을 확인하기 위하여 316명의 화자를 대상으로 하여 인식실험을 실시한 결과, 학습 프레임이 10,000일 경우, MWMR 방법에서 $98.1\%$의 화자 인식률을 얻어 WMR 방법에 비해 약 $2.0\%$의 향상된 인식결과를 보여 제안한 방법의 유효성을 확인할 수 있었다.

  • PDF

Improving Lookup Time Complexity of Compressed Suffix Arrays using Multi-ary Wavelet Tree

  • Wu, Zheng;Na, Joong-Chae;Kim, Min-Hwan;Kim, Dong-Kyue
    • Journal of Computing Science and Engineering
    • /
    • 제3권1호
    • /
    • pp.1-4
    • /
    • 2009
  • In a given text T of size n, we need to search for the information that we are interested. In order to support fast searching, an index must be constructed by preprocessing the text. Suffix array is a kind of index data structure. The compressed suffix array (CSA) is one of the compressed indices based on the regularity of the suffix array, and can be compressed to the $k^{th}$ order empirical entropy. In this paper we improve the lookup time complexity of the compressed suffix array by using the multi-ary wavelet tree at the cost of more space. In our implementation, the lookup time complexity of the compressed suffix array is O(${\log}_{\sigma}^{\varepsilon/(1-{\varepsilon})}\;n\;{\log}_r\;\sigma$), and the space of the compressed suffix array is ${\varepsilon}^{-1}\;nH_k(T)+O(n\;{\log}\;{\log}\;n/{\log}^{\varepsilon}_{\sigma}\;n)$ bits, where a is the size of alphabet, $H_k$ is the kth order empirical entropy r is the branching factor of the multi-ary wavelet tree such that $2{\leq}r{\leq}\sqrt{n}$ and $r{\leq}O({\log}^{1-{\varepsilon}}_{\sigma}\;n)$ and 0 < $\varepsilon$ < 1/2 is a constant.

후보 단어 리스트와 확률 점수에 기반한 한국어 문자 인식 모델 (Candidate Word List and Probability Score Guided for Korean Scene Text Recognition)

  • 이윤지;이종민
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.73-75
    • /
    • 2022
  • 글자 인식 시스템은 무인 로봇, 자율 주행 자동차 등 자동화를 필요로 하는 인공지능 분야에서 사용되는 기술로, 주변 환경에 여러 장애물이 있음에도 글자를 정확하게 인식하는 것을 말한다. 영어만 인식했던 기존의 연구와 달리, 본 논문은 영어, 한국어, 특수문자와 숫자를 포함한 다양한 문자가 혼재되어 있는 경우에도 강한 인식률을 보여준다. 가장 높은 확률 값을 갖는 클래스 하나 만을 선택하는 것이 아닌 차 순위의 확률도 함께 고려하여 후보 단어 리스트를 생성하고, 이로 인해 기존에 오인식되는 단어를 교정할 수 있는 방법을 제안한다.

  • PDF

SVM을 이용한 음성채팅시스템의 성능 향상 방법 (Performance Improvement Methods of a Spoken Chatting System Using SVM)

  • 안혁주;이성희;송영길;김학수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권6호
    • /
    • pp.261-268
    • /
    • 2015
  • 음성채팅시스템에서 사용자의 음성 질의는 자동음성인식기를 통하여 텍스트 질의로 변환된다. 만약 자동음성인식기의 1순위 결과가 틀린다면 이 오류는 그대로 음성채팅시스템에 전파된다. 자동음성인식기의 1순위 정밀도를 향상시키기 위하여 본 논문에서는 RankSVM을 이용하여 자동음성인식기의 n개 결과를 재순위화하는 후처리 모델을 제안한다. 채팅시스템을 학습하기 위해서는 대용량의 채팅 문장들이 필요하다. 만약 새로운 채팅 문장들이 학습데이터에 자주 추가되지 않는다면 채팅시스템의 응답은 금방 진부해질 것이다. 이러한 문제를 해결하기 위하여 본 논문에서는 SVM을 이용하여 TV와 영화 시나리오로부터 채팅 문장들을 자동으로 선택하는 데이터 수집 모델을 제안한다. 실험에서 제안된 후처리 모델은 후처리를 하지 않은 모델보다 정확률에서 4.4%, 재현율에서 6.4% 더 좋은 결과를 보였다. 그리고 제안된 데이터 수집 모델은 98.95%의 높은 정확률과 57.14%의 재현율을 보였다.

고유영역을 이용한 문자독립형 화자인식에 관한 연구 (A Study On Text Independent Speaker Recognition Using Eigenspace)

  • 함철배;이동규;이두수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.671-674
    • /
    • 1999
  • We report the new method for speaker recognition. Until now, many researchers have used HMM (Hidden Markov Model) with cepstral coefficient or neural network for speaker recognition. Here, we introduce the method of speaker recognition using eigenspace. This method can reduce the training and recognition time of speaker recognition system. In proposed method, we use the low rank model of the speech eigenspace. In experiment, we obtain good recognition result.

  • PDF

스마트 폰 잠금 화면을 통한 실시간 정보제공 서비스 모델의 개발 (Development of Real Time Information Service Model Using Smart Phone Lock Screen)

  • 오성진;장진욱
    • 한국IT서비스학회지
    • /
    • 제13권3호
    • /
    • pp.323-331
    • /
    • 2014
  • This research is based on real-time service model that uses lock screen of smart devices which is mostly exposed to device users. The potential for lock screen space is immense due to their exposing time for user. The effect can be maximized by offering useful information contents on lock screen. This service model offers real-time keyword with abridged sentence. They match real-time keyword with news by using text matching algorithm and extracts kernel sentence from news to provide short sentence to user. News from the lock screen to match real-time query sentence, and then only to the original core of the ability to move a user evaluation was conducted after adding. The report provided a key statement users feel the lack of original Not if you go to an average of 5.71%. Most algorithms allow only real-time zoom key sentence extracted keywords can accurately determine the reason for that was confirmed.