• 제목/요약/키워드: Automatic Indexing Algorithm

검색결과 29건 처리시간 0.022초

한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘 (Eojeol-Block Bidirectional Algorithm for Automatic Word Spacing of Hangul Sentences)

  • 강승식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권4호
    • /
    • pp.441-447
    • /
    • 2000
  • 자동 띄어쓰기는 띄어쓰기가 무시된 한글 문서의 자동색인이나 문자인식 시스템에서 줄바꿈 문자에 대한 공백 삽입 문제 등을 해결하는데 필요하다. 이러한 문서에서 공백이 삽입될 위치를 자동으로 찾아주는 자동 띄어쓰기 알고리즘으로 문장 분할 기법과 양방향 최장일치법을 이용한 어절 인식 방법을 제안한다. 문장 분할은 한글의 음절 특성을 이용하여 어절 경계가 비교적 명확한 어절 블록을 추출하는 것이며, 형태소 분석기를 이용한 양방향 최장일치법에 의해 어절 블록에 나타난 각 어절들을 인식한다. 4,500여 어절로 구성된 두 가지 유형의 문장 집합에 대하여 제안한 방법의 띄어쓰기 정확도를 평가한 결과 '공백 재현율'이 97.3%, '어절 재현율'이 93.2%로 나타났다.

  • PDF

움직임 벡터와 빛의 특징을 이용한 비디오 인덱스 (Video Indexing using Motion vector and brightness features)

  • 이재현;조진선
    • 한국컴퓨터정보학회논문지
    • /
    • 제3권4호
    • /
    • pp.27-34
    • /
    • 1998
  • 본 논문에서는 움직임 벡터와 빛의 세기를 이용하여 비디오의 인덱싱과 검색 기법에 대하여 제안한다. 본 논문에서는 움직임 벡터의 특징과 빛의 세기를 계산하여 각 샷 당하나의 대표프레임을 추출하였다. 각각의 대표프레임은 빛의 흐름을 계산하였다. 즉 움직임벡터의 특징은 빛의 흐름으로부터 얻어냈고, BMA 는 움직임 벡터를 찾기 위해 사용했다. 그리고 빛의 세기 값을 히스토그램으로 변환 한 후 컷 검출에 사용하였다. 비디오 프레임의움직임 벡터와 빛의 세기 특징을 기반으로 비디오 데이터를 구성하고 인덱싱 하였다. 비디오 데이터베이스는 비디오의 접근을 위해 내용기반을 제공하고, 인덱스 특징은 B+ 트리 검색을 사용했고, 내부적으로 구성되어 단 노드 방식으로 저장되어 컴퓨터 저장장치에 직접 접근할 수 있게 했다. 본 논문에서는 비디오 데이터 모델을 기반으로 한 비디오 인덱스의 문제를 정의하였다.

  • PDF

클러스터링을 이용한 시소러스 브라우저의 설계에 대한 이론적 연구 (A Theoretical Study of Designing Thesaurus Browser by Clustering Algorithm)

  • Seo, Hwi
    • 한국도서관정보학회지
    • /
    • 제30권3호
    • /
    • pp.427-456
    • /
    • 1999
  • This paper deals with the problems of information retrieval through full-test database which arise from both the deficiency of searching strategies or methods by information searcher and the difficulties of query representation, generation, extension, etc. In oder to solve these problems, we should use automatic retrieval instead of manual retrieval in the past. One of the ways to make the gap narrow between the terms by the writers and query by the searchers is that the query should be searched with the terms which the writers use. Thus, the preconditions which should be taken one accorded way to solve the problems are that all areas of information retrieval such as should taken one accorded way to solve the problems are that all areas of information retrieval such as contents analysis, information structure, query formation, query evaluation, etc. should be solved as a coherence way. We need to deal all the ares of automatic information retrieval for the efficiency of retrieval thought this paper is trying to solve the design of thesaurus browser. Thus, this paper shows the theoretical analyses about the form of information retrieval, automatic indexing, clustering technique, establishing and expressing thesaurus, and information retrieval technique. As the result of analyzing them, this paper shows us theoretical model, that is to say, the thesaurus browser by clustering algorithm. The result in the paper will be a theoretical basis on new retrieval algorithm.

  • PDF

MPEG 압축된 비디오의 자동 분할 기법 (Automatic Parsing of MPEG-Compressed Video)

  • 김가현;문영식
    • 한국정보처리학회논문지
    • /
    • 제6권4호
    • /
    • pp.868-876
    • /
    • 1999
  • 본 논문에서는 MPEG으로 압축된 비디오(MPEG-compressed video)를 대상으로 내용기반 색인(content-based indexing)에 기초가 될 동영상 자도 d분할에 관한 효과적인 방법을 제안한다. 제안하는 방법은 MPEG 시퀀스의Ⅰ(Intra), P(Predictive), B(bidirectional) 픽쳐 구성에 구애받지 않고 장면 전환점(scene change)을 검출해 낸다. 컷(cut) 검출을 위해서는 Ⅰ픽쳐의 dc 계수와 P, B 픽쳐의 매크로 블록 참조 특성을 이용하여 차이 측도(difference measure)를 설정한다. 그리고 점진적인 (gradual)장면 전환에서는 p, B 픽쳐의 참조 블록 비율을 이용하여 정확하게 장면 전환 지점을 검출한다. 이때 MPEG 시퀀스를 완전히 복원하지 않고 필요한 데이터만을 추출해 내어 전체 데이터 처리 과정을 좀 더 효율적으로 구성한다. 차이 척도의 성능과 검출 결과는 정확도(precision)와 완전추출도(recall)를 기준으로 비교분석하고, 제안한 방법을 다양한 MPEG 시퀀스에 적용시켜 검출 결과와 수행 시간 측면에서 그 효율성을 확인하였다.

  • PDF

오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘 (Automatic Indexing Algorithm of Golf Video Using Audio Information)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.441-446
    • /
    • 2009
  • 본 논문에서는 오디오 정보 분석을 이용하여 골프 통영상을 자동 색인하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 골프 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 Adaboost Cascade 분류방식을 통하여 스튜디오 환경에서의 아나운서의 음성구간, 선수이름이 TV 화면에 소개 될 때 수반되는 음악구간, 선수들의 플레이에 따라 반응하는 관중들의 박수 및 환호성 소리구간, 필드에서의 레포터의 음성구간, 바다나 바람 등의 필드환경 잡음 사운드구간 등의 5가지 구간으로 분류한다. 그리고 드라이브 샷, 아이런 샷과 퍼팅 샷 시에 발생하는 스윙 사운드는 onset 검출과 변조스펙트럼 검증 방법을 통해 검출되며, 관객의 박수 소리 구간과 결합하여 액션 및 하이라이트를 효율적으로 색인할 수 있게 한다. 제안된 알고리즘은 오디오 신호의 간단한 연산을 통해 의미를 지니고 있는 기본구조들을 검출하기 때문에 골프 동영상에서 사용자가 원하는 부분을 빠르게 브라우징하는 임베이디드 시스템에 적용가능하다.

I 프레임에 기반한 MPEG 압축영상에서의 자막 탐지 (Localization of captions in MPEG compression images based on I frame)

  • 유태웅
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권11호
    • /
    • pp.1465-1476
    • /
    • 2001
  • 실시간 자막 탐지는 비디오 인덱싱, 텍스트의 이해, 자동 자막 탐지시스템 등 수많은 응용 분야에서 요구된다. 본 논문은 I 프레임을 기반으로 MPEG 압축 동영상에서 자막을 탐지하는 알고리즘을 제안한다. 제안한 알고리즘은 자막 텍스춰 정보와 색체 정보를 사용하여 배경 영상으로부터 자막을 정확히 분리한다. 기존 알고리즘들은 압축 동영상으로부터 텍스트 영역을 추출하기 전에 압축을 먼저 해제하는데 제안한 알고리즘은 DCT 압축 도메인에서 직접 자막 텍스트 영역을 탐지한다.

  • PDF

색인파일 기반의 질의어 확장용 지식베이스 구축에 관한 연구 (A Study of Designing the Knowledge Base System for the Query Extension by Index File)

  • 서휘
    • 한국도서관정보학회지
    • /
    • 제40권2호
    • /
    • pp.139-159
    • /
    • 2009
  • 본 연구의 목적은 이용자 지향적인 정보검색을 수행하기 위한 질의확장용 지식베이스를 구축하는 것이다. 이를 위해 개념기반 정보검색방법과 통계적 기반 정보검색방법을 이용한 지식베이스 구축에 관련된 다양한 이론 연구를 수행하였다. 이들 지식베이스 구축방법에 있어서 공통된 가설은 연관용어의 출현은 문헌집합내의 동시출현 빈도임을 재확인하였고, 이 가설을 근거로 색인파일 알고리즘과 부울 논리의 And 연산자를 이용하여 질의확장용 지식베이스를 구축하였다. 본 지식베이스의 실험 주제는 교육학이며, 교육학개론이란 단행본을 이용하여 색인어들의 연관용어를 자동으로 제시해줄수 있는 실험용 지식베이스를 구축하였다. 실험용 지식베이스는 자연어색인방법과 통제어색인방법을 이용하여 두 개의 지식베이스를 구축해 각 지식베이스 시스템의 질의확장 성능에 대한 평가 작업을 수행하였다.

  • PDF

표고 외관 특징점의 자동 추출 및 측정 (Automatic Extraction and Measurement of Visual Features of Mushroom (Lentinus edodes L.))

  • 황헌;이용국
    • 생물환경조절학회지
    • /
    • 제1권1호
    • /
    • pp.37-51
    • /
    • 1992
  • Quantizing and extracting visual features of mushroom(Lentinus edodes L.) are crucial to the sorting and grading automation, the growth state measurement, and the dried performance indexing. A computer image processing system was utilized for the extraction and measurement of visual features of front and back sides of the mushroom. The image processing system is composed of the IBM PC compatible 386DK, ITEX PCVISION Plus frame grabber, B/W CCD camera, VGA color graphic monitor, and image output RGB monitor. In this paper, an automatic thresholding algorithm was developed to yield the segmented binary image representing skin states of the front and back sides. An eight directional Freeman's chain coding was modified to solve the edge disconnectivity by gradually expanding the mask size of 3$\times$3 to 9$\times$9. A real scaled geometric quantity of the object was directly extracted from the 8-directional chain element. The external shape of the mushroom was analyzed and converted to the quantitative feature patterns. Efficient algorithms for the extraction of the selected feature patterns and the recognition of the front and back side were developed. The developed algorithms were coded in a menu driven way using MS_C language Ver.6.0, PC VISION PLUS library fuctions, and VGA graphic functions.

  • PDF

샷 경계 검출을 이용한 영상 클립 생성 (Generation of Video Clips Utilizing Shot Boundary Detection)

  • 김혁만;조성길
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권6호
    • /
    • pp.582-592
    • /
    • 2001
  • 대용량 영상을 다루는 디지털 비디오 라이브러리나 웹 방송에서는 영상 색인이 매우 중요한 역할을 하며, 이는 영상을 내용 단위로 분할하는 알고리즘에 기반한다. 본 논문에서 구현된 V2Web Studio는 영상 색인을 지원하는 시스템으로서, 샷 경계 검출 알고리즘을 이용한 영상 클립 생성 시스템이다. V2Web Studio는 영상 클립 생성 과정을 1) 영상 신호를 분석하여 샷 경계를 자동 검출하는 단계, 2) 검출된 결과에 포함될 수 있는 오류를 수작업으로 제거하는 단계, 3) 물리적인 샷 경계를 논리적인 계층구조로 모델링하는 단계, 4) 계층구조로 모델링된 각 모델링 인스턴스를 다양한 표준 압축 포맷으로 생성하는 단계로 구분하고, 각 단계에 해당하는 작업은 샷 검출기, 샷 검증기, 영상 모델기, 클립 생성기라는 독립적인 소프트웨어 도구로 구현하였다.

  • PDF

LSI를 이용한 차원 축소 클러스터 기반 키워드 연관망 자동 구축 기법 (Automatic Construction of Reduced Dimensional Cluster-based Keyword Association Networks using LSI)

  • 유한묵;김한준;장재영
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1236-1243
    • /
    • 2017
  • 본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 LSI-based ClusterTextRank 기법과 추출된 키워드를 Latent Semantic Indexing(LSI)을 이용한 연관망 구축 기법을 제안한다. 제안 기법은 문서집합을 단어-문서 행렬로 표현하고, 이를 LSI를 이용하여 저차원의 개념 공간으로 차원을 축소한다. 그 다음 k-means 군집화 알고리즘을 이용하여 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최대신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 그리고나서 추출된 키워드들 간에 유사도를 LSI 기법을 통해 구한 단어-개념 행렬을 이용하여 계산한 후, 이를 키워드 연관망으로 활용한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 14% 가량 개선됨을 보인다.