• 제목/요약/키워드: automatic indexing

검색결과 138건 처리시간 0.032초

구문 및 의미 분석을 통한 한국어 자동 색인

  • 최기선
    • 정보관리학회지
    • /
    • 제8권2호
    • /
    • pp.96-107
    • /
    • 1991
  • 통계적 정보 혹은 벡터 모델을 이용하는 자동 색인은 색인어와 문서간에 관계성을 간접적으로 혹은 상대적으로 계산하기 때문에 검색의 정확도를 높이는데 한계가 있다. 이 보다는 적극적인 방법으로 언어학적 정보와 인공 지능의 기술을 이용하여 색인어의 관계성 을 계산하는 방법론을 소개한다. 동사의 격틀을 이용하여 개발된 시스템으로부터 언어적 분 석 방법의 가능성을 찾아볼 수 있다. 미래의 정보 검색은 사용자 중심으로 구성이 되어 사 용자에 대한 연구가 깊게 반영이 되어야 할 것이다.

  • PDF

우리말 정보 자료를 처리하는 지능형 정보 검색 시스템의 설계 (Design of a Korean Intelligent Information Retrieval System)

  • 정영미
    • 정보관리학회지
    • /
    • 제8권2호
    • /
    • pp.3-31
    • /
    • 1991
  • 본 연구에서는 지능형 정보 검색의 개념을 정립하고, 지능형 정보 검색 시스템의 모 형을 제시하였다. 실제로 우리말 문헌을 검색하는 지능형 시스템을 구현하였으며, 이 시스템 은 자연 언어 인터페이스, 이용자 모형화, 격관계를 이용한 자동 색인, 복수의 검색 기법 등 을 수용한다.

  • PDF

I 프레임에 기반한 MPEG 압축영상에서의 자막 탐지 (Localization of captions in MPEG compression images based on I frame)

  • 유태웅
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권11호
    • /
    • pp.1465-1476
    • /
    • 2001
  • 실시간 자막 탐지는 비디오 인덱싱, 텍스트의 이해, 자동 자막 탐지시스템 등 수많은 응용 분야에서 요구된다. 본 논문은 I 프레임을 기반으로 MPEG 압축 동영상에서 자막을 탐지하는 알고리즘을 제안한다. 제안한 알고리즘은 자막 텍스춰 정보와 색체 정보를 사용하여 배경 영상으로부터 자막을 정확히 분리한다. 기존 알고리즘들은 압축 동영상으로부터 텍스트 영역을 추출하기 전에 압축을 먼저 해제하는데 제안한 알고리즘은 DCT 압축 도메인에서 직접 자막 텍스트 영역을 탐지한다.

  • PDF

자연어 처리, 통계적 기법, 적합성 검증을 이용한 자동색인 시스템에 관한 연구 (A Study on Automatic Indexing System Using natural language Processing, Statistical Technique, Relevance Verification)

  • 유춘식;우선미;유철중;이종득;권오봉;김용성
    • 한국정보처리학회논문지
    • /
    • 제5권6호
    • /
    • pp.1552-1562
    • /
    • 1998
  • 형태소 분석(Morphological Analysis)과 같은 언어학적 처리에 의존하는 기존의 한국어 문헌에 대한 자동색인 기법들은 품사의 애매모호함이나 복합명사의 처리 등으로 부담(overhead)이 크다. 또한 불용어 처리에 사용되는 불용어 리스트가 대상 문헌의 주제 분야별로 따로 구축되어야 하며 그 크기가 방대하다는 문제점이 있다. 이러한 문제점들을 해결하기 위해, 본 논문에서는 각 문헌의 텍스트에 대해 복합명사 처리나 애매모호함에 대한 엄격한 분석을 수행하지 않는 간단한 형태의 형태소 분석을 수행하여 단순명사들을 추출한다. 그런 후 이들 단순명사들을 이용하여 유한 오토마타(Finite Automata)를 구성하고, 구성된 유한 오토마타와 각 명사의 단어빈도(Term Frequency)에 의해 각 색인어 후보들의 중요도를 계산하는 자동색인 기법을 제안한다. 그 결과 품사의 애매모호함에 대한 처리나 복합명사의 처리에따른 부담을 줄일 수 있었으며, 선정된 색인어들과 수작업으로 선정한 색인어들의 비교 실험에 의해 제안한 자동색인 기법의 성능을 검증하였다.

  • PDF

디스크립터 프로파일을 사용한 통제어휘 자동색인 (Automatic Indexing with Controlled Vocabulary Using a Descriptor Profile)

  • 김판준
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2006년도 제13회 학술대회 논문집
    • /
    • pp.153-160
    • /
    • 2006
  • 통제어휘를 사용하는 주제색인 작업에서 색인전문가를 효율적으로 지원할 수 있는 자동색인 방법으로 프로파일 방법의 성능과 특성을 검토해 보았다. 자동색인의 성능에 영향을 미치는 주요 요인들을 검토한 다음, 동일한 조건 하에서 프로파일 기반 방법과 다른 방법들(NB, SVM, VPT)의 성능을 비교하였다. 그 결과, 로치오 알고리즘에 기초한 프로파일을 사용하는 방법이 다른 방법들에 비해 저성능이라는 일부 평가를 일반화하기는 어렵다는 사실이 실험을 통해 드러났다. 또한, 후보 디스크립터 리스트의 생성을 통하여 색인전문가의 색인작업을 지원하는 반자동색인의 경우, F$_1$척도로는 SVM, VPT와 동등한 수준에 있으면서 재현율이 상대적으로 높은 수준인 프로파일 기반 방법을 우선적으로 고려해 볼 수 있을 것이다.

  • PDF

PDA를 이용한 한국어 자동 색인 시스템 (Korean Automatic Indexing System Using the PDA)

  • 박평구;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.375-378
    • /
    • 2000
  • 인터넷의 급속한 발달로 사용자는 자신의 질의에 적합한 검색결과를 빠르고 정확하게 보장하는 검색도구를 요구하게 되었다. 이러한 사용자의 요구는 검색도구의 성능향상에 필수적인 문서의 내용을 대표하는 색인어를 추출하는 색인 시스템에 대한 관심을 가지게 되었다. 기존의 한국어에서의 자동 색인 방법에는 어절 중심 색인법, 형태소 중심 색인법과 최근에 n-gram 중심 색인법 등이 주류를 이루어 왔다. 그러나 한국어에서 색인어를 추출하는 기존의 방법은 복합명사의 색인과 복잡한 문법적 지식이 필요하고 잘못된 색인어를 추출하는 등의 검색효율에 문제점을 가지고 있다. 본 논문에서는 PDA를 이용한 정형화된 한국어와 영어문장의 자동 색인 방법을 제안한다. 제안하는 방법은 별도의 사전지식이 필요하지 않고 단일 명사와 복합명사의 색인이 가능하며 인터넷으로의 확장과 다양한 언어로 확장성이 좋은 장점 등을 갖는다. 성능 평가로써 한국통신의 KTSET으로 MS사의 IIS를 웹 서버로 ASP를 이용하여 인터넷 환경에서 테스트를 통하여 한국어 뿐 아니라 영어문장의 정형화되고 이용이 간편한 자동색인 결과를 보여준다.

  • PDF

방송용 축구 경기 비디오의 자동 색인 및 분석 기술 (An Automatic Indexing and Analysis Technique for Soccer Game Video for Broadcasting)

  • 최송하;이성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.550-552
    • /
    • 1998
  • 스포츠 비디오는 역동적인 특성과 비정형적인 구조를 가지고 있으므로 뉴스와 같은 정형적인 비디오와는 달리 분석이 쉽지 않다. 본 논문에서는 이러한 어려움을 극복하기 위하여 축구 경기에서 하이라이트를 추출하여 색인하고 이에 대하여 선수 위치 추적, 파노라마 영상 구성, 경기장 모델 상에서의 선수 이동 궤적 도시 등을 수행하는 방법을 제안한다. 이를 위하여 제한된 색상의 HSV 영상을 구성하여 골대와 선수 위치를 추적하고, 움직임 벡터를 추출하여 카메라 동작을 분석하였으며 경기장 모델 구성을 위해 경기장 내의 특징점을 추출하여 투영 변환을 수행하였다. 실험 결과를 통해서 제안된 방법이 축구 경기 비디오 분석에 효율적으로 이용될 수 있음을 확인할 수 있다.

  • PDF

MADE : 형태소 분석기 개발환경 (MADE: Morphological Analyzer Development Environment)

  • 심광섭
    • 인터넷정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.159-171
    • /
    • 2007
  • 본 논문은 실용적인 한국어 형태소 분석기 개발에 사용될 수 있는 도구인 MADE를 소개한다. MADE는 형태소 사전에서 제공되는 인접 조건만을 사용하여 형태소 분석을 수행한다. 이것은 형태소 분석기를 개발하기 위해 별도의 프로그래밍은 전혀 하지 않고 단지 형태소 사전만 구축하면 된다는 것을 의미한다. MADE는 형태소 사전을 구축하고 검증하는데 필요한 기능들을 제공한다. 일단 형태소 사전이 구축되고 나면 MADE는 독립된 형태소 분석기로서 사용될 수도 있고 형태소 분석기를 필요로 하는 다른 응용 소프트웨어에 내장되어 사용될 수도 있다.

  • PDF

자동 인덱싱에 기반한 뉴스 비디오 검색 시스템의 설계 및 구현 (Design and Implementation of the News Video Retrieval System based on Automatic Indexing)

  • 이종구;양명섭;유철중;장옥배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권1호
    • /
    • pp.43-52
    • /
    • 1999
  • 현재 사용하는 순차적인 뉴스 비디오 검색 방법은 많은 시간을 소비한다는 문제점을 가지고 있다. 따라서 , 본 논문에서는 이러한 문제점을 해결하기 위해서 뉴스 비디오를 내용(뉴스 사건)단위별로 검색할수 있는 자동 인덱스 모듈과 원격 검색 브라우저 모듈을 제시한다. 인덱싱 모듈은 기본적으로 이미지 프로세싱을 기반으로 하여 뉴스 앵커를 검출하고 뉴스 아이템을 분할한다. 인덱싱 구성요소는 뉴스 비디오 내용에 대한 대표영상(뉴스아이콘)과 부가적인 정보를 포함하는 뉴스 자막으로 구성하였다. 검색 브라우저 모듈은 추출된 인덱싱 요소를 아이콘하여 뉴스사건 단위로 내용을 검색할수 있도록 설계하였다. 본 연구의 결과는 매일 발생되는 뉴스를 자동 인덱싱하여 사용자에게 뉴스서비스의 효율적인 적용이 기대된다.

사전 정보에 기반한 효율적인 자동색인기 설계 (A Design of Efficient Automatic Indexing based on Dictionary Information)

  • 진정환;김태완
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.547-550
    • /
    • 2001
  • 웹상에 공유되어진 문서의 내용을 대표하는 색인어 추출은 정보 검색 시스템의 질을 좌우한다. 한국어의 자유로운 복합명사나 띄어쓰기 규약, 사전 미등록 어휘 등으로 색인어 추출시 질의어와 색인어 사이의 형태상의 불일치(Syntactic Term Mismatch)가 발생하여 검색성능을 저하시키는 경우가 많다. 따라서 본 논문에서는 사전을 통한 형태소 해석을 통해 단위명사(Unit Noun)로 색인어를 추출하고 사전 미등륵어는 N-gram 기반 색인 방법을 이용하여 질의어와 색인어 사이의 부분 일치된 문서도 추출될 수 있는 방법을 제안하였으며, 색인어와 질의어 사이의 유사도 계산을 통해 문서의 우선순위를 정함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF