• 제목/요약/키워드: 색인기법

검색결과 654건 처리시간 0.028초

자율 학습에 의한 실질 형태소와 형식 형태소의 분리 (A Korean Language Stemmer based on Unsupervised Learning)

  • 조세형
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.675-684
    • /
    • 2001
  • 본 논문은 태그가 없는 단순 말뭉치만을 가지고 자율학습을 이용하여 정보 검색을 위한 색인어의 추출 등에 이용될 수 있도록 한국어의 실질 형태소와 형식 형태소를 분리해내는 기법에 대하여 기술한다. 본 기법은 사전 등의 언어 관련 지식을 요구하지 않으며 오직 단순 말뭉치만을 필요로 한다. 또한 자율학습을 이용함으로써 사람의 간섭이 필요하지 않아 학습에 필요한 시간과 노력이 거의 들지 않는다. 본 방식은 잘 확립된 통계적 방법론을 이용하기 때문에 일반적인 휴리스틱과는 달리 이론적인 기반이 확고하여 확장 및 발전이 용이하다. 본 결과는 한국어에 우선 적용되었으나 한국어에 종속적인 방법이 아니어서 다른 교착어에도 쉽게 적용될 수 있을 것이다.

  • PDF

비감독 학습 기법에 의한 키워드 추출 (Keyword Extraction Using Unsupervised Learning Method)

  • 신성윤;백정욱;이양원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.165-166
    • /
    • 2010
  • 명사 추출이란 문서 내에 존재하는 모든 명사를 찾아내는 작업으로서, 한국어 정보검색에서는 문서를 대표하는 색인어 또는 키워드로서 명사를 사용한다. 본 논문에서는 기 구축된 사전을 이용하여 키워드를 추출하는 방법을 제시한다. 이 방법은 불필요한 연산을 줄여서 수행 시간을 단축시켰다. 그리고 대용량의 문서에서도 정확도에 크게 영향을 미치지 않으면서 명사를 추출할 수 있다. 본 논문에서는 명사의 출현 특성을 이용한 명사 추출 방법 및 비감독 학습 기법에 의한 키워드 추출 방법을 제시한다.

  • PDF

스키마 기반의 XML문서 관리 시스템 설계 (Design of XML Document Management System based on Schema)

  • 조윤기;김영란
    • 한국컴퓨터정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.85-93
    • /
    • 2001
  • 정보화 사회로의 진행이 가속화됨에 따라 정보 양이 급격히 증가하면서 XML을 이용하여 정보를 효율적으로 저장하고 검색하기 위한 많은 연구들이 진행되고 있다. 그러나 기존의 방법은 특정 엘리먼트의 부모, 자식, 형제에 대한 다양한 구조 검색을 효율적으로 지원하지 못한다. 따라서 이 논문에서는 XML 문서의 효율적인 관리와 구조검색을 위해OETID를 이용한 구조 정보 표현과 색인 기법을 제안한다. 또한 XML 문서의 구조 정보를 저장하기 위한 저장 기법과 검색 결과에 대한 문서통합 과정을 제안한다. 제안한 방법을 이용하여 XML 문서의 구조 정보를 효율적으로 표현할 수 있을 뿐 아니라 간단한 연산으로 특정 엘리먼트에 직접적인 접근과, 다양한 질의 처리가 가능하다. 따라서 보다 효율적이고 빠른 검색을 지원할 수 있다.

  • PDF

개념 망을 통한 전자 카탈로그의 시맨틱 검색 및 추천 (Semantic Search and Recommendation of e-Catalog Documents through Concept Network)

  • 이재원;박성찬;이상근;박재휘;김한준;이상구
    • 한국전자거래학회지
    • /
    • 제15권3호
    • /
    • pp.131-145
    • /
    • 2010
  • 현재까지, 사용자의 요구에 맞는 카탈로그 문서를 제공하기 위해 널리 사용되고 있는 패러다임은 키워드 검색 혹은 협업적 필터링 기반 추천이다. 일반적으로 사용자의 질의어는 짧기 때문에, 사용자의 요구(질의어, 선호도)에 적합한 카탈로그 문서를 제공하는 것은 쉽지 않다. 이를 극복하기 위해 다양한 기법들이 제안되었으나, 이전 연구들은 색인어 매칭을 기반으로 하고 있다. 기존 베이지안 신념 망을 이용한 방법은 사용자의 요구 및 카탈로그 문서들을 연관성이 높은 개념들로 표현하였다. 하지만 개념들이 카탈로그 문서에서 추출된 색인어로 구성되어 있기 때문에 개념간의 관계 정보를 잘 표현하지 못하였다. 이에 본 연구는 베이지안 신념 망을 확장하여, 사용자의 요구 및 카탈로그 문서들을 웹 디렉토리에서 추출한 개념(혹은 카테고리) 망으로 표현한다. 개념 망을 이용함으로써, 사용자의 요구와 카탈로그 문서간의 개념 매칭도를 계산하는 것이 가능하다. 즉, 사용자의 질의어와 카탈로그 문서의 색인어가 일치하지 않을지라도, 개념적으로 관련성이 높은 문서를 검색하는 것이 가능하다. 또한 사용자간의 개념적 유사도를 계산함으로써, 시맨틱 기반의 협업적 필터링 추천이 가능하다.

CORE-Dedup: 내용보존 접근 지역성 활용한 IO 크기 분할 기반 중복제거 (CORE-Dedup: IO Extent Chunking based Deduplication using Content-Preserving Access Locality)

  • 김명식;원유집
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권6호
    • /
    • pp.59-76
    • /
    • 2015
  • 고성능 내장형 기기의 대중화 및 광대역 통신기술의 발달로 생성-관리되는 데이터가 증가하고 있다. 중복제거 기법은 중복된 저장 요청을 판별하여 유일한 데이터만을 저장함으로써 저장 공간을 절약하는 방법으로 폭증하는 데이터의 저장과 처리 시스템을 경제적으로 구축 할 수 있다. 본 연구는 입출력 크기 (IO Extent) 단위 기반 분할 방법을 사용한 CORE-Dedup을 제안한다. CORE-Dedup의 Extent 단위 분할은 접근한 Content가 보존하는 접근 단위의 속성을 활용 한다. 가상머신에서 IO 경향을 수집하고 고정 크기 분할과 새로운 Extent 분할 방법에 대해 중복제거 성능을 비교 평가하였다. 동일 크기 워크로드 경우 4 KB 고정 분할 대비 적은 색인 버퍼를 가지고 유사한 수준의 중복 비교를 성능을 얻을 수 있다. 특히 다수 유저의 유사 IO 중복 접근을 가정한 워크로드 경우에는 CORE-Dedup이 Extent 단위 분할의 넓은 워크로드 Coverage에 의해 고정 크기 분할을 사용한 동일 조건의 Inline-Dedup에 비해 1/10 수준 버퍼를 가지고도 유사 중복제거 성능을 얻었다. 10명 사용자의 동일 compile 입출력을 가정한 병합 워크로드에서 4 KB 고정 크기 분할에서는 14,500개 분할 색인에서 최대 60.4%의 중복 발견율을 얻었으나 Extent 분할에서는 1,700개 색인만으로 57.6%를 얻었다.

투영 벡터의 첨두치 간 거리를 이용한 영상검색 (Image Retrieval Considering Inter-Distance between Peaks of Projection Vector)

  • 권동현;이태홍
    • 한국통신학회논문지
    • /
    • 제26권7B호
    • /
    • pp.983-988
    • /
    • 2001
  • 컬러를 이용한 내용기반 영상검색의 대표적 방법에 해당하는 히스토그램 인터섹션은 영상에서 컬러가 가지는 값의 빈도 수를 이용하여 간단하면서도 효율적으로 영상을 검색하면서 영상 내에서의 물체의 이동, 회전에 대해 대처하는 장점을 가지는 방법이다. 그러나 영상에서의 위치 정보가 누락되어 다른 영상을 동일 영상으로 인지하기 쉽고, 동일 영상에 대해 조명 변화가 있을 때 히스토그램이 영향을 많이 받아 검색이 어렵다는 단점을 지닌 방법이다. 본 논문에서는 조명 변화가 있을 경우에도 검색이 가능한 방법을 제안한 것으로, 영상에 1차원 투영 기법을 적용해 투영 값이 큰 벡터들 간의 상대 거리를 이용하여 검색에 이용하였다. 검색 성능의 확인을 위하여 5가지 조명에서 얻은 영상 데이터베이스를 이용하여 실험하였으며, 실험 결과 기존의 방법에 비해 적은 색인 데이터 량으로 검색이 가능하면서 조명 변화에도 대응할 수 있는 검색 결과를 얻을 수 있었다.

  • PDF

도로 네트워크를 이용한 불확실 위치데이터의 질의 처리 (Query Processing of Uncertainty Position using Road Networks)

  • 배태욱;안경환;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.88-90
    • /
    • 2004
  • 대표적인 현재 및 미래 위치 색인인 TPR-Tree는 이동 객체의 위치 좌표와 속도 벡터 정보를 이용하여 시간에 대해 선형적으로 이동 객체의 현재 및 미래 위치를 예측한다. 그러나 이동 객체의 이동 방향 및 속도가 특정한 임계값을 벗어날 경우에는 서버로 새로운 위치 보고를 수행하기 때문에, 차량과 같이 이동 방향과 속도가 빈번하게 변하는 환경에 적용할 경우 서버로 잦은 보고를 필요로 하게 되어 통신비용을 크게 증가시키는 문제가 있다. 통신비용을 일정하게 유지하기 위한 방법으로 이동 객체의 보고를 일정한 시간 간격으로 수행하게 하는 방법이 있다. 그러나 일정한 시간 간격으로 이동 객체의 위치 보고가 수행되는 환경에서는 보고간격 사이에 속도와 방향이 변하게 되면 시간에 대해 선형적인 위치 예측 시에 오차가 발생할 수 있다. 본 논문에서는 일정한 시간 간격으로 이동 객체의 위치 보고가 수행되는 환경에서 보고 간격 사이에 이동객체의 이동 속도와 방향의 변화에 대한 불확실성을 반영하기 위하여 도로 네트워크를 이용한 이동 객체의 불확실 위치데이터의 질의 처리 기법을 제시한다.

  • PDF

이동 객체의 궤적 관리를 이용한 물류 관리 시스템 (e-Logistics System using Management of Moving Object Trajectory)

  • 최병갑;이응재;김성룡;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.75-78
    • /
    • 2006
  • 이 논문은 이동 차량의 궤적 정보 관리를 통한 물류 관리 시스템을 제안한다. 물류 시스템은 물류 센터에서 차량과 배송 물품의 위치를 지속적으로 모니터링하고, 이와 연관된 서비스를 제공하는 시스템이다. 따라서 물류 차량의 실시간 위치 정보관리가 필수적이다. 제안된 시스템은 기존의 지리 정보와 더불어 실세계 모바일 환경에서 물류 배송 정보의 효율적 관리 기능을 지원한다. 또한 효과적인 물류 이동 경로 관리 및 검색을 위하여 시공간 색인 기법을 적용하였다. 제안된 시스템은 물류 관리 뿐만 아니라 이와 유사한 서비스를 제공하는 차량 추적 시스템, 위치 기반 서비스 등과 같이 모바일 환경에서 실시간으로 변화하는 관리 대상 객체의 위치 정보를 관리하는 분야에 적용 가능하다.

  • PDF

Hybrid P2P의 그룹관리와 신뢰성을 위한 시스템 설계 (A Design System for Group Management and Maintenance of Reliability In Hybrid P2P)

  • 이석희;현정식;이태희;조상
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (A)
    • /
    • pp.412-414
    • /
    • 2002
  • 현재 많이 사용되고 있는 P2P개념으로는 순수 P2P와 변경 P2P구조가 있다[3]. 순수 P2P의 모델에는 Gnutella와 stella등의 형태가 존재하고 변형 P2P로는 무수히 많은 형태가 존재한다. 이 변형 P2P모델들 중파일 공유 모델들이 존재하는데 이 모델들은 파일의 공유를 위한 그룹 관리와 검색, 색인 등의 기능을 제공한다. 파일공유 모델의 Peer들에 대해 연결성 유지를 위한 많은 부하와 사용자에 있어서 그룹에 대한 형태의 문제점 그리고 서버의 Fail에 대한 비연결성에 관한 문제점을 해결하기 위해 본 논문에서는 라우팅 기법에서의 접근을 통해 과일공유모델에 계층적 구조를 적용하고 Backup시스템을 설계하여 사용자에 의한 효율적인 그룹관리와 연결의 신뢰성을 유지하기 위해 시스템을 설계하였다.

  • PDF

고차원 색인구조를 위한 회복기법의 설계 및 구현 (Design and Implementation of a Recovery Method for High Dimensional Index Structures)

  • 송석일;이석희;유재수
    • 한국정보처리학회논문지
    • /
    • 제7권7호
    • /
    • pp.2008-2019
    • /
    • 2000
  • In this paper, we propose a recovery method for high dimensional index structures. It recovers efficiently transactions including reinsert operations that needs undo or rollback due to system failures or transaction failures. It is based on WAL(Write Ahead Logging) protocol. We apply the method to the FCIR-Tree and implement it based on MiDAS-III which is the storage system of a multimedia DBMS, called BADA-III. We also show through performance evaluation that the recovery method with our algorithm recovers reinsert operations efficiently over that without our algorithm.

  • PDF