• 제목/요약/키워드: 인덱싱

검색결과 448건 처리시간 0.023초

그래프 데이터에 대한 비-중복적 키워드 검색 방법 (A Method for Non-redundant Keyword Search over Graph Data)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제16권6호
    • /
    • pp.205-214
    • /
    • 2016
  • 최근 소셜 네트워크, 시맨틱 웹, 바이오 인포매틱스 등 여러 응용 분야에서 그래프 구조를 갖는 대용량 데이터들에 활용됨에 따라 이런 데이터들에 대한 키워드 기반 검색 방법이 많은 관심을 받고 있다. 본 논문에서는 그래프 구조 데이터에 대한 키워드 질의에 대해 질의와 연관성이 높으면서 구조적인 중복성을 갖지 않는 top-k 결과 집합을 효율적으로 검색하는 방법을 제안한다. 키워드 질의에 대한 비-중복적인 결과 트리 구조와 그것의 연관도 척도를 정의하고, 그래프 내에 포함된 유용한 경로 정보들에 대한 효과적인 인덱싱 방법을 제안한다. 그리고 기 생성된 인덱스를 활용하여 주어진 키워드 질의에 대해 비-중복적이면서 연관도가 큰 top-k 결과 집합을 생성하는 효율적인 질의 처리 알고리즘을 제시한다. 실 데이터를 이용한 실험을 통해 제안한 방법의 효과와 성능을 기존 방법과 비교 분석한다.

시맨틱 웹 기반의 분산 시스템을 위한 질의 변환 및 인덱싱 기법 (Query Rewriting and Indexing Schemes for Distributed Systems based on the Semantic Web)

  • 채광주;김연희;임해철
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권7호
    • /
    • pp.718-722
    • /
    • 2008
  • 시맨틱 웹의 기반이 되는 온톨로지는 기술 언어로 OWL이 발표되면서, 웹 리소스의 의미를 더욱 다양하게 기술할 수 있는 강한 표현력을 갖추어 가고 있다. 그리고, 시맨틱 웹의 개념이 널리 인식되면서 정보의 양이 더욱 많아지고 온톨로지가 지역적으로 분산되어 구축됨에 따라, 분산 환경에서 원하는 데이타를 포함하고 있는 지역 저장소를 빠르게 검색하는 것이 전체 시스템의 성능에 중요한 영향을 미치게 되었다. 따라서 본 논문에서는 첫째, 분산된 온톨로지 환경에서 사용자가 원하는 데이타가 위치하고 있는 지역 저장소를 빠르게 검색하기 위한 인덱스 구조를 제안한다. 둘째, 분산 환경을 지원할 수 있는 OWL의 다양한 표현을 이용하여 질의를 확장하기 위한 질의 변환 기법을 제안한다. 본 논문에서 제안한 기법을 통해 OWL의 다양한 표현을 활용하는 것이 가능하고, 시맨틱 웹 환경의 모든 질의 유형에 대해 데이타가 존재하는 지역 저장소를 빠르게 파악할 수 있다.

칼라 영상에서의 중심 객체 추출에 관한 연구 (A Study on Extraction of Central Objects in Color Images)

  • 김성영;박창민;권규복;김민환
    • 한국멀티미디어학회논문지
    • /
    • 제5권6호
    • /
    • pp.616-624
    • /
    • 2002
  • 본 논문에서는 영상에 포함된 중심 객체를 추출하는 방법에 대해 제시한다. 중심 객체는 촬영의 중심이 되어 영상의 중앙 부분에 비교적 큰 면적을 차지하는 객체로 정의하는데 영상 내용에 대한 중요한 정보를 제공한다. 중심 객체 추출을 위해 우선 입력 영상에 대해 해상도를 줄여가며 영상 분할하고 분할된 결과에 대해 계층적 영역 병합을 수행함으로써 객체가 많은 수의 영역으로 세분화되어 영상 분할되는 것을 방지할 수 있도록 하였다. 분할된 각 영역은 영상의 경계와 접하는 경계 영역과 그 외의 비경계 영역으로 분류하였다. 비경계 영역은 중심 객체에 해당될 가능성이 있는 영역으로써, 이들 중에서 영상 중심 부근에서 가장 큰 크기를 차지하는 영역이 핵심객체영역으로 선택된다. 또한 경계 영역 중에서 영상의 네 모서리에 인접하는 영역은 핵심배경영역으로 선택되어 핵심객체영역과 함께 중심 객체 추출에 이용된다. 각 비경계 영역은 핵심 배경영역및 핵심객체영역과 칼라 분포 유사도출 비교하여 배경영역과 전경영역으로 분류된다. 핵심객체영역 및 핵심객체영역과 연결성을 가지는 전경영역이 최종 중심 객체로 선택된다. 본 논문에서 제안된 방법은 비교적 복잡한 배경을 갖는 영상에 대해서도 어느 정도 만족할 만한 결과를 얻을 수 있었다.

  • PDF

의미 패턴 추출을 위한 이동 객체의 위치 일반화 (Location Generalization of Moving Objects for the Extraction of Significant Patterns)

  • 이연식;고현
    • 한국산학기술학회논문지
    • /
    • 제12권1호
    • /
    • pp.451-458
    • /
    • 2011
  • 최적 이동 경로 탐색이나 스케줄링 경로 예측 등 최적의 위치 기반 서비스 제공을 위하여 이동 객체의 위치 이력 데이터들에 대한 시공간적 속성들을 고려한 이동 객체들의 의미 있는 이동 패턴 추출 기법이 요구된다. 이에 본 논문에서는 의미 있는 이동 패턴 추출을 위하여 이동 객체의 연속적 위치 변화를 보다 효과적으로 패턴화하고 2차원 공간 영역으로의 인덱싱을 위한 $R^*$-tree 기반의 이동 객체 위치 속성 일반화 기법을 제안한다. 제안한 위치 일반화 방법은 이동 객체들의 각 공간 영역 데이터를 이용하여 영역 간의 시간 간격에 대한 제약을 만족하는 이동 시퀀스를 생성하며, 생성된 이동 시퀀스들을 통하여 의미 있는 이동 패턴들을 추출한다. 추출된 이동 패턴들은 최적의 위치기반 서비스를 위한 이동 객체의 시간 패턴 마이닝이나 객체의 이동 추이 분석 등에 효과적으로 이용될 수 있다.

상세 접근 통제와 안전한 데이터 관리를 위한 데이터베이스 보안 시스템 (A Database Security System for Detailed Access Control and Safe Data Management)

  • 조은애;문창주;박대하;홍성진;백두권
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권5호
    • /
    • pp.352-365
    • /
    • 2009
  • 최근 데이터베이스의 보안 취약성으로 인해, 내부의 비인가자 또는 인가자의 데이터 접근에 대한 통제 정책이 제대로 이루어지지 않아 정보 유출 사고가 발생하고 있다. 현재의 데이터베이스 권한부여 방식은 관리자가 데이터베이스 오브젝트에 접근할 수 있는 권한을 사용자에게 부여하는 방식이다. 그러나 이러한 방법은 다양한 사용자 접근을 통제하기 위한 정책을 데이터베이스에 적용할 수 없다. 또 다른 데이터베이스 보안 방법인 데이터 암호화는 데이터의 인덱싱이 어렵다는 단점이 있다. 본 논문에서는 다양한 보안 정책을 반영하기 위해, 클라이언트에서 데이터베이스 서버로 요청되는 네트워크상의 패킷 분석을 통한 데이터베이스의 접근 통제 시스템을 제안한다. 제안된 보안 시스템에서는 특정 일자 및 시간, SQL에 포함되어 있는 특정 문자열, 결과 데이터 수, 레벨에 따른 컬럼 제한 등의 통제 정책을 적용할 수 있을 뿐만 아니라 사용자 정보 및 SQL의 위변조를 방지하기 위해서 공개키 인증과 메시지 인증코드 교환으로 무결성을 확보할 수 있다.

대용량 웹 로그 마이닝 및 공격탐지를 위한 B-트리 인덱스 벡터 기반 고속 검색 기법 (High-Speed Search Mechanism based on B-Tree Index Vector for Huge Web Log Mining and Web Attack Detection)

  • 이형우;김태수
    • 한국멀티미디어학회논문지
    • /
    • 제11권11호
    • /
    • pp.1601-1614
    • /
    • 2008
  • 최근 대부분의 인터넷 환경이 쳅 기반 시스템으로 발전하면서 웹 서비스 사용자 수는 꾸준히 증가하고 있다. 따라서 일반 사용자가 대형 포털 사이트 웹 서버 접속시 생성되는 로그 정보를 분석하여 웹 서버에 대한 공격을 탐지하거나 웹 마이닝 기술과 접목하기 위해서는 대용량의 웹 로그 정보에 대한 효율적인 분석 기법이 필요하다. 기존 웹 로그 전처리 기법은 로그 문자열의 순차적인 탐색을 수행하므로 대용량의 웹 로그 고속화 처리에 적합하지 않다. 본 연구에서는 대용량 웹 로그 정보에 대해 B-트리 인덱싱 벡터 구조를 이용하여 필드별 분류 및 고속 검색 알고리즘을 개발하였다 이를 통해 효율적으로 대용량 로고로부터 효율적인 세션 분석 기능과 개선된 검색 성능을 제공할 수 있었으며 웹 서버에 대한 공격 탐지에도 활용할 수 있었다.

  • PDF

정규 거리에 기반한 시계열 데이터베이스의 유사 검색 기법 (Similarity Search in Time Series Databases based on the Normalized Distance)

  • 이상준;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권1호
    • /
    • pp.23-29
    • /
    • 2004
  • 본 논문에서는 정규 거리에 기반 한 유사 시퀀스의 검색 기법을 제안한다. 시퀀스의 형태가 중요한 관심 사항인 응용에서 정규 거리는 단순한 Lp 거리에 비해 적합한 유사도라 할 수 있다. 이러한 정규 거리에 기반 한 질의를 처리하기 위한 기존의 기법들은 시퀀스의 평균을 구한 후 이를 이용하여 시퀀스를 수직 이동하는 전처리 과정을 가지고 있다. 제안된 기법은 시퀀스의 인접한 두 요소들 간의 변이가 정규화 과정에 불변이라는 속성을 이용하여 수직 이동의 전처리 과정 없이 특징 벡터를 추출한 후 이를 R-tree와 같은 공간 접근 기법을 이용하여 인덱싱한다. 제안된 기법은 비슷한 형태의 시퀀스를 검색할 수 있으며 착오 누락이 얼음을 보장한다. 실제 주식 데이타를 이용한 실험을 통해 제안된 기법의 성능을 확인하였다.

R-tree에서 Seeded 클러스터링을 이용한 다량 삽입 (Bulk Insertion Method for R-tree using Seeded Clustering)

  • 이태원;문봉기;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권1호
    • /
    • pp.30-38
    • /
    • 2004
  • 지구 관측 시스템(EOSDIS)나 많은 수의 클라이언트를 추적하는 이동전화 서비스 등 많은 응용에서는 지속적으로 생겨나는 대량의 복잡한 데이타들을 보관하고 인덱싱하는 것이 매우 어려운 일이다. 다차원 데이타를 효과적으로 관리하기 위해 R-tree에 기반 한 인덱스 구조가 널리 사용되어 왔다. 본 논문에서는 빠른 데이타 생성 속도를 따라잡으면서 대량 삽입을 통해 R-tree를 관리할 수 있는 seeded clustering이라는 확장성 있는 기법을 제안한다. 이 기법에서는 삽입할 대상 R-tree의 상위 k레벨의 구조를 활용하여 시드 트리를 만들어 삽입 데이타를 분류해 클러스터를 생성한다. 그리고 각 클러스터로부터 삽입 R-tree를 생성하고 이를 대상 R-tree에 한 번에 하나씩 삽입한다. 논문에서는 자세한 알고리즘과 함에 다양한 실험 결과를 보여준다. 실험 결과를 통해 seeded clustering을 이용한 대량 삽입이 기존의 대량 삽입 기법들과 비교해 삽입이나 질의 처리 모두에서 우수함을 알 수 있다.

멀티미디어 정보관리 데이터베이스 시스템에서 자연어를 사용한 정보 검색 (Information Retrieval Using Natural Language for Multimedia Information Management Database System)

  • 이현창;배상현
    • 한국정보통신학회논문지
    • /
    • 제8권5호
    • /
    • pp.1035-1041
    • /
    • 2004
  • 오늘날 사용자가 요구하는 데이터 타입은 주로 멀티미디어 데이터 타입들이다. 이들 멀티미디어데이터 타입의 특성은 기존의 데이터에 비하여 데이터의 크기가 크다는데 있다. 멀티미디어 데이터는 크기가 크기 때문에 멀티미디어 데이터 탐색 연산시 한번에 여러 데이터를 주기억 장치에 가져올 수 없으며, 이것은 많은 입출력 발생과 멀티미디어 데이터 시스템의 성능을 저하시키는 요인이 된다. 그러므로 본 논문에서는 보다 신속한 멀티미디어 데이터 접근을 이루기 위해 인덱스 방법에 관해 살펴보며, 이 기술을 이용하여 멀티미디어 데이터 접근을 많이 요구하는 응용프로그램에 적절하게 대처할 수 있으며, 사용자는 자연어를 사용하여 검색을 수행할 수 있다. 뿐만 아니라 정확한 매칭을 요구하는 키워드 매칭 인덱스 기법보다 자연어를 이용함으로써 사용자의 편리성과 신속한 결과 얻을 수 있도록 성능을 향상 시켰다.

사용자 질의를 이용한 XML 태그의 가중치 결정 (Weighting of XML Tag using User's Query)

  • 우선미;유춘식;김용성
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.439-446
    • /
    • 2005
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐만 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있다. 이러한 연구들 대부분이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하거나 HTML 문서 태그의 중요도를 결정하는 연구들이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그의 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자의 질의에 바탕을 둔 사용자의 검색 행위를 반영한다. 그리고 기존 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.