• 제목/요약/키워드: 근접성 데이터

검색결과 252건 처리시간 0.023초

공간 시간 근접성을 이용한 효율적인 버퍼 관리 기법 (An Efficient Buffer Management Technique Using Spatial and Temporal Locality)

  • 민준기
    • 정보처리학회논문지D
    • /
    • 제16D권2호
    • /
    • pp.153-160
    • /
    • 2009
  • 효율적인 버퍼 관리는 시스템의 성능과 밀접한 관련이 있다. 따라서 다양한 버퍼 관리 기법들에 대한 많은 연구가 진행되어 왔다. 그러나 많은 제안된 기법들의 대부분은 시간 근접성만을 고려하고 있다. 공간 데이터베이스와 같은 환경에서는 시간 근접성뿐 만 아니라, 유사한위치에 있는 공간 객체들은 서로 같이 접근 될 가능성이 높다는 공간 근접성도 존재한다. 따라서, 본 논문에서는 공간 데이터베이스 환경에서 시간근접성과 공간 근접성을 같이 효과적으로 고려하는 버퍼 관리 기법인BEAT를 제안한다. 실제 데이터와 가상 데이터를 이용한 실험 결과는 BEAT의 효율성을 보인다.

텍스트 데이터 분석을 위한 근접성 데이터의 생성과 군집화 (Creation and clustering of proximity data for text data analysis)

  • 정민지;신상민;최용석
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.451-462
    • /
    • 2019
  • 문서-용어 빈도행렬은 텍스트 마이닝 분야에서 보편적으로 사용되는 데이터의 한 유형으로, 여러 개체들이 제공하는 문서를 기반으로 만들어진다. 그러나 대다수의 연구자들은 개체 정보에 무게를 두지 않고 여러 문서에서 공통적으로 등장하는 공통용어 중 핵심적인 용어를 효과적으로 찾아내는 방법에 집중하는 경향을 보인다. 공통용어에서 핵심어를 선별할 경우 특정 문서에서만 등장하는 중요한 용어들이 공통용어 선정단계에서부터 배제될 뿐만 아니라 개별 문서들이 갖는 고유한 정보가 누락되는 등의 문제가 야기된다. 본 연구에서는 이러한 문제를 극복할 수 있는 데이터를 근접성 데이터라 정의한다. 그리고 근접성 데이터를 생성할 수 있는 12가지 방법 중 개체 군집화의 관점에서 가장 최적화된 방법을 제안한다. 개체 특성 파악을 위한 군집화 알고리즘으로는 다차원척도법과 K-평균 군집분석을 활용한다.

디지털 미디어 검색 시스템 및 응용

  • 유성준
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1998년도 국제 컨퍼런스: 국가경쟁력 향상을 위한 디지틀도서관 구축방안
    • /
    • pp.115-138
    • /
    • 1998
  • $\square$ 입력 및 색인 방법의 용이성 및 효율성 $\square$ 대상 미디어 타입 $\square$ 웹 데이터의 색인 및 검색 기능 $\square$ DBMS와의 결합성 $\square$ Total Solution에의 근접성 $\square$ 검색 방법의 종류 $\square$ 현재 시장 점유율 $\square$ 가격(중략)

  • PDF

이동체 데이터베이스에서 시공간 근접성을 고려한 디클러스터링 정책 (Declustering Policies Using Spatial-Temporal Proximity in Moving Objects DataBases)

  • 홍은석;서영덕;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.118-120
    • /
    • 2003
  • 이동체 데이터베이스에서 이동체 궤적의 양은 엄청나게 많아서 기존의 단일 디스크 기반에서는 특정영역의 질의에 대한 빠른 응답과 처리율의 향상을 볼수 없다. 따라서 고성능 질의 처리를 위한 시스템의 성능 향상을 위해서는 병렬 처리 기법의 도입이 필요하다. 이런 병렬 처리 기법 중, 기존의 디클러스터링 방법에서는 시간이 지남에 따라 연속적으로 보고되는 이동체 특성을 고려하지 않고 있다. 그러므로 대용량 이동체 데이터에 대하여 고성능 질의 처리를 위한 새로운 디클러스터링 방법이 필요하다. 이 논문에서는 대용량 이동체 데이터베이스에 대한 고성능 질의 처리를 위한 새로운 디클러스터링 정책을 제시하였다. 이동체 데이터의 MBB중 공간 좌표의 근접성만을 고려하여 하나의 SemiAllocation Disk 값을 설정하고 그 값과 시간 도메인을 다시 고려하여 근접성을 계산함으로써 디클러스터링을 할 수 있다. 또한 디스크별 Load Balancing을 고려하여 보다 정확한 디클러스터링 효과를 가지도록 하였다. 이와 같이 이동체의 특성을 고려한 새로운 디클러스터링 정책으로 시스템의 성능을 향상 시킬 수 있다.

  • PDF

제18대 대통령 선거에서 이념의 영향: 패널 데이터 분석 결과 (The Role of Political Ideology in the 2012 Korean Presidential Election: Evidence from Panel Data Analysis)

  • 김성연
    • 의정연구
    • /
    • 제23권2호
    • /
    • pp.147-177
    • /
    • 2017
  • 한국 선거에서 정치 이념의 역할에 대해 그동안 수많은 연구가 이루어졌으나, 지금까지의 연구들은 예외 없이 횡단면 데이터(cross-sectional data) 분석에 전적으로 의존하였다. 기존의 연구들과 달리 이 연구는 지난 제18대 대통령 선거에서 나타난 이념 투표의 영향을 패널 데이터 분석(panel data analysis)을 통해 보다 엄밀하게 검증한다. 구체적으로, "EAI 총선대선패널조사, 2012"를 이용하여 지난 18대 대통령 선거 시기(2012년 4월 중순-12월 하순)에 정치적이념이 유권자들의 후보 호오도(candidate evaluation)와 후보 선택(vote choice)에 미친 영향을 고정 효과(fixed effects) 분석과 변동 효과(random effect) 분석 등 표준적인 패널 데이터 분석을 통해 살펴보았다. 또한 이념투표의 대표적 설명 모형인 근접성 모형(proximity model)과 방향성 모형(directional change model)을 적용한 결과를 비교 분석하였다. 분석 결과, 지난 18대 대통령 선거에서 진보와 보수의 정치적 이념은 박근혜와 문재인후보에 대한 호오도 및 이들에 대한 지지에 독립적이고 유의미한 영향을 미쳤다고 할 수 있다. 즉, 유권자들은 특정 후보와의 이념적 차이가 크다고 느낄수록 그후보에 대한 지지 확률 및 호오도가 상대적으로 낮아졌다. 그리고 이러한 이념투표의 영향은 근접성 모형보다 방향성 모형에서 상대적으로 뚜렷하게 나타났다.

공간적 근접성과 시간적 근접성을 이용한 효율적인 버퍼관리법 (An Efficient Buffer Management Strategy Using Spatial Locality and Temporal Locality)

  • 안재용;민준기;정진완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.4-6
    • /
    • 2001
  • 데이터베이스 관리시스템에서 데이터를 디스크에서 읽어오는 작업은 많은 비용을 필요로 한다. 따라서 시스템의 성능을 향상시키기 위해서는 I/O의 횟수를 최소화는 것이 가장 중요한 문제이다. 특히 공간데이터베이스 환경에서는 클라이언트 버퍼의 크기가 데이터베이스의 크기에 비해 매우 작기 때문에 버퍼를 효율적으로 사용하여 I/O 회수를 줄이는 문제는 더욱 중요하게 고려하여야 한다. 지금까지 디스크 I/O 횟수를 줄이기 위해서 많은 버퍼관리 기법들이 제안되었지만, 그 기법들은 시간적 근접성만을 고려해왔기 때문에 공간적 근접성도 존재하는 공간데이터베이스 환경에서는 최적의 성능을 보여주지 못했다. 본 논문에서는 공간 데이터베이스의 시간적 근접성과 공간적 근접성을 동시에 고려하는 새로운 버퍼관리기법인 SLM-tree Buffer Management Strategy를 제안한다. 제안한 버퍼관리기법은 공간 데이터베이스 환경에서 디스크 I/O의 횟수를 현저하게 줄임으로서 기존의 방법들에 비해 월등한 성능을 보여준다.

  • PDF

모바일 환경에서 지도 서비스를 위한 효율적인 공간 데이터 캐시 알고리즘 (An Efficient Spatial Data Cache Algorithm for a Map Service in Mobile Environment)

  • 문진용
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권2호
    • /
    • pp.257-262
    • /
    • 2015
  • 최근 무선 네트워크의 확산, 모바일 기기의 성능 향상, 서비스에 대한 수요 증가와 함께 모바일 지리 정보서비스에 대한 관심이 높아지고 있다. 기존의 유선 환경기반의 지리 정보 시스템 솔루션으로 무선 환경에서 서비스를 하기 에는 제한된 통신 속도, 처리 속도, 화면 사이즈 등의 한계점이 존재한다. 본 논문에서는 이와 같은 문제를 해결하기 위하여 클라이언트 측의 캐시 알고리즘을 제안하고자 한다. 제안된 알고리즘은 단위 시간과 공간 근접성의 개념을 이용하여 기존의 연구를 개선한다. 그리고 효율성의 향상 정도를 측정하기 위해 성능 평가를 실시하고 결과를 분석한다. 성능 평가 결과, 공간 데이터의 질의 시에 기존의 알고리즘에 비하여 적중률에 있어서 보다 좋은 성능을 나타내었다.

비식별 데이터의 유사성 보존에 관한 연구 (A Study on the Preservation of Similarity of privated Data)

  • 강동현;오현석;용우석;이원석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.285-288
    • /
    • 2017
  • 비식별화 모델은 데이터 공유를 위한 모델로 원본데이터를 비식별화 변환 처리하여 개인정보를 보호함과 동시에 분석에 필요한 데이터를 외부에 제공하는 모델로 연구되어 왔다. 변환 방법으로는 삭제, 일반화, 범주화 기술 등이 주로 사용되며 변환 과정 중에는 재식별 가능성을 최소화하기 위해 k-익명성, l-다양성, t-근접성 혹은 differential privacy 등의 프라이버시 모델이 적용되고 있다. 하지만 변환된 비식별 데이터 세트는 필연적으로 원본 데이터 세트와 다른 값을 가지며 이는 결과적으로 최종 분석 결과에 영향을 주게 된다. 이를 위해 두 데이터 세트 간의 차이를 상이도(dissimilarity) 혹은 정보 손실율(information loss)이라는 지표로 측정 하고 있으며 본 지표는 비식별 데이터의 활용성을 평가 하는 데에 매우 중요한 역할을 한다. 본 연구에서는 비식별 데이터와 원본 데이터와 간의 차이를 도메인 기반의 절대적인 기준대비로 표현한 상이도 측정 방법을 제안하며, 그 유효성을 실데이터 기반의 실험을 통해 검증하였다.

모바일 사용자의 개인 및 소셜 정보 추정 (Estimating Personal and Social Information for Mobile User)

  • 손정우;한용진;송현제;박성배;이상조
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권9호
    • /
    • pp.603-614
    • /
    • 2013
  • 모바일 디바이스의 발달은 사용자가 언제 어디서나 원하는 서비스에 접근하고, 정보를 소비할 수 있는 환경을 마련했다. 이에 맞춰 다양한 연구들이 모바일 사용자의 정보 접근성을 향상 시키기 위한 개인화 방법을 제안해 왔다. 하지만, 이와 같은 개인화는 사용자 개인과 관련된 정보를 요구하기에, 사용자 정보에 대한 보안과 관련된 우려를 낳고 있다. 이를 해결할 수 있는 효과적인 방법 중 하나로 사용자 정보를 사용자의 온라인 혹은 오프라인 상의 행동 패턴으로부터 추정하는 것을 들 수 있다. 본 논문에서는 SNS(Social Network Service) 상에서의 사용자 패턴과 사용자 간 물리적인 근접성 패턴을 분석하여 사용자 개인의 정보와 타 사용자와의 사회 관계정보를 식별하는 사용자 정보 식별 시스템을 제안하고자 한다. 제안한 시스템은 SNS 텍스트와 GPS 데이터에 기반한 POI(Point of Interest) 패턴으로부터 사용자의 나이, 성별 등 개인정보를 식별하고, 사용자 GPS 데이터를 이용하여 얻어진 사용자 간 근접성 패턴을 이용하여 두 사용자 간의 가족, 동료 등 관계 정보를 추정한다. 각각의 사용자 식별 모듈은 해당 데이터의 특성을 고려하여 SNS 데이터의 노이즈와 사용자 GPS 데이터의 손실을 감안함으로써 더 정확한 사용자 식별 성능을 보이도록 설계되었다. 이를 검증하기 위한 실험에서 제안한 시스템은 기존의 방법에 비해 더 나은 성능을 보였으며, 이는 본 논문에서 제안하는 방법이 사용자 데이터의 특성을 효과적으로 반영하고 있음을 의미한다.

익명 그룹 기반의 효율적인 데이터 익명화 알고리즘 (An Efficient Algorithm of Data Anonymity based on Anonymity Groups)

  • 권호열
    • 산업기술연구
    • /
    • 제36권
    • /
    • pp.89-92
    • /
    • 2016
  • In this paper, we propose an efficient anonymity algorithm for personal information protections in big data systems. Firstly, we briefly introduce fundamental algorithms of k-anonymity, l-diversity, t-closeness. And then we propose an anonymity algorithm using controlling the size of anonymity groups as well as exchanging the data tuple between anonymity groups. Finally, we demonstrate an example on which proposed algorithm applied. The proposed scheme gave an efficient and simple algorithms for the processing of a big amount of data.

  • PDF