• 제목/요약/키워드: 데이터 분포

검색결과 2,654건 처리시간 0.032초

DEhBT: hB-tree를 이용한 다차원 데이타 분할 기법 (DEhBT:A Multidimensional Data Partitioning Scheme using hB-tree)

  • 김동연;오영배;최동훈;한상영;이상구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권1호
    • /
    • pp.16-24
    • /
    • 1999
  • 본 논문에서는 병렬 DBMS를 사용하는 데이터 웨어하우스의 성능을 개선하기 위한 새로운 다차원 데이터 분할 기법을 제안한다. 데이터 웨어하우스는 많은 양의 데이터를 저장하는 대용량 데이터베이스이며 분석적인 정보를 얻기 위한 다차원 범위 질의가 대부분을 차지한다. 단일 차원분할 기법으로는 다차원 질의를 효과적으로 처리하기 어렵고 기존의 다차원 분할 기법은 임의의 알 수 없는 분포를 가진 데이터에 대해 균등한 분할을 보장하기 어렵다. 본 논문에서는 hB-tree 구조를 이용하여 균등한 분할을 보장하는 다차원 분할 기법을 제안하고 그 성능을 측정하기 위한 시뮬레이터 결과를 보인다. 시뮬레이션에서 hB-tree 분할 기법은 균등 분포뿐만 아니라 비균등 분포 데이터 집합에 대해서도 균등한 분할을 보인다.

잠재 고객 예측을 위한 능동 학습 기법 (Active Learning for Prediction of Potential Customers)

  • 박상욱;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.96-98
    • /
    • 2000
  • 본 논문에서는 상거래 환경에서 구매자와 비구매자들에 대한 데이터를 학습한 후, 잠재고객들 중에서 구매 확률이 높은 사람을 예측하는 문제에 효율적으로 접근하기 위해 능동적인 데이터 선택 기법을 이용한다. 실험 데이터는 ColL Challenge 2000에서 얻은 데이터로서, 구매자들의 정보보다 비구매자들의 정보가 더 많기 때문에 상당히 균형이 맞지 않는다. 따라서 모든 데이터를 한꺼번에 학습하는 경우에 성능이 좋지 않다. 본 논문에서는 이러한 불균형 분포를 갖는 실제적인 문제에 있어서 성능이 좋지 않다. 본 논문에서는 이러한 불균형 분포를 갖는 실제적인 문제에 있어서 RBF 기반의 신경망을 가지고 능동 학습을 함으로써 기존의 뱃치학습 보다 예측의 정확도를 향상시킬 수 있음을 보인다.

  • PDF

데이터 분포 통계를 이용한 CSV 형식의 공공데이터 도메인 판별 모델에 관한 연구 (A Study on Domain Discrimination Model for CSV Format Public Data Using Data Distribution Statistics)

  • 정하나;김재웅;이윤열;채의근;정영석
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.79-80
    • /
    • 2023
  • 정부는 공공데이터의 품질 관리를 위하여 공공데이터 품질관리 수준평가를 진행하여 공공데이터 품질을 관리하고 있다. 파일 형식의 공공데이터를 진단 시 품질진단 담당자가 대량의 파일데이터를 필드명과 필드 내 데이터에 의존하여 수작업으로 도메인을 판단하여 진단한다. 때문에 품질진단의 정확성을 신뢰하기 어렵고 진단에 많은 시간이 소요된다. 본 논문은 파일형식의 공공데이터 품질진단의 정확성을 확보하고 진단 소요시간을 단축하기 위해 데이터 분포 통계를 이용한 CSV 형식의 공공데이터 도메인 판별 모델을 제안하였다. 제안된 모델을 적용하면 공공데이터 품질의 정확성을 향상하고 진단 소비 시간을 단축시킬 것으로 기대된다.

  • PDF

다양한 분포의 데이터를 이용한 시계열 패턴 인덱스의 성능 비교

  • 김영인
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 1998년도 공동추계학술대회 경제위기 극복을 위한 정보기술의 효율적 활용
    • /
    • pp.791-805
    • /
    • 1998
  • 음성데이타베이스 이미지 데이터베이스 등과 같은 응용에서 다차원 구조의 시계열 패턴을 효율적으로 처리하기 위한 인덱스 구조가 필요하다. 이러한 인덱스구조로 시계열 패턴 인덱스(9)가 제안되었다. 본 논문에서는 시계열 패턴 인덱스가 실제 응용에 적용가능한가를 판단하기 위하여 , 다양한 분포의 대량 데이터를 이용한 실험을 통한 성능을 비교한다. 성능 실험결과 저장시의 성능은 균일 분포에서 좋은 성능을 나타냈다. 질의 처리시의 성능은 모든 분포에서 좋은 후보 선택의 결과를 나타냈다.

레이저홀로그램과 플라즈마 이온 플럭스간의 개선된 상관 관계 (Improved Correlation between Laser Hologram and Plasma Ion Flux)

  • 정진수;서준현;김병환
    • 한국표면공학회:학술대회논문집
    • /
    • 한국표면공학회 2015년도 춘계학술대회 논문집
    • /
    • pp.186-186
    • /
    • 2015
  • 레이저 홀로그램에서 추출한 입자 데이터와 Langmuir probe로 측정한 이온 플럭스간의 개선된 상관관계를 보고한다. 레이저 홀로그램 센서 시스템을 이용하여 척 온도 변화에 따른 플라즈마 공간에서의 입자에너지 분포를 이미징하였다. 진공에너지분포를 뺀 에너지분포에 나타나는 두 종류의 분포에 관여하는 전체 입자수 분포는 이온플럭스 데이터와 전체 온도 범위에서 매우 유사한 경향성을 보였다.

  • PDF

공기 변화량 분포를 이용한 효율적인 인버터타입 압축기 시스템 (Efficient Inverter Type Compressor System using the Distribution of the Air Flow Rate)

  • 심재용;김용철;노영빈;정회경
    • 한국정보통신학회논문지
    • /
    • 제19권10호
    • /
    • pp.2396-2402
    • /
    • 2015
  • 공기압축기는 공장 및 설비 가동에 사용되는 필수 장비로써 미국 산업용 전기의 약 30%를 소비하고 있으며, 소비전력 절감을 위해 고급화된 기술 방안들이 제시되고 있다. 압축공기 변화량의 진폭변동이 작을 경우 시스템 안정성이 증가하며, 소비전력을 절감시켜 효율적인 에너지 시스템 설계를 가능하게 한다. 일반적으로 통계적 분석에서는 데이터의 분포를 정규분포, 로그정규분포, 감마분포 등을 이용하여 나타내지만, 압축공기 변화량을 나타내는 데이터처럼 긴 꼬리를 가지는 경우, 한 가지의 분포를 적용하는 것은 적합하지 않을 수 있다. 이에 따라, 본 논문에서는 압축공기의 변화량과 관련된 데이터를 두 개의 영역으로 나눈 혼합분포함수를 적용하여 평균전력 절감 가능성을 제시하였다. 이는 압축공기 변화량이 충분히 큰 수를 초과하는 영역에서는 가우시안 분포보다는 일반 파레토 분포가 더 정확한 퀀타일 값을 추정하는 데에 적합하기 때문이다.

다변량 확률분포함수의 추정을 위한 MKDE-ebd 개발 (Development of MKDE-ebd for Estimation of Multivariate Probabilistic Distribution Functions)

  • 강영진;노유정;임오강
    • 한국전산구조공학회논문집
    • /
    • 제32권1호
    • /
    • pp.55-63
    • /
    • 2019
  • 공학문제에서 많은 확률 변수들은 상관성을 가지고 있고, 입력변수의 상관성은 기계시스템의 통계적 성능 분석 결과에 큰 영향을 미친다. 하지만, 상관 변수들은 결합분포함수를 모델링하기 어렵다는 이유로 종종 독립변수로 취급되거나 특정한 모수적 모델로 표현되는 경우가 많으며, 특히 데이터가 적은 경우 결합분포함수를 정확히 모델링하는데 더 큰 어려움이 있다. 본 연구에서 개발된 경계데이터를 이용한 다변량 커널밀도추정은 비선형성을 갖는 다양한 형태의 다변량 확률 분포 추정을 위해 개발되었다. 다변량 커널밀도추정은 주어진 데이터와 균등분포함수의 파라미터의 신뢰구간으로부터 생성된 경계데이터를 결합하여 데이터의 질과 수에 덜 민감하다. 따라서 제안된 방법은 보수적인 통계모델링과 신뢰성 해석 결과를 도출할 수 있으며, 통계시뮬레이션과 공학예제를 통해 그 성능을 검증하였다.

서울 아파트 매매가 자료의 심볼릭 데이터를 이용한 군집분석 (Cluster analysis for Seoul apartment price using symbolic data)

  • 김재직
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권6호
    • /
    • pp.1239-1247
    • /
    • 2015
  • 이 논문에서는 아파트 매매가 활발히 일어나는 서울시내 64개 행정동들에 대해 아파트 전용면적별 실거래 매매가를 기준으로 군집분석을 실시하였다. 군집분석에 있어서 각 행정동의 실거래가에 대한 정보를 최대한 이용하기 위해 실거래가의 평균 뿐만 아니라 그 분포까지 고려할 수 있도록 전통적인 형태의 데이터를 히스토그램 형태의 데이터로 변환하여 분석을 하였다. 히스토그램 데이터는 심볼릭 데이터의 한 종류이고, 심볼릭 데이터는 기본적으로 구간, 목록, 히스토그램, 분포, 모형 등과 같이 데이터 자체가 내부적인 변동을 갖는 모든 형태의 데이터를 포함한다. 이러한 각 행정동들의 내부적인 매매가의 변동을 고려한 군집분석의 결과 강남구, 서초구, 송파구와 그에 인접한 행정동들이 상대적으로 다른 지역보다 매매가도 높았고 실거래가의 분포도 훨씬 더 넓은 것으로 조사되었다. 전반적으로 도심에 대한 접근성이 좋고 교육환경이 우수한 지역과 강북의 뉴타운 지역이 상대적으로 주변지역보다 더 높고 넓은 매매가 분포를 보이는 것으로 분석되었다.

보험 청구액에 대한 새로운 복합분포 (New composite distributions for insurance claim sizes)

  • 정대현;이지연
    • 응용통계연구
    • /
    • 제30권3호
    • /
    • pp.363-376
    • /
    • 2017
  • 보험 시장은 포화되고 그 성장 동력은 소진되어 보험 산업이 저성장에 머물러 있는 가운데 보험사들은 치열한 경쟁 환경에 놓여있다. 이러한 상황에서 보험 상품에 대한 보험수리적 계산의 기초가 되는 보험 청구액의 흐름을 잘 설명할 수 있는 확률분포를 찾아내는 것은 중요한 쟁점이 될 것이다. 보험 청구액의 분포는 일반적으로 두꺼운 꼬리를 가지면서 왼쪽으로 치우친 로그정규분포나 파레토 분포로 잘 설명된다고 알려져 있으나 최근에는 기운 정규분포나 기운 t 분포가 보험 청구액 분포로 적절한 것으로 고찰되었다. Cooray와 Ananda (2005)는 로그정규분포와 파레토 분포의 장점을 모두 가진 로그정규-파레토 복합분포를 제시하고 단일분포보다 더 높은 적합도를 가짐을 확인하였다. 본 논문에서는 기운 정규분포와 기운 t 분포를 머리 부분으로 결합한 새로운 복합분포를 소개하고 덴마크의 화재보험 청구액 데이터와 미국의 배상 지불금 데이터에 적용하여 기존의 다른 복합분포들을 포함하여 여러 단일분포들과 그 성능을 비교한다.

넓게 분포된 다수 지점의 동시측정을 위한 무선 원격 측정 시스템 (A Wireless Telemetry System for Simultaneous Measurement Broad Distributed Sensors)

  • 박태준;권시현;정찬수
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년도 제37회 하계학술대회 논문집 D
    • /
    • pp.1779-1780
    • /
    • 2006
  • 오늘날 대부분의 감시 시스템은 유선에 의한 계측 시스템을 사용하고 있다. 하지만, 유선 감시 시스템은 흩어져 있는 많은 지점의 데이터를 측정하기 어렵고, 초기 설치시나 변경 시에 많은 비용이 소요된다. 우리나라에는 다수의 통신 기지국이 설치되어 있어, 무선 통신망의 구축이 잘 되어 있기 때문에 무선 통신망을 계측 시스템에 적용할 경우 이용하기 용이하고 계측 된 데이터를 송수신시 소모되는 비용 또한 저렴하다. 때문에, 넓게 분포되어 있는 지점의 데이터 측정에는 무선 통신망을 이용하는 것이 유선 계측 시스템의 여러 단점들을 보완할 수 있어 시스템 구성 및 관리에 유리하다. 무선 감시 시스템은 넘게 분포된 불특정 지점의 데이터를 측정할 수 있으며, 무선 통신에 기본적으로 사용되는 시간 정보를 이용하여 여러 계측기의 데이터를 동시에 측정할 수 있다. 또한 센서에서 데이터를 메인 서버로 전송하는 동작 이외에 메인 서버의 명령으로 센서에서 데이터를 취득하여 메인 서버로 재전송할 수 있는 양방향 통신의 구축 또한 용이하다. 본 논문에서는 CDMA 모듈을 통한 무선 통신을 이용하여 여러 지점의 데이터를 동시에 계측할 수 있는 양방향 통신 시스템 구축에 관하여 연구한다.

  • PDF