• 제목/요약/키워드: 데이터 편중

검색결과 101건 처리시간 0.032초

미국 ESCO 시장에 대한 통계 분석 보고서

  • 전미ESCO협회
    • ESCO지
    • /
    • 통권19호
    • /
    • pp.64-67
    • /
    • 2002
  • 보고서에 따르면, 에너지 효율화 산업은 지난 10년 동안 매년 $24\%$의 총수익 증가율을 기록하며 급속히 성장했다. 데이터 베이스에 포함된 프로젝트 중 대략 $73\%$가 공공부문 시장으로부터 얻어진 것인데 이는 자료수집 과정에서 있었던 편중 때문이다. 미국의 ESCO시장은 매년 20억불에 달하고 있다.

  • PDF

수치 데이터 분포에 적응적 유클리드 거리 측정 기법 (Adaptive Euclidean Distance Measure Method for Numeric Data Distribution)

  • 최유환;조범준;정성원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.67-69
    • /
    • 2011
  • 데이터의 군집 분석에서 두 개의 서로 다른 데이터에 대한 유사도(거리)를 어떻게 정의하는가는 매우 중요한 문제이다. 수치속성에 대한 거리 측정 방법에는 다양한 기법이 존재하지만 각 속성의 크기와 범위가 서로 크게 다를 경우 이들을 동일한 인자로 여기고 거리 측정을 하게 되면 논리적인 오류를 범할 수 있다. 기존의 군집 분석 연구에서 사용된 거리 측정 기법은 데이터의 정규화 과정을 통해 이 문제를 해결하려고 노력하지만 일반적인 정규화는 이상치의 존재나 데이터의 편중된 분포 등의 이유로 속성별 거리가 왜곡될 수 있다. 본 논문은 이러한 문제점을 해결하기 위해 정규화된 데이터에서 각 속성의 비중을 고려한 적응적 유클리드 거리 측정 기법(AEDM: Adaptive Euclidean Distance Measure)을 제안한다. AEDM은 유클리드 거리를 기반으로 정규화 된 데이터의 형태에 따라 가중치를 부여하여 데이터의 분포에 관계없이 각 속성간의 거리를 충분히 반영하기 때문에 더욱 정확한 군집 분석을 가능하게 한다.

MOLAP 시스템을 위한 다차원 저장구조의 설계기법 (A Design Method of Storage Structures for MOLAP Systems)

  • 이종학;이성원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.130-132
    • /
    • 2005
  • 다차원 온라인 분석처리 시스템(MOLAP)에서 집계 연산은 중요한 기본 연산이다. 기존의 MOLAP 집계 연산은 다차원 배열구조를 기반으로 한 파일구조에 대해서 연구되어 왔다. 다차원 배열구조는 편중된 분포를 갖는 데이터에서는 잘 동작하지 못한다는 단점이 있다. 본 논문에서는 편중된 분포에도 잘 동작하는 다차원 파일구조를 사용한 MOLAP 저장구조의 물리적 설계기법을 제안한다. 실험결과에 의하면 이차원 파일구조의 경우 집계 연산처리를 위한 저장구조의 성능이 일곱 배 이상까지 향상됨을 확인하였다. 삼차원 이상의 파일구조에 대해서는 더욱더 큰 성능향상이 예상된다. 이러한 성능의 향상은 제안된 MOLAP 저장구조의 물리적 설계기법이 매우 유용함을 나타내는 것이다.

  • PDF

클러스터링 데이터베이스에서 온라인 확장을 고려한 $CSB^+$ 트리 색인의 온라인 재구성 기법 (Online Scaling Consious Online Reorganization of $CSB^+$ tree Index in a Database Cluster)

  • 심태정;이충호;이순조;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.196-198
    • /
    • 2002
  • 클러스터링 데이터베이스는 높은 가용성과 확장성을 갖으며, 예상치 못한 클라이언트 질의의 증가나 질의 패턴의 변경에 따른 작업부하의 편중에 효율적으로 대처할 수 있는 구조이다. 특히 온라인 확장 기법은 트랜잭션 처리를 중지하지 않고 새로운 노드를 클러스터에 추가하여 데이터를 재구성함으로써 임의의 노드에 질의가 집중되는 문제를 해결할 수 있다. 정적으로 구성된 시스템만으로는 두 대 이상의 서버에 작업량이 집중될 경우 재배치 시 서버 간의 데이터 이동의 반복 현상이 발생되며. 이로 인해 네트웍의 부하와 함께 실시간 트랜적션의 처리에 있어서 응답 시간이 지연되는 문제점이 발생한다. 따라서 본 논문에서는 데이터 이동의 반복 현상을 해결하기 위해 클러스터링 데이터베이스에서 온라인 확장을 고려한 CSB+ 트리 색인의 온라인 재구성 기법을 제안한다. 제안된 기법은 온라인 확장을 통한 동구 노드의 확장으로 데이터 이동의 반복을 막고 새롭게 추가된 노드를 통해 빠르고 효율적인 데이터의 분산을 수행한다 또한 각 시스템의 내부를 CS$B^{+}$ 트리로 구성하여 데이터의 재주성시에도 실시간 트랜잭션에 대한 빠른 응답 시간을 보장한다.

  • PDF

ChatGPT 를 이용한 독해 튜터링 대화 데이터 확장 (Data Augmentation of English Reading Comprehension Tutoring Dialogs using ChatGPT)

  • 권현유;최승권;황금하;권오욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.43-44
    • /
    • 2023
  • 대화형 독해 튜터링 시스템을 위한 학생주도 대화 데이터셋 생성 및 확장에 ChatGPT 의 활용 가능성을 평가하였다. 단순히 수동으로만 구축한 기존의 데이터셋과 ChatGPT 에 의해 반자동으로 확장된 데이터셋을 비교한 결과, 구축량, 소요 시간, 비용 및 반복 작업 측면에서 ChatGPT 가 가진 유용성을 알 수 있었다. 그러나, 유형별 배분의 편중과, 부적절한 데이터 생성 등의 한계도 나타났다. Chat GPT 의 빠른 발전이 예상됨에 따라 대화형 튜터링 분야에 ChatGPT 에 의한 반자동 데이터 확장 방법이 널리 활용될 것으로 기대된다.

국어 분절음 특성에 맞는 음성 데이터 베이스의 모형 (A Model of Speech Database in Korean in consideration of its segmental phonology)

  • 김종미
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.297-302
    • /
    • 1994
  • 본 논문에서는 국어 분절음 특성에 맞는 음성 데이터베이스의 모형을 제시하고자 한다. 음성 데이터 베이스는 1) 각 음의 고유음가정보, 2) 인접음 정보, 3) 빈도수에 따른 확률정보를 포함해야 한다. 이 요건을 충족시키기 위해 본 모형은 1) 음운 단위별로 Labeling 하여, 고유음과 인접음 정보를 편집하고, 2) 음운 규칙과 제약정보에 의해 Phoneme Balanced Words를 작성하여, 허용되는 인접음을 취하고, 허용되지 않는 인접음을 탈락시키며 3) 시스템 평가시, 빈도수가 shb은 음과 음소열의 우선적인 인식 및 합성을 우월하게 평가한다는 고정서, 4) 데이터 집적시, 데이터의 음운기능의 중복과 편중을 피함으로서 데이터량을 간소화할 수 있다는 경제성을 들 수 있다.

  • PDF

시공간지원 집계 함수 설계 (Design of Aggregate Function for Spatiotemporal)

  • 신현호;최보윤;지정희;김상호;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1503-1506
    • /
    • 2003
  • 시공간 데이터베이스는 실세계에 존재하는 다양한 유형의 객체에 대한 공간 관리와 이력정보를 동시에 제공함으로써 사용자에게 시공간 데이터에 대한 저장 및 질의 수단을 제공한다. 질의 연산 중 집계 연산은 특정한 조건을 만족하는 데이터에 대하여 계산을 수행한 결과 값을 반환하는 연산으로, 다양한 분야에서 데이터의 분석을 위해 사용된다. 그러나 기존의 집계에 대한 연구는 시간 또는 공간에만 편중되어 시간과 공간 제약을 모두 가진 실세계의 응용에 직접 적용할 수 없다. 따라서 이 논문에서는 실세계 응용들의 분석을 위한 시공간 집계함수를 제안하고, 실제 응용에서의 분석을 위한 질의 예를 보인다. 제안된 시공간 집계함수에 의해 사용자는 응용시스템에 따른 시공간데이터 분석을 위해 간략하고 편리한 질의 할 수 있다.

  • PDF

메시지 수신 성공률을 이용한 클러스터 기반의 에너지 효율적인 라우팅 프로토콜 (Cluster-based Energy-Efficient Routing Protocol using Message Reception Success Rate)

  • 장유진;최영호;장재우
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권12호
    • /
    • pp.1224-1228
    • /
    • 2010
  • 기존 무선 센서 네트워크에서의 클러스터 기반 라우팅 기법은 첫째, 임의의 헤더 선출로 인하여, 일부 클러스터에 노드가 편중되는 문제점이 발생한다. 둘째, 실제 환경에서의 통신 범위를 고려하지 않기 때문에, 라우팅 경로의 신뢰도가 저하된다. 마지막으로, 헤더 선정을 위해 모든 센서 노드 정보를 전송하기 때문에, 데이터 전송 오버헤드가 증가한다. 이를 해결하기 위해 본 연구에서는 메시지 수신 성공률을 이용한 클러스터 기반 라우팅 프로토콜을 제안한다. 제안하는 기법용 첫째, 노드 편중도를 해결하기 위하여 노드의 밀집도 및 연결성을 이용하여 클러스터 헤더를 선정하고, 분할 및 병합을 수행한다. 둘째, 라우팅 경로의 신뢰도 향상을 위하여, 실제 환경에 적용 가능한 메시지 수신 성공률을 기반으로 데이터 전송 경로를 설정한다. 마지막으로 데이터 전송 오버헤드의 감소를 위하여, 모든 센서 노드는 자신의 이웃 노드 정보만을 이용하여 헤더 선정 및 클러스터 구성 작업을 수행한다.

온라인 게임서버에서의 k-최근접 관심영역 관리기법 (K-Nearest Interest Management in Onlina Game Server)

  • 박일규;심광현;김종성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (3)
    • /
    • pp.547-549
    • /
    • 2001
  • 대규모 온라인 게임과 같이 수많은 사용자를 수용하는 클라이언트/서버 방식 응용에서는 네트워크의 대역폭을 효율적으로 사용하는 것이 중요하다. 각 클라이언트의 관심영역에 해당하는 데이터만을 보내어 트래픽을 줄이는 방법을 관심영역 관리라 하며, 클래스기반, 영역 기반, 격자기반 등 여러 가지의 방법이 제안되어 있다. 본 논문에서는 작은 영역에서 거리 기반으로 관심영역을 정하는 관심영역 관리 기법을 제안하고, 이를 이용하여 참가자가 편중된 영역에서 생기는 트래픽 집중 현상을 해소하는 방법을 제안한다.

  • PDF

하둡 성능 향상을 위한 VPT 개발 연구 (A Development Study of The VPT for the improvement of Hadoop performance)

  • 양일등;김성열
    • 한국정보통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.2029-2036
    • /
    • 2015
  • 하둡 MR(MapReduce)는 매퍼(Mapper)의 출력을 리듀서(Reducer)의 입력으로 전달하기 위해 파티션 함수(Partition Function)을 사용한다. 파티션 함수는 키에서 해쉬 값을 계산한 후 리듀서 개수로 나머지 연산을 수행하여 대상 리듀서를 결정한다. 기존 파티션 함수는 키의 편중도에 민감하여 잡이 균등하게 배분될 수 없었다. 잡이 균등하게 배분되지 못하면 특정 리듀서들의 처리 수행 시간이 길어져 전체 분산 처리 수행 성능에 영향을 주게 된다. 이에 본 논문은 VPT(Virtual Partition Table)을 제안하고 편중도가 심한 데이터에 VPT을 적용하여 실험을 수행 하였다. 적용된 VPT는 기존 파티션 함수와 대비하여 평균 3초 정도 성능향상이 발생하였으며, 데이터 처리량이 증가할수록 성능 향상 폭이 증가할 것으로 예상된다.