• 제목/요약/키워드: 데이터 집계

검색결과 215건 처리시간 0.028초

국가연구개발사업과 논문성과간 네트웍 분석을 통한 사업별 유사성 분석 (A Similarity Analysis on National R&D Programs and Paper Outputs using Network Analysis)

  • 장한수;홍정석;최주석
    • 한국기술혁신학회:학술대회논문집
    • /
    • 한국기술혁신학회 2017년도 추계학술대회 논문집
    • /
    • pp.1263-1269
    • /
    • 2017
  • 정부의 연구개발투자로 수행되는 국가연구개발사업은 세부과제 단위로 매년 도출되는 6대 성과(논문, 특허, 기술료, 사업화, 인력양성 지원, 연수 지원)를 집계한다. 성과 중 하나인 SCI급 논문은 한 논문을 다른 연구과제의 성과로 제출하는 경우도 많아서 동일 논문성과를 다수의 과제에서 공유하게 된다. 본 논문에서는 국가연구개발사업과 그 성과로 도출된 SCI급 논문간의 네트워크 관계를 분석하고자 한다. 대상 데이터는 2015년도에 수행된 연구개발과제의 성과로 제출된 11,179편의 SCI급 논문 중 2개 이상의 과제 결과로 도출된 논문이다. 또한 국가연구개발사업의 SCI급 논문 성과는 세부과제 단위로 집계되므로 SCI급 논문-세부과제간 네트워크는 정보량이 과다하다. 따라서 SCI급 논문에 대한 네트웍 분석은 세부과제를 포함하는 국가연구개발사업간의 네트워크로 한 단계 높여 분석하였다. 구체적으로 논문-사업간 2모드 네트워크를 1모드 네트워크로 전환하여 네트워크 분석을 시도하였다.

  • PDF

데이터 스트림에서 시간을 고려한 상대적인 빈발항목 탐색 (Finding the Time Sensitive Frequent Itemsets in Data Streams)

  • 박태수;전석주;이주홍;박상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.145-147
    • /
    • 2005
  • 최근 들어 저장장치의 발전과 네트워크의 발달로 인하여 대용량의 데이터가 매우 빠르게 증가되고 있다. 또한, 대용량의 데이터에 내재되어 있는 정보를 빠른 시간 내에 처리하여 새로운 지식을 창출하려는 요구가 증가하고 있다. 연속적이고 빠르게 증가하는 데이터를 지칭하는 데이터 스트림에서 데이터 마이닝 기법을 이용하여 시간이 흐름에 따라 변하고, 무한적으로 증가하는 데이터 스트림에서의 빈발항목을 찾는 연구가 활발하게 진행되고 있다. 하지만 기존의 연구들은 시간의 흐름에 따른 빈발항목 탐색방법을 적절히 제시하지 못하고 있으며 단지 집계를 이용하여 빈발항목을 탐색하고 있다. 본 논문에서는 데이터 스트림에서 시간적 측면을 고려하여 상대적인 빈발항목을 탐색하기 위한 새로운 알고리즘을 제안한다. 논문에서 제안하는 알고리즘의 성능은 다양한 실험을 통해서 검증된다.

  • PDF

공간 데이터 웨어하우스에서 분포 지역 질의 처리를 위한 확장된 큐브 트리 기법 (The Extended Cube Tree for Distribution Area Query Processing in Spatial Data Warehouses)

  • 최준호;유병섭;박순영;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.76-78
    • /
    • 2004
  • 최근 원격 탐사 시스템 등이 발전함에 따라 축적된 공간 데이터의 양이 증가했고 이를 공간 데이터 웨어하우스 분야에서 의사 결정에 활용하는 방안이 중요한 이슈가 되고 있다. 기존의 활용 방법은 주어진 영역을 기준으로 공간 범위-집계를 검색하는 형태였지만, 최근 특정 성향 분석을 위해 분포 질의를 요청하고 그 결과 지역에 대한 공간 분석을 통한 의사결정의 필요성이 대두되었다. 하지만 기존의 처리 방법으로 비공간 질의를 처리하기 위해서는 모든 데이터를 검색해야 하므로 분포 질의를 처리하기 위한 비용이 증가하게 된다. 본 논문에서는 분포 지역 질의 처리를 위한 확장된 큐브 트리 기법을 제안한다. 제안하는 기법은 분석하고자 하는 사실 테이블의 비공간 속성을 큐브 트리의 키로 사용하고, 이 속성과 관련된 공간 데이터의 포인터 집합을 관리한다. 본 논문의 제안 기법을 공간 데이터 웨어하우스에 적용함으로써 비공간 속성 질의를 통해 공간 객체를 결과로 요청하는 형태의 질의를 지원할 수 있게 되며 사실 컬럼을 계층화시킴으로서 사용자에게 좀 더 다각적인 분석을 지원할 수 있다.

  • PDF

지표피복 데이터와 지리가중회귀모형을 이용한 인구분포 추정에 관한 연구 (Locally adaptive intelligent interpolation for population distribution modeling using pre-classified land cover data and geographically weighted regression)

  • 김화환
    • 한국지역지리학회지
    • /
    • 제22권1호
    • /
    • pp.251-266
    • /
    • 2016
  • 데시메트릭 매핑은 행정구역 단위로 집계된 인구자료를 행정구역 내부의 공간적 변이에 따라 재집계하여 고해상도의 인구분포 자료를 작성하는 가장 보편적인 기법이다. 본 연구에서는 데시메트릭 매핑을 이용한 인구분포 추정의 장단점을 검토하고, 그 개선방안으로서 지리가중회귀모형을 이용한 다변량 데시메트릭 매핑 기법을 제안하였다. 기존의 지표피복 데이터와 인구센서스 자료를 기반으로 지리가중회귀모형을 적용하여 각 집계단위별로 지표피복 유형과 인구밀도의 상관관계를 분석하고, 모형에서 산출된 회귀계수를 이용해 하위 공간구획의 인구 총수를 산정하였다. 그 결과 지리가중회귀모형 기반 다변량 데시메트릭 매핑 기법을 이용했을 때, 면적가중 보간법, 이진 데시메트릭 매핑, 피크노필렉틱 보간법, 최소자승회귀모형 기반 데시메트릭 매핑 기법 등 다른 지능형 보간법에 비해 정확한 인구분포 추정이 가능하다는 것을 확인하였다. 이는 지리가중회귀모형을 통해서 인구센서스 집계 단위별로 상이한 구역 내 공간적 이질성이 인구분포 추정에 적절히 반영되었기 때문인 것으로 평가할 수 있다.

  • PDF

정형/비정형 데이터 기반 산업 평가 정보 분석 및 시각화 서비스 구현 (Development of Structured/Unstructured data-based Industry Evaluation Information Analysis and Visualization Service)

  • 김경원;정승경;조대근;윤경로
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.177-179
    • /
    • 2018
  • 기존 산업평가 방법은 산업별로 분류된 기업의 재무, 비재무 관련 정형 데이터를 기반으로 통계적 기법을 이용하여 각 산업을 평가하고 있다. 이러한 정형 데이터 기반의 산업 평가 방법은 산업별 재무 정보의 집계 및 통계에 오랜 시간이 소요된다. 따라서, 현재 시장 상황을 반영하기 어려운 현실이다. 최근에는 빠르게 변화하는 산업 환경을 반영하기 위해 뉴스 기사와 같은 비정형 데이터를 통해 산업 트랜드를 분석하기 위한 연구가 이루어 지고 있다. 이에, 본 논문에서는 실시간으로 변화하는 산업 트렌드를 반영하여 적시에 산업 분석 정보를 제공하기 위해 정형/비정형 데이터 기반의 산업평가 정보 분석 엔진을 구현하고, 산업별로 분석된 산업평가 정보를 활용하여 사용자가 직관적인 판단을 할 수 있도록 산업평가 정보 시각화 서비스를 제안한다.

  • PDF

데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법 (Efficient Creation of Data Cube Using Hash Table in Data Warehouse)

  • 김형선;유병섭;이재동;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.211-213
    • /
    • 2005
  • 데이터 웨어하우스는 축적된 대량의 데이터를 분석하여 의사결정을 지원하는 시스템이다. 의사결정을 위한 대량의 데이터 분석은 많은 비용을 요구하므로, 질의 처리 성능을 높이고 의사 결정자에게 빠른 응답을 제공하는 효율적인 데이터 큐브 생성 기법이 연구되었다. 기존 기법으로는 Multiway Array 기법과 H-Cubing 기법이 있다. Multiway Array 기법은 다차원 집계 연산에 필요한 모든 데이터를 배열로 저장하는 것으로 데이터의 양이 많아질수록 메모리 사용이 증가한다. H-Cubing 기법은 Hyper-Tree를 기반으로 튜플을 트리로 구축하므로 모든 튜플을 트리로 구축해야 하는 비용이 증가한다. 본 논문에서는 데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터 큐브 생성 기법을 제안한다. 제안 기법은 데이터 큐브 생성 시 필드 해쉬 테이블과 레코드 해쉬 테이블을 사용한다. 필드 해쉬 테이블은 저장될 레코드 순서 계산을 위하여 각 필드에 대해 레벨 값을 해쉬 테이블로 관리한다. 레코드 해쉬 테이블은 데이터 큐브 테이블에 저장될 레코드의 순서와 데이터 큐브 테이블에 저장하기 위한 임시 레코드의 위치를 관리한다. 필드 해쉬 테이블을 이용하여 다차원 데이터의 저장될 레코드 순서를 빠르게 찾아 저장함으로서 데이터 큐브의 생성속도가 향상된다. 또한 해쉬 테이블 만을 유지하면 되므로 메모리 사용량이 감소한다. 따라서 해쉬 테이블의 사용으로 데이터의 빠른 검색과 데이터 큐브 생성 요청에 빠른 응답이 가능하다.

  • PDF

USN환경에서 효율적인 공간영역질의를 위한 적응형 영역 집계 인덱스 기법 (Adaptive Range Aggregation Index Method for Efficient Spatial Range Query in Ubiquitous Sensor Networks)

  • 이연;어상훈;조숙경;이순조;배해영
    • 한국공간정보시스템학회 논문지
    • /
    • 제9권2호
    • /
    • pp.93-107
    • /
    • 2007
  • 본 논문에서는 유비쿼터스 센서 네트워크 환경에서의 공간 영역 질의를 효과적으로 처리하는 공간 영역 집계 인덱스 기법을 제안한다. 새로운 정보화 패러다임인 네트워킹과 컨버전스 기반의 유비쿼터스 환경의 중요성이 부각되면서 유비쿼터스 센서 네트워크 환경에서의 에너지 효율적인 실시간 공간질의에 대한 연구가 활발히 진행되고 있다. 센서 네트워크에서 공간영역질의는 사용자가 지정한 일정한 시간 동안의 특정 지리적 영역의 온도, 습도 등 스칼라 데이터를 감지한다. 공간 질의를 효과적으로 수행하기 위하여 Rectangle 기반의 SPIX기법 등 공간 인덱스 기법들이 많이 진행되었지만 기존 연구에서는 공간 영역질의의 질의 결과 값 전달 경로를 질의 전달 경로의 역방향으로 지정하였다. 센서 네크워크의 공간 영역 질의에서 질의 영역 내의 센서들은 대부분이 인접되어 있지만 질의 전달 경로가 틀리면 질의 영역 내에서 집계되지 못하고 전달되므로 불필요한 에너지를 낭비하게 된다. 본 논문에서는 유비쿼터스 센서 네트워크에서 공간 영역 질의를 수행 할 때 질의 영역 내에서 센서 노드들 간의 통신거리를 고려하여 질의 결과 값 전달 경로를 재선정하고, 적응적으로 집계 영역 내에서 집계연산을 하여 질의 결과 값을 전달하는 인덱스 기법을 제안한다. 성능평가를 통하여 제안 기법이 기존 기법보다 우월함을 보여주었다.

  • PDF

다차원 데이터큐브의 근사 질의응답 기법 (The Approximate Query Answering Method in Multi-dimensional Data Cube)

  • 이선영;김영주;배우식;이종연
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2009년도 추계학술발표논문집
    • /
    • pp.445-448
    • /
    • 2009
  • DSS 응용들의 대용량 집계 데이터 집중 시스템에서는 효율적이고 즉각적인 의사결정 지원을 위한 근사 질의응답의 연구가 필요하다. 따라서 본 연구에서는 FCM 클러스터링 기법과 ANFIS을 이용한 기법을 제안한다. 제안된 기법은 다차원 데이터 큐브의 데이터 특성을 가지며 질의에 대한 근사적인 응답을 제공할 수 있는 모델을 생성한다. 제안된 기법을 통해 학습된 모델은 기존의 기법보다 근사 질의응답의 정확성이 향상되었음을 비교 실험을 통하여 확인한다. 따라서 제안된 기법은 기존의 기법보다 저장 공간과 시간을 줄일 수 있으며 또한 근사 응답의 정확도를 향상시킬 수 있다.

  • PDF

시간에 따른 가변성을 고려한 상대적인 빈발항목 탐색방법 (Search Method of the time sensitive frequent itemsets)

  • 박태수;이주홍;박선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.97-100
    • /
    • 2005
  • 최근 유비쿼터스 컴퓨팅 및 인터넷 서비스에 대한 관심이 증대되면서, 대용량의 데이터에 내재되어 있는 정보를 빠른 시간 내에 처리하여 새로운 지식을 창출하려는 요구가 증가하고 있다. 데이터 마이닝 기법을 이용하여 데이터 스트림에서 빈발항목을 탐색하는 기존의 연구는 시간을 고려하지 않고 단순히 집계를 통하여 빈발항목을 탐색하기 때문에 정확성을 보장하지 못한다. 따라서 본 논문에서는 데이터 스트림에서 시간적 측면을 고려하여 상대적인 빈발항목을 탐색하기 위한 새로운 알고리즘을 제안하고자 한다. 논문에서 제안하는 알고리즘의 성능은 다양한 실험을 통해서 검증된다.

  • PDF

기종점 모빌리티 데이터 기반 클러스터링 기법을 활용한 지역 모빌리티의 공간적 특성 분석 연구 (A Study on the Analysis of Spatial Characteristics with Respect to Regional Mobility Using Clustering Technique Based on Origin-Destination Mobility Data)

  • 이동훈;안용준
    • 한국ITS학회 논문지
    • /
    • 제22권1호
    • /
    • pp.219-232
    • /
    • 2023
  • 모빌리티 서비스는 구축 대상 지역의 특성과 여건에 따라 변화할 필요가 있다. 이를 위해서는 해당 지역의 통행행태를 기종점 자료에 반영하여 모빌리티 패턴 및 특성 분석이 요구된다. 그러나 종래의 경우 행정 구역 기반의 존 체계를 기반으로 집계된 기종점 자료를 이용함에 따라 공간적 동질성을 담보하기 어렵기 때문에 신규 모빌리티와 같은 특수 목적성을 보이는 수단에 대한 본연의 통행 특성 분석에 한계가 있다. 이에 본 연구는 기존 존 체계에서 벗어나 데이터 기반의 클러스터링 기법 적용을 통해 설정된 집계 방식을 도출하여 기종점 통행패턴에 대한 공간적 분석을 수행한다. 제안 방법은 대중교통버스 및 택시와 같은 종래의 교통수단 뿐만 아니라 도심형 수요응답형 버스와 같은 신규 모빌리티 서비스에 대한 기종점 데이터 본연의 특징 벡터들을 기반으로 클러스터링을 하여 유사 공간적 특성을 반영한 지역 모빌리티의 이용 특성 분석을 가능하게 한다.