• 제목/요약/키워드: Relational Graph

검색결과 72건 처리시간 0.023초

클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현 (Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment)

  • 김명진;한승호;최운;이한구
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.71-84
    • /
    • 2013
  • 컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자 최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성 모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다.

드론 열화상 화소값의 타겟 온도변환을 위한 방사율 영향 분석 (Study on the Effect of Emissivity for Estimation of the Surface Temperature from Drone-based Thermal Images)

  • 조현정;이재왕;정나영;오재홍
    • 한국측량학회지
    • /
    • 제40권1호
    • /
    • pp.41-49
    • /
    • 2022
  • 최근 열화상 카메라의 수요 증가와 함께 열화상 카메라를 활용한 연구 또한 관심이 높아지고 있다. 그 중, 기존의 드론에 열화상 카메라를 부착하여 촬영하는 등의 단순 촬영에서 나아가 열 영상 처리를 통한 디지털 트윈 구축, 영상화된 데이터를 통한 관리 시스템 구축 등 열 영상 처리 후 데이터를 응용한 연구가 증가하고 있다. 본 논문에서는 열화상 카메라를 처리하는 과정에서 생성되는 화소값인 DN값(Digital Number)이 실제 표면 온도로 변환하기 위한 관계식 유도과정에서 방사율이 DN값에 미치는 영향을 알아보기 위한 연구를 진행하였다. DN값은 열 영상의 스펙트럼 밴드 값을 나타내는 숫자로 열 영상 데이터를 구성하는 중요한 요소이다. 하지만 DN값은 실제 표면 온도를 표시하는 온도 값이 아닌 열이 높고 낮음을 밝기로 표시한 밝기 값으로 실제 표면 온도와 비 선형적인 관계이다. 그러므로 열화상 카메라로 획득한 영상 이미지의 DN값을 실제 표면 온도와 관계성을 보일 수 있다면 데이터를 처리하기 수월하며, 더 많은 활용성을 기대할 수 있다. 그러므로 본 연구에서는 우선, 실제 표면 온도와 열 영상의 DN값의 관계를 분석하고, 열화상 카메라와 같은 원리로 작용하는 비접촉 열화상 온도계가 실제 표면 온도에 근접한 참값으로 변환할 수 있도록 방사 조정을 진행하였다. 그 결과 실제 표면 온도 및 DN값의 관계 그래프와 방사 조정된 비접촉 열화상 온도계 및 DN값의 관계 그래프가 유사한 선형관계를 보였으며 방사율을 조정하기 전보다 조정한 후의 비접촉 온도가 실제 표면 온도에 더 근접한 결과를 얻었다.

부분 문자열 선택도 추정을 위한 서픽스트리 변환 기법 (A Suffix Tree Transform Technique for Substring Selectivity Estimation)

  • 이홍래;심규석;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권2호
    • /
    • pp.141-152
    • /
    • 2007
  • 선택도 추측은 관계형 데이타베이스에서 질의 최적화의 한 중요한 요소이다. 숫자 데이타에 대한 조건식에 대하여 이 주제는 많은 연구가 되어 왔으나 부분문자열에 대한 조건식은 최근에 이르러서야 관심의 초점이 되고 있다. 우리는 이 논문에서 이 문제를 위한 새로운 서픽스 트리 변환 알고리즘을 제시한다. 제안하는 기법은 서픽스 트리의 노드들을 단순히 잘라 없애 버리기 보다는 기본적으로 비슷한 카운트를 갖는 노드들을 구조적 정보를 유지하면서 병합하여 전체 크기를 줄인다. 본 논문은 여러 제약 사항하에서 서픽스 트리를 그 크기를 줄이도록 변환을 하는 알고리즘을 제시하고 실생활 데이타를 대상으로 실험을 수행하여 우리가 제안하는 알고리즘이 기존의 알고리즘들보다 우수한 평균 상대 에러와 에러 분포 특성을 지니고 있음을 보인다.

조립체 결함 분석 지원을 위한 영상 영역과 부품 정보의 병합 ^x Integration of Image Regions and Product Components Information to Support Fault (Integration of Image Regions and Product Components Information to Support Fault)

  • 김선희;김경윤;이형재;권오법;양형정
    • 한국콘텐츠학회논문지
    • /
    • 제6권11호
    • /
    • pp.266-275
    • /
    • 2006
  • 조립체 공정은 많은 부분이 자동화 되었지만 결함 진단 부분에서는 포괄적인 의사 결정을 지원하기 위해 다양한 분야의 전문성과 지식을 필요로 하기 때문에 자동화가 이루어지지 않고 있다. 본 논문에서는 다양한 분야의 전문가가 쉽게 접근할 수 있고 직관적으로 이해할 수 있는 영상 정보를 이용한 조립체 결함 분석 지원시스템을 제안한다. 본 시스템은 영상 정보와 제품 설계 정보 그리고 결함탐지 정보를 병합함으로써 조립체에서 효과적으로 결함을 분석하도록 지원한다. 제안된 방법은 라벨링을 이용하여 조립체의 영상을 부품 단위로 분할하고 확장된 속성 관계 그래프(eARG)를 사용하여 설계 정보와 결함 분석 정보를 일관되게 표현하여 결함 정보를 영상 정보로부터 접근할 수 있도록 한다.

  • PDF

대용량 그래프에서 k-차수 인덱스 테이블을 이용한 RDBMS 기반의 효율적인 최단 경로 탐색 기법 (RDBMS Based Efficient Method for Shortest Path Searching Over Large Graphs Using K-degree Index Table)

  • 홍지혜;한용구;이영구
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권5호
    • /
    • pp.179-186
    • /
    • 2014
  • 소셜 네트워크, 웹 페이지 링크, 교통 네트워크 등과 같은 최근의 네트워크들은 노드와 에지의 수가 방대한 빅 데이터이다. 소셜 네트워크 서비스나 네비게이션 서비스와 같이 이와 같은 네트워크를 이용하는 애플리케이션이 많아지고 있다. 대용량 네트워크는 전체를 메모리에 적재할 수 없어, 기존의 네트워크 분석 기술을 활용할 수 없다. 최근 대용량 그래프의 효율적 탐색을 제공하는 RDB 기반 연산자들이 프레임워크(Frontier-expand-merge framework, FEM)로 제안되었다. FEM은 효율적인 최단 경로 탐색을 위해 부분 최단 경로를 저장하는 RDB 기반의 인덱스 테이블을 구축하였다. 그러나 FEM의 인덱스 테이블은 최단 경로에 포함될 확률보다 인덱스의 거리에 의해 결정되기 때문에 인덱스 테이블 참조율이 떨어진다. 본 논문에서는 효율적인 최단 경로 탐색을 지원하는 인덱스 참조율이 높은 차수가 큰 노드들을 이용한 인덱스 테이블 구축 기법을 제안한다. 실험을 통하여 제안하는 인덱스 테이블 구축 기법이 실세계 데이터 셋에서 효율적인 최단 경로 탐색을 지원함을 보인다.

Spark SQL 기반 고도 분석 지원 프레임워크 설계 (Design of Spark SQL Based Framework for Advanced Analytics)

  • 정재화
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권10호
    • /
    • pp.477-482
    • /
    • 2016
  • 기업의 신속한 의사결정 및 전략적 정책 결정을 위해 빅데이터에 대한 고도 분석이 필수적으로 요구됨에 따라 대량의 데이터를 복수의 노드에 분산하여 처리하는 하둡 또는 스파크와 같은 분산 처리 플랫폼이 주목을 받고 있다. 최근 공개된 Spark SQL은 Spark 환경에서 SQL 기반의 분산 처리 기법을 지원하고 있으나, 기계학습이나 그래프 처리와 같은 반복적 처리가 요구되는 고도 분석 분야에서는 효율적 처리가 불가능한 문제가 있다. 따라서 본 논문은 이러한 문제점을 바탕으로 Spark 환경에서 고도 분석 지원을 위한 SQL 기반의 빅데이터 최적처리 엔진설계와 처리 프레임워크를 제안한다. 복수의 조건과 다수의 조인, 집계, 소팅 연산이 필요한 복합 SQL 질의를 분산/병행적으로 처리할 수 있는 최적화 엔진과 관계형 연산을 지원하는 기계학습 최적화하기 위한 프레임워크를 설계한다.

길이 비율 효율성 측정법을 이용한 자료포락분석 (Data Envelopment Analysis(DEA) using Length Rate-based Efficiency Measurement)

  • 이상운
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권3호
    • /
    • pp.143-149
    • /
    • 2021
  • 본 논문은 자료포락분석의 핵심인 상대효율을 계산하는데 있어 길이비율 측정법을 제안하였다. 상대효율을 계산하는 유일한 방법으로 선형계획법이 알려져 왔다. 이 방법은 모든 의사결정단위들에 대한 단편적인 선형계획법을 풀어야 하는 문제점을 갖고 있었다. 본 논문에서는 단순히 입력-출력 관계를 2차원 그래프 작도로 효율적과 비효율적인 의사결정단위를 구별하고, 비효율적인 의사결정단위의 현재 달성한 효율성은 길이비율 측정법으로 구하였다. 제안된 방법을 다양한 실험사례들에 적용한 결과 선형계획법의 적용 오류로 인한 문제점도 해결할 수 있었으며, 항상 정확한 상대효율이 계산됨을 보였다. 또한, 이미 100% 효율성을 달성한 의사결정단위들을 제외하고, 단지 비효율적인 의사결정단위들에 대해서만 직선을 그려 기준 집합을 결정하고, 상대효율을 쉽게 구할 수 있었다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

우수유출저감을 위한 간선저류지 위치선정에 관한 연구 (A study on the determination of location of the detention pond in trunk sewer for reducing runoff amounts)

  • 이성호;윤세의;이재준
    • 한국수자원학회논문집
    • /
    • 제50권4호
    • /
    • pp.223-232
    • /
    • 2017
  • 도시화 및 산업화로 인한 도시지역의 불투수율의 증가와 국지성 호우로 인하여 도시지역의 홍수에 대한 방어능력이 취약하게 되었다. 도시지역의 홍수피해 저감을 위하여 저류지와 침투시설을 포함한 각종 우수유출저감시설이 적용되고 있다. 그러나 국내 대도시의 경우 우수유출저감시설 설치를 위한 부지 확보가 어렵고 노후화된 관거 개선을 위한 예산확보도 어려운 실정이므로 도심지의 치수능력 향상과 예산을 절감시킬 수 있는 기존 우수관거를 연계한 저류시스템(이것을 간선저류지라 부르기로 한다)의 설계가 필요하다고 판단된다. 본 연구에서는 세 가지 형상(세장형, 중앙형, 집중형)의 가상유역을 대상유역으로 선정하여 기존 우수관거를 연계한 저류시스템인 간선저류지를 유역 내의 임의의 위치에 설치하였을 경우 간선저류지의 용량에 따른 우수유출저감효과를 분석하였다. 간선저류지는 6가지의 용량($1,000m^3$, $3,000m^3$, $5,000m^3$, $10,000m^3$, $20,000m^3$, $30,000m^3$)으로 설정하였고, 우수유출저감효과를 분석하기 위한 저류지의 설치위치는 전체 유역면적에 대한 저류지 상류부 면적의 비를 각각 20%, 40%, 60%, 80%로 변화시키면서 설치위치를 다양하게 적용하여 대상유역의 우수유출저감효과를 분석하였다. 또한 도출된 결과를 이용하여 간선저류지 설치위치에 따른 관계도 및 관계식을 제시하였다.

8학년 학생들의 탐구 보고서에 나타난 과학방법의 특징 (Characteristics of Scientific Method for the 8th Grade Students‘ Inquiry Reports)

  • 신미영;최승언
    • 한국지구과학회지
    • /
    • 제29권4호
    • /
    • pp.341-351
    • /
    • 2008
  • 본 연구의 목적은 8학년 학생들의 탐구보고서에 제시되어 있는 과학방법의 특징을 조사하려는 것이다. 문헌 연구로부터 과학의 본성을 고려하여 '과학방법과 정보출처 분석'이라는 분석들을 개발하였으며, 이를 사용하여 학생들의 '방법설계', '데이터분석', 정보출처'를 분석하였다. 그리고 분석 결과를 질문수준과 비교하여 '과학방법'이 질문수준의 영향을 받는지 조사하였다. 또한, 학생들이 탐구 활동을 하면서 '과학방법'을 설계할 때 겪는 어려움을 알기 위해 실시한 설문지의 응답을 분석하였다. 결과는 첫째, '방법설계'는 자문과 활동이 있으며, 활동은 실험, 상관연구, 관찰을 말한다. 그 중에서 학생들은 '자문'으로 설계하는 경우가 많았다. 활동을 설계한 경우, 대부분의 학생들은 '실험'을 설계하였다. 둘째, '데이터분석'은 요약, 표, 도표, 그래프 등이 있으며, 학생들은 '요약' 형태로 그들의 데이터를 분석하는 경우가 많았다. 그리고 '요약'은 '단순요약'과 '관계진술'로 구분되었다. 셋째, '정보출처'는 컴퓨터, 도서관, 전문가 상담이 있으며, 대부분의 학생은 정보를 '컴퓨터'에서 구하였다. 넷째, 학생들의 '방법설계'와 '요약'은 질문수준의 영향을 받는 것으로 나타났다. 다섯째. 일부 학생들은 정보가 부족하거나 부정확할 뿐 아니라 정보에 제시된 전문 용어가 어려워 '방법설계'가 어렵다고 하였다.