• 제목/요약/키워드: 시계열 데이터 마이닝

검색결과 70건 처리시간 0.024초

히스토그램 시퀀스 구성을 위한 공간 지역성 보존 척도 (Spatial Locality Preservation Metric for Constructing Histogram Sequences)

  • 이정곤;김범수;문양세;최미정
    • 정보화연구
    • /
    • 제10권1호
    • /
    • pp.79-91
    • /
    • 2013
  • 본 논문은 히스토그램 시퀀스(histogram sequence)에 저차원 변환을 적용할 때, 어떤 공간 채움 곡선(space filling curve: SFC)의 성능이 가장 좋은지를 판단하는 체계적인 평가방법을 제안한다. 히스토그램 시퀀스는 이미지를 주어진 SFC에 따라 시계열 형태로 표현한 것을 말한다. 히스토그램 시퀀스는 매우 고차원이므로 저장 및 검색이 매우 어렵다. 효율적인 저장 및 검색을 위해서 시계열 저차원 변환의 하한을 사용할 수 있는데, 이 하한의 성능은 SFC의 종류에 따라 큰 영향을 받게 된다. 본 논문에서는 히스토그램 시퀀스를 저차원 변환할 때 어떤 SFC의 성능이 좋은지를 평가하기 위해, "히스토그램 시퀀스에서 엔트리들이 인접하면 이미지에서도 해당 셀들이 인접해야 한다"는 공간지역성(spatial locality)의 개념을 제안한다. 다음으로, 공간 지역성을 정량적으로 평가할 수 있는 공간 지역성 보존 척도(spatial locality preservation metric)를 제안하고, 이를 계산하기 위한 정형적인 방법을 제시한다. 본 논문에서는 공간 지역성 보존 척도 측면에서 총 다섯 가지의 SFC를 평가하고, 이 평가 결과가 실제 이미지 매칭의 저차원 변환 성능 평가와 유사함을 확인한다. 또한, 저차원 변환 기반의 k-NN(k-nearest neighbors) 검색을 실험하여, 공간 지역성 보존 척도가 가장 낮은 힐버트-오더가 k-NN 검색에서도 가장 좋은 성능을 보임을 통해, 제안한 공간 지역성 보존 척도의 유용성을 입증한다.

Python을 이용한 SNS 크롤링 시스템 구축 (Building an SNS Crawling System Using Python)

  • 이종화
    • 한국산업정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.61-76
    • /
    • 2018
  • 현대인이 살고 있는 네트워크 세상으로 모든 사물들이 들어오고 있다. 사물에 센서를 부착하는 사물인터넷의 영향으로 인해 네트워크로 실시간 데이터를 주고받는 것이 가능해졌다. 현대인들의 필수품인 모바일 디바이스는 일상생활의 모든 자취를 실시간으로 남기는 역할을 하고 있다. 바로 소셜 네트워크 서비스를 통하여 정보획득 활동과 커뮤니케이션 활동을 실시간으로 거대한 네트워크에 남기고 있는 것이다. 비즈니스 관점에서 고객의 니즈 분석은 바로 SNS 자료에서부터 시작된다는 등가가 성립된다. 본 연구는 웹 환경의 SNS 콘텐츠를 파이썬을 이용하여 실시간으로 자동 수집시스템을 구축하고자 한다. 세계적으로 많은 이용자수를 확보하고 있는 인스타그램, 트위터, 유튜브의 비정형적 데이터 수집 시스템을 통하여 고객의 니즈 분석에 도움이 되고자 한다. 파이썬의 웹드라이버 환경에서 가상 웹브라우저를 이용하여 마이닝 처리와 NLP 과정을 거쳐 DB에 저장된다. 본 연구의 결과 웹페이지를 통하여 서비스를 진행하고자하며 검색 기능만으로 원하는 데이터가 자동 수집되며 데이터의 시계열 분석을 통하여 네티즌의 이슈 반응을 실시간으로 확인할 수 있었다. 또한 검색부터 실행결과가 나오기까지 5초 이내 이루어지므로 제시된 알고리즘의 우수성을 확인하였다.

텍스트 마이닝을 이용한 매체별 에볼라 주제 분석 - 바이오 분야 연구논문과 뉴스 텍스트 데이터를 이용하여 - (Text Mining Driven Content Analysis of Ebola on News Media and Scientific Publications)

  • 안주영;안규빈;송민
    • 한국문헌정보학회지
    • /
    • 제50권2호
    • /
    • pp.289-307
    • /
    • 2016
  • 에볼라 바이러스(Ebola virus disease)와 같은 전염병들은 사회적으로 큰 이슈가 되어 언론의 관심을 받으며 동시에 많은 연구의 대상이 되기도 한다. 이에 따라 국내외로 전염병과 관련된 텍스트 마이닝 연구가 활발하게 진행되고 있으나, 텍스트 마이닝 기법을 사용하여 상이한 특성을 가진 매체 간 주제를 분석한 연구는 아직까지 진행되지 않고 있다. 따라서 본 연구에서는 전염병 중 하나인 에볼라를 키워드로 하여 사회적 특성을 지닌 뉴스 기사와 바이오 분야의 전문적 특성을 지닌 연구 논문 간의 주제 분석을 진행하였다. 텍스트 분석에는 매체별 문헌 데이터로부터 다양한 토픽들을 추출하기 위해 토픽모델링 기법을 적용하였고, 매체 간의 구체적인 내용 분석을 위해 중요 개체를 선정하고 이를 중심으로 동시출현 단어 네트워크 분석을 수행하였다. 또한 각 매체별로 등장하는 주제를 시각적으로 표현하기 위해 토픽맵을 구축하였다. 분석 결과, 두 매체에서 다루는 주제의 차이점과 공통점을 발견할 수 있었으며 동시 출현 주제의 시계열 분석을 통해 매체 간 특성의 차이를 찾을 수 있었다. 본 연구를 통해 상이한 특성을 지닌 매체들의 주제와 개체들을 함께 제시하고, 매체 간의 공통점과 차이점을 보여줌으로써 매체별 정보 생산자들이 연구 및 현상 분석을 진행하는 데 있어 관점의 다양성을 제공할 수 있을 것이다.

군산풍력발전단지의 풍력발전량 단기예측모형 비교에 관한 연구 (A study on comparing short-term wind power prediction models in Gunsan wind farm)

  • 이영섭;김진;장문석;김현구
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.585-592
    • /
    • 2013
  • 최근 신재생에너지와 대체에너지의 필요성이 증가함에 따라 환경오염과 온실효과를 초래하지 않는 풍력에너지 개발에 많은 연구와 투자가 이루어지고 있다. 풍력에너지는 무공해 에너지이며 자원양이 무한대이고 바람이 부는 곳이라면 어디에서든지 전력생산이 가능하다. 그러나 풍력에너지는 바람에 크게 의존하며 불규칙적인 특성이 있어 효율적인 풍력발전이 어렵다는 단점이 있다. 이러한 이유로 풍력발전에 있어서 정확한 풍력발전량 예측은 매우 중요한 요소이다. 본 연구에서는 이러한 풍력발전량의 효율적인 예측을 위해 군산 풍력단지의 자료를 이용해 시계열모형인 ARMA모형과 데이터 마이닝 기법 중 신경망모형을 사용하여 풍력발전량을 예측하고 비교분석 하였다. 그 결과 신경망모형 적합결과가 ARMA모형 적합결과 보다 더 좋은 예측력을 나타내었다.

삼각 부등식을 이용한 효율적인 회전-불변 윤곽선 이미지 매칭 (Efficient Rotation-Invariant Boundary Image Matching Using the Triangular Inequality)

  • 문양세;김상필;김범수;노웅기
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권10호
    • /
    • pp.949-954
    • /
    • 2010
  • 윤곽선 이미지 매칭에서 두 이미지 시계열 간 회전 불변 거리는 많은 유클리디안 거리 계산을 필요로 하는 고비용의 연산이다. 본 논문에서는 삼각 부등식(triangular inequality)을 사용하여 유클리디안 거리 계산을 크게 줄이는 획기적인 해결책을 제시한다. 이를 위해, 먼저 질의 시퀀스의 자체 회전 거리의 개념을 제시하고, 이를 삼각 부등식과 함께 사용하면 많은 수의 거리 계산을 줄일 수 있음을 보인다. 다음으로, 자체 회전 거리 하나만으로 모든 가능한 자체 회전 거리를 대신할 수 있음을 정형적으로 증명한다. 실험 결과, 제안한 기법은 기존 기법에 비해 최대 수 배까지 성능을 향상시킨 것으로 나타났다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

빅데이터를 활용한 도시공원 이용행태 특성의 시계열 분석 (A Time Series Analysis of Urban Park Behavior Using Big Data)

  • 우경숙;서주환
    • 한국조경학회지
    • /
    • 제48권1호
    • /
    • pp.35-45
    • /
    • 2020
  • 본 연구는 현대사회에서 도시민의 행태를 지원하는 공간으로 공원에 주목하였다. 현대의 도시공원은 특정한 역할을 하는 공간으로 국한되지 않으며, 공공의 성격을 가지고 있어 이용자의 이용행태에 따라 그 기능·의미가 변화할 수 있다. 또한, 현재 온라인상의 데이터는 방문할 공원의 선택 혹은 공원 이용행태의 결정을 지원하는 단계로 접어들었다. 이에 본 연구는 빅데이터의 자료 기반의 특징인 시계열 분석이 가능하도록 데이터를 수집할 수 있는 최초 년도인 2000년부터 2018년까지 여의도공원·여의도 한강공원과 양재 시민의 숲의 행태 변화를 빅데이터 기법인 텍스트마이닝(Text Mining)과 소셜 네트워크(Social Network;사회연결망)분석을 활용하여 분석하였다. 연구결과의 요약은 다음과 같다. 먼저 시간의 흐름에 따라 주요 이용행태와 행태에 영향을 미치는 요소에 변화가 있었다. 여의도공원·여의도 한강공원의 이용행태는 제 I시기는 '타다'(동적행태), 제 II시기는 '찍다'(정보통신서비스 행태), 제 III시기는 '걷다'(동적행태), 제 IV시기는 '먹다'(에너지원 행태)로 시간의 흐름에 따라 주요 행태가 다양하게 변화하는 모습이고, 양재 시민의 숲은 제 I시기는 '걷다'(동적행태), 제 II시기는 '걷다'(동적행태), 제 III시기는 '걷다'(동적행태), 제 IV시기는 '놀다'(동적행태)로 주로 동적행태 위주의 행태가 나타나는 것으로 나타났다. 주요 행태에 영향을 미치는 요소로 여의도공원·여의도 한강공원은 스포츠 및 레저, 문화·예술, 여가와 관련된 요소가 도출되었고, 양재 시민의 숲은 자연자원 요소가 도출되어 주요 이용행태에 영향을 미치는 요소에 차이가 있었다. 다음으로 대상지의 행태는 시기별로 특정 행태에 집중화되어 있으며, 차후 발생하는 행태를 선택하거나 제약하는 역할을 하는 것으로 나타났다. 이러한 결과는 대상지에 다양한 행태가 일어나지 않을 뿐만 아니라, 공간, 시설 등이 골고루 활용되지 않고 있다는 것을 알 수 있다. 연구결과의 흥미로운 점은 두 공원에서 공통적으로 눈에 띄게 급증한 행태는 에너지원 행태(먹다, 마시다)와 소비행태(사다, 대여하다)이다. 에너지원 행태는 두 공원에서 모두 제 III시기에서 제 IV시기 사이에 10배 이상으로 치솟았으며, 다른 행태와 빈도에서 큰 차이를 보이며 월등히 높았다. 또한, 공원에 방문하는 시민들은 식음료비, 자전거 등의 대여비, 이밖에 행사 참여 등과 관련된 소비의사가 있으며, 공원이 도심 내 휴식공간에서 지역경제 활성화라는 측면에서 본다면 긍정적으로 평가할 수 있을 것이다. 본 연구는 데이터 기법을 활용하여 도시공원 이용행태를 분석하였다는 점과 오늘날 도시공원은 휴식, 산책 등의 역할을 넘어서 시대적인 트렌드를 반영하며, 소비 성향이 나타나는 놀이공간으로 성향이 변화하였다는 결과를 도출하였다는 점에서 큰 의의가 있다. 현대 도시공원에서 일어나는 행태는 양과 내용이 과거와 다르게 변화하고 있다. 그러므로 빅데이터를 통해 수집되는 대규모 집단의 행태를 유형화하고, 이러한 결과를 바탕으로 이루어지는 다학제적인 논의를 통해 오늘날 도시공원을 시민들이 어떻게 이용하고 있는지를 보다 명확하게 이해할 수 있을 것이다.

LSTM을 활용한 고위험성 조류인플루엔자(HPAI) 확산 경로 예측 (Prediction of Highy Pathogenic Avian Influenza(HPAI) Diffusion Path Using LSTM)

  • 최대우;이원빈;송유한;강태훈;한예지
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.1-9
    • /
    • 2020
  • 이 연구는 2018년도 정부(농림축산식품부)의 재원으로 농림식품기술기획평가원 지원을 받아 수행된 연구이다. 최근 시계열 및 텍스트 마이닝에서 활발히 사용되는 모델은 딥러닝(Deep Learning) 모델 구조를 활용한 LSTM(Long Short-Term Memory models) 모델이다. LSTM 모델은 RNN의 BPTT(Backpropagation Through Time) 과정에서 발생하는 Long-Term Dependency Problem을 해결하기 위해 등장한 모델이다. LSTM 모델은 가변적인 Sequence data를 활용하여 예측하는 문제를 굉장히 잘 해결했고, 지금도 널리 사용되고 있다. 본 논문 연구에서는 KT가 제공하는 CDR(Call Detailed Record) 데이터를 활용하여 바이러스와 밀접한 관계가 있을 것으로 예측되는 사람의 이동 경로를 파악하였다. 해당 사람의 경로를 활용하여 LSTM 모델을 학습시켜 이동 경로를 예측한 결과를 소개한다. 본 연구 결과를 활용하여 HPAI가 전파되는 경로를 예측하여 방역에 중점을 둘 경로 또는 지역을 선정해 HPAI 확산을 줄이는 데 이용될 수 있을 것이다.

빅데이터를 활용한 공원 이용행태의 시계열분석 - 올림픽공원을 대상으로 - (Time Series Analysis of Park Use Behavior Utilizing Big Data - Targeting Olympic Park -)

  • 우경숙;서주환
    • 한국조경학회지
    • /
    • 제46권2호
    • /
    • pp.27-36
    • /
    • 2018
  • 본 연구는 공원 이용자의 욕구를 파악하여 이용자에 적합한 공원 환경으로 변화되어야 할 필요성에 주목하고, 이용자의 욕구를 파악하기 위하여 행태분석의 필요성을 제기하였다. 이에 온라인 데이터(블로그)를 연구의 기초자료로 선정하고, 5년 단위로 구분하여 데이터를 수집한 후 텍스트 마이닝을 활용해 시계열적 행태의 특성을 도출하고, 사회연결망 분석을 통해 온라인 데이터의 유의성을 검증하였다. 텍스트 마이닝 분석 결과, 첫째, '길을 걷다'(산책), '사진을 찍다', '자전거(인라인, 킥보드 등)를 타다', '먹다', '공연을 관람하다'는 올림픽공원에서 행해지는 공통적인 행태로 나타났다. 둘째, 수집된 데이터의 초기에는 운동 등 적극적인 신체활동을 행태가 주를 이루었지만, 최근에는 핸드폰, 게임, 음식을 먹고 커피를 마시는 등의 소극적인 비활동적 행태도 공원에서 나타나는 새로운 행태적 특징으로 나타났다. 셋째, 공원 이용자의 행태에 영향을 미치는 요인은 인터넷 발달, 자신의 개성과 스타일을 표현하는 문화 등 사회의 여러 가지 여건의 변화로 나타났다. 넷째, 올림픽공원에서 나타나는 특별한 행태는 공연 관람 등 문화적인 활동과 역사수업 등 교육적인 활동으로 도출되었다. 결론적으로 공원 계획 설계 시 의도하였던 목적보다는 여러 가지 시대적 변화로 사람들의 라이프 스타일이 변화하고, 공원의 행태에까지 영향을 미치는 것으로 나타났다. 이에 올림픽공원의 주요 행태와 영향을 미치는 요인을 고려하여 이용자에게 적합한 환경으로 변화되어야 할 필요성이 있다. 분석방법으로 활용한 텍스트 마이닝은 과거의 데이터도 수집이 가능하다는 장점이 있어 행태 분석 시 장기적인 관점에서 분석이 가능하고, 도출된 키워드로 새로운 행태 및 가치 측정이 가능하여 이후 행태분석 연구의 영역의 확대가 가능한 것으로 판단된다. 또한, 사회연결망 분석을 통해 온라인 데이터의 타당성을 검증하여 연구결과의 신뢰를 높일 수 있었다. 추후 수집하는 데이터의 종류를 다양하게 하여 더 포괄적인 행태분석에 대한 연구가 수행되어야 하며, 대용량 데이터의 정확성, 신뢰성을 검증할 수 있는 다양한 방법에 대한 연구가 필요할 것이다.

토픽 모델링 기반의 국내외 공공데이터 연구 동향 비교 분석 (Topic Modeling-Based Domestic and Foreign Public Data Research Trends Comparative Analysis)

  • 박대영;김덕현;김건욱
    • 디지털융복합연구
    • /
    • 제19권2호
    • /
    • pp.1-12
    • /
    • 2021
  • 최근 4차 산업혁명으로 빅데이터의 성장과 가치는 지속적으로 증가하고 있으며, 정부에서도 공공데이터 개방과 활용에 적극적으로 노력하고 있다. 하지만 여전히 시민들의 공공데이터 활용 요구수준에는 미치지 못하는 상황이며, 현 시점에서 공공데이터 분야의 연구동향 파악과 발전 방향을 모색할 필요가 있다. 이에 본 연구에서는 공공데이터와 관련된 연구 동향을 파악하기 위해서 텍스트 마이닝 기법에서 주로 활용되는 토픽 모델링을 활용하여 분석하였다. 이를 위해 국내외 학술논문 중 '공공데이터', 'Public Data'의 키워드가 포함된 논문(국내 1,437건, 국외 9,607건)을 수집하여 LDA 알고리즘 기반의 토픽 모델링을 수행하였으며, 국내외 공공데이터 연구 동향을 비교 분석하여 정책적 시사점을 제시하였다. 분석 결과 국내의 경우 공공분야 정책 연구가 주를 이루고 있으며, 국외는 의료, 건강 관련 연구가 높게 나타났다. 토픽별 시계열로 살펴보면 국내는 '개인정보보호', '공공데이터 관리', '도시 환경' 분야의 연구가 증가하였으며, 국외는 '도시정책', '세포 생물학', '딥러닝', '클라우드·보안' 분야 연구가 활성화되고 있음을 확인할 수 있었다.