• 제목/요약/키워드: 시간 마이닝

검색결과 400건 처리시간 0.026초

머신러닝 기법을 이용한 산림의 층위구조 분류 (Classification of Forest Vertical Structure Using Machine Learning Analysis)

  • 권수경;이용석;김대성;정형섭
    • 대한원격탐사학회지
    • /
    • 제35권2호
    • /
    • pp.229-239
    • /
    • 2019
  • 모든 식생 군락은 각자 층위구조를 가지고 있다. 이를 '식생층위구조'라 부른다. 요즈음은 이 층위구조가 산림의 활력도, 다양성, 그리고 환경영향을 평가하는데 중요한 식별자로 작용하기 때문에 산림조사에 있어서 식생층위구조는 필수적으로 조사되어야한다. 그런데, 식생층위구조는 일종의 내부구조이므로 일반적으로 산림조사는 현장조사를 통해 이루어지는데, 이는 전통적인 방식으로 시간과 예산이 많이 든다. 따라서 본 연구에서는 산림의 층위구조를 조사하는데 드는 시간과 예산을 줄이기 위해 넓은 지역 탐사에 효과적인 원격탐사기법 중 항공촬영 사진과 대량의 데이터 마이닝(Data Mining)이 가능한 머신러닝(Machine Learning)기법 이용한 층위구조의 분류 방법을 제시한다. 칼라 항공사진, LiDAR(Light Detection and Ranging) DSM(Digital Surface Model)과 DTM(Digital Terrain Model)을 이용하여 Support Vector Machine(SVM) 머신러닝 기법을 이용하여 층위분류 연구를 진행하였다. 현장조사 자료를 참조하여 SVM기법 분류 결과와 비교했을 때 픽셀수에 기반한 정확도는 66.22%로 확인 되었다. 층위 분류 정확도는 단층과 다층의 구분은 비교적 높게 나타났으나, 다층끼리의 분류는 어렵다는 결론이 나타났다. 이러한 연구결과는 향후 다양한 식생데이터와 영상자료를 수집한다면 식생구조에 대한 머신러닝 연구분야에 더욱 발전이 가능할 것으로 기대된다.

시계열 모형과 기계학습 모형을 이용한 풍력 발전량 예측 연구 (Wind power forecasting based on time series and machine learning models)

  • 박수진;이진영;김삼용
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.723-734
    • /
    • 2021
  • 빠르게 발전하고 있는 재생에너지 중 하나인 풍력에너지는 기후변화 대응에 맞추어 개발 및 투자가 이루어지고있다. 신재생에너지 정책과 발전소 설치가 추진됨에 따라 국내 풍력 보급이 점차 확대되어 수요를 정확히 예측하기 위한 시도들이 확대되고 있다. 본 논문에서는 전남지역과 경북지역의 풍력 발전량 예측을 위하여 시계열 기법인 ARIMA, ARIMAX 모형과 기계학습 모형인 SVR, Random Forest, XGBoost 모형들을 비교 분석하였다. 모형의 예측 결과를 비교하기 위한 지표로서 mean absolute error (MAE)와 mean absolute percentage error (MAPE)를 사용하였다. 2018년 1월 1일부터 2020년 10월 24일까지의 시간별 원 데이터를 차분한 후 모형을 훈련시켜 2020년 10월 25일부터 2020년 10월 31일까지의 168시간에 대한 풍력 발전량을 예측하였다. 모형의 예측력 비교 결과, Random Forest와 XGBoost 모형이 전남지역, 경북지역 순으로 가장 우수한 성능을 보였다. 향후 연구에서는 기계학습뿐 아니라 최근 활발한 연구가 이루어지는 데이터 마이닝 기법 기반의 풍력 발전량 예측을 시도할 것이다.

텍스트 마이닝 기법을 적용한 뉴스 데이터에서의 사건 네트워크 구축 (Construction of Event Networks from Large News Data Using Text Mining Techniques)

  • 이민철;김혜진
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.183-203
    • /
    • 2018
  • 전통적으로 신문 매체는 국내외에서 발생하는 사건들을 살피는 데에 가장 적합한 매체이다. 최근에는 정보통신 기술의 발달로 온라인 뉴스 매체가 다양하게 등장하면서 주변에서 일어나는 사건들에 대한 보도가 크게 증가하였고, 이것은 독자들에게 많은 양의 정보를 보다 빠르고 편리하게 접할 기회를 제공함과 동시에 감당할 수 없는 많은 양의 정보소비라는 문제점도 제공하고 있다. 본 연구에서는 방대한 양의 뉴스기사로부터 데이터를 추출하여 주요 사건을 감지하고, 사건들 간의 관련성을 판단하여 사건 네트워크를 구축함으로써 독자들에게 현시적이고 요약적인 사건정보를 제공하는 기법을 제안하는 것을 목적으로 한다. 이를 위해 2016년 3월에서 2017년 3월까지의 한국 정치 및 사회 기사를 수집하였고, 전처리과정에서 NPMI와 Word2Vec 기법을 활용하여 고유명사 및 합성명사와 이형동의어 추출의 정확성을 높였다. 그리고 LDA 토픽 모델링을 실시하여 날짜별로 주제 분포를 계산하고 주제 분포의 최고점을 찾아 사건을 탐지하는 데 사용하였다. 또한 사건 네트워크를 구축하기 위해 탐지된 사건들 간의 관련성을 측정을 위하여 두 사건이 같은 뉴스 기사에 동시에 등장할수록 서로 더 연관이 있을 것이라는 가정을 바탕으로 코사인 유사도를 확장하여 관련성 점수를 계산하는데 사용하였다. 최종적으로 각 사건은 각의 정점으로, 그리고 사건 간의 관련성 점수는 정점들을 잇는 간선으로 설정하여 사건 네트워크를 구축하였다. 본 연구에서 제시한 사건 네트워크는 1년간 한국에서 발생했던 정치 및 사회 분야의 주요 사건들이 시간 순으로 정렬되었고, 이와 동시에 특정 사건이 어떤 사건과 관련이 있는지 파악하는데 도움을 주었다. 또한 일련의 사건들의 시발점이 되는 사건이 무엇이었는가도 확인이 가능하였다. 본 연구는 텍스트 전처리 과정에서 다양한 텍스트 마이닝 기법과 새로이 주목받고 있는 Word2vec 기법을 적용하여 봄으로써 기존의 한글 텍스트 분석에서 어려움을 겪고 있었던 고유명사 및 합성명사 추출과 이형동의어의 정확도를 높였다는 것에서 학문적 의의를 찾을 수 있다. 그리고, LDA 토픽 모델링을 활용하기에 방대한 양의 데이터를 쉽게 분석 가능하다는 것과 기존의 사건 탐지에서는 파악하기 어려웠던 사건 간 관련성을 주제 동시출현을 통해 파악할 수 있다는 점에서 기존의 사건 탐지 방법과 차별화된다.

산지하천을 대상으로 한 국내 연구동향 분석: 국제 연구동향과의 비교 (Analysis of Research Trends on Mountain Streams in the Republic of Korea: Comparison to International Research Trends)

  • 이상인;서정일;이요한;김석우;전근우
    • 한국환경생태학회지
    • /
    • 제33권2호
    • /
    • pp.216-227
    • /
    • 2019
  • 이 연구에서는 우리나라의 자연환경 조건 및 사회적 요구를 반영한 산지하천의 합리적 관리방안을 제시하기 위한 연구의 일환으로 산지하천을 대상으로 한 국제 국내 연구논문을 수집 및 분석한 후, VOSviewer 프로그램을 이용한 텍스트마이닝과 동시출현단어 분석을 통하여 연구주제에 따른 연구영역을 구별하였으며, 이후 각 연구영역별로 시 공간적인 연구동향을 비교하였다. 그 결과, 산지하천을 대상으로 한 국내 연구논문은 국제 연구논문에 비하여 초보적인 단계에 있음을 확인할 수 있었다. 즉, 국제 연구논문은 산지하천의 어류 및 무척추동물의 서식환경과 종구성에 관한 연구영역(제1연구영역), 산지하천에서의 수문현상 및 양분이동에 관한 연구영역(제2연구영역), 산지하천에서의 유수에 의한 하상물질 이동 및 지형 변화에 관한 연구영역(제3연구영역), 산지하천 주변의 식물종 구성에 관한 연구영역(제4연구영역)으로 구분되었다. 이 중 제1연구영역과 관련된 국내 연구논문은 주로 대형무척추동물만을 연구소재로 하고 있었으며, 제3연구영역과 관련된 국내 연구논문은 유수에 의한 하상물질 이동 및 지형 변화를 생태계의 교란작용이 아닌 산지토사재해의 원인으로 간주하고 있다는 것을 알 수 있었다. 이렇게 구분된 각 연구영역이 전체 연구논문 중에서 점유하고 있는 비율을 시기별 국가별로 파악한 결과, 국제 연구논문의 경우 3 4연구영역에 해당하는 연구논문이 증가하는 것으로 나타났으며, 여기에는 미국을 중심으로 브라질 캐나다 중국의 영향이 크게 작용하였다. 이와 달리 국내 연구논문의 경우 1 3연구영역에 해당하는 연구논문이 시간의 경과에 따라 다소 증가하였으나, 이 두 연구영역 간 상호 연관성은 다소 부족한 것으로 나타났다. 따라서 향후에는 이를 보완한 하이브리드 성격의 연구가 필요할 것으로 사료된다.

확장된 사용자 유사도를 이용한 CF-기반 건강기능식품 추천 시스템 (A CF-based Health Functional Recommender System using Extended User Similarity Measure)

  • 홍세인;정의주;김재경
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.1-17
    • /
    • 2023
  • 정보통신기술의 발전과 디지털 기기의 대중화로 인해, 온라인 시장의 규모가 커지고 있다. 그 결과 고객들은 상품을 선택하는데 많은 시간과 비용이 소요되는 정보 과부하(Information Overload) 문제에 직면하고 있다. 따라서 고객이 선호할만한 상품을 추천해 주는 추천 시스템은 필수적인 도구가 되었으며 협업 필터링(Collaborative Filtering) 기법은 가장 널리 쓰이는 추천 방법이다. 전통적인 추천 시스템은 평점과 같은 정량적인 데이터만을 사용하기 때문에 추천의 정확도는 높지 않다. 이와 같은 문제를 해결하기 위해 요즘에는 사용자 리뷰와 같은 정성적 데이터를 반영하는 연구가 활발히 진행되고 있다. 협업 필터링의 일반적인 절차는 사용자-상품 행렬 생성, 이웃 집단 탐색, 추천 목록 생성 3단계로 구성되며 코사인 같은 사용자 유사도를 사용하여 목표 고객의 이웃을 탐색하며, 추천 상품 목록을 생성한다. 본 연구에서는 이웃 집단 탐색 및 추천 목록 생성 단계에서 사용하는 사용자 간의 유사도를 기존의 사용자 평점을 이용한 유사도에 고객의 리뷰 데이터를 사용하는 확장된 사용자 유사도를 제시한다. 리뷰를 정량화 하기 위해 본 연구에서는 텍스트 마이닝을 활용한다. 즉, 리뷰 데이터에 TF-IDF, Word2Vec, 그리고 Doc2Vec 기법을 사용하여 두 사용자 간의 리뷰 유사도를 구한 후 사용자 평점을 사용한 유사도와 리뷰 유사도를 결합한 확장된 유사도를 생성하는 것이다. 이를 검증하기 위해 전자상거래 사이트인 Amazon의 'Health and Personal Care'의 사용자 평점과 리뷰 데이터를 사용하였다. 실험 결과, 사용자 간 유사도를 산출할 때 기존의 평점에 기반한 유사도만을 사용하는 것보다, 사용자 리뷰의 유사도를 추가로 반영한 확장된 유사도를 사용하면 추천의 정확도가 높아진다는 것을 확인했다. 또한, 여러 텍스트 마이닝 기법 중에서 TF-IDF 기법을 사용한 확장된 유사도를 이웃 집단 탐색 및 추천 목록 생성단계에서 사용할 때의 성능이 가장 좋게 나타났다.

구인구직사이트의 구인정보 기반 지능형 직무분류체계의 구축 (Development of Intelligent Job Classification System based on Job Posting on Job Sites)

  • 이정승
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.123-139
    • /
    • 2019
  • 주요 구인구직사이트의 직무분류체계가 사이트마다 상이하고 SW분야에서 제안한 'SQF(Sectoral Qualifications Framework)'의 직무분류체계와도 달라 SW산업에서 SW기업, SW구직자, 구인구직사이트가 모두 납득할 수 있는 새로운 직무분류체계가 필요하다. 본 연구의 목적은 주요 구인구직사이트의 구인정보와 'NCS(National Competaency Standars)'에 기반을 둔 SQF를 분석하여 시장 수요를 반영한 표준 직무분류체계를 구축하는 것이다. 이를 위해 주요 구인구직사이트의 직종 간 연관분석과 SQF와 직종 간 연관분석을 실시하여 직종 간 연관규칙을 도출하고자 한다. 이 연관규칙을 이용하여 주요 구인구직사이트의 직무분류체계를 맵핑하고 SQF와 직무 분류체계를 맵핑함으로써 데이터 기반의 지능형 직무분류체계를 제안하였다. 연구 결과 국내 주요 구인구직사이트인 '워크넷,' '잡코리아,' '사람인'에서 3만여 건의 구인정보를 open API를 이용하여 XML 형태로 수집하여 데이터베이스에 저장했다. 이 중 복수의 구인구직사이트에 동시 게시된 구인정보 900여 건을 필터링한 후 빈발 패턴 마이닝(frequent pattern mining)인 Apriori 알고리즘을 적용하여 800여 개의 연관규칙을 도출하였다. 800여 개의 연관규칙을 바탕으로 워크넷, 잡코리아, 사람인의 직무분류체계와 SQF의 직무분류체계를 맵핑하여 1~4차로 분류하되 분류의 단계가 유연한 표준 직무분류체계를 새롭게 구축했다. 본 연구는 일부 전문가의 직관이 아닌 직종 간 연관분석을 통해 데이터를 기반으로 직종 간 맵핑을 시도함으로써 시장 수요를 반영하는 새로운 직무분류체계를 제안했다는데 의의가 있다. 다만 본 연구는 데이터 수집 시점이 일시적이기 때문에 시간의 흐름에 따라 변화하는 시장의 수요를 충분히 반영하지 못하는 한계가 있다. 계절적 요인과 주요 공채 시기 등 시간에 따라 시장의 요구하는 변해갈 것이기에 더욱 정확한 매칭을 얻기 위해서는 지속적인 데이터 모니터링과 반복적인 실험이 필요하다. 본 연구 결과는 향후 SW산업 분야에서 SQF의 개선방향을 제시하는데 활용될 수 있고, SW산업 분야에서 성공을 경험삼아 타 산업으로 확장 이전될 수 있을 것으로 기대한다.

k-Structure를 이용한 한국어 상품평 단어 자동 추출 방법 (Automatic Extraction of Opinion Words from Korean Product Reviews Using the k-Structure)

  • 강한훈;유성준;한동일
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권6호
    • /
    • pp.470-479
    • /
    • 2010
  • 감정어 추출과 관련하여 기존 영어권 연구에서 제시된 방법의 대부분은 한국어에 직접 적용이 쉽지 않다. 한국어권 연구에서 제시된 방법 중 수작업에 의한 방법은 감정어 추출에 많은 시간이 걸린다는 문제점이 있다. 영어 시소러스 기반 한국어 감정어 추출 기술은 한국어와 영어 단어간 일대일 부정합에서부터 기인하는 정확도의 저하를 제고해야 하는 과제를 갖고 있다. 한국어 구문 분석기를 기반으로 한 연구는 출현 빈도가 낮은 감정어를 선정하지 못할 수 있는 문제점을 내포하고 있다. 본 논문에서는 한국어 상품평 중 단순한 문장에서 감정어를 자동으로 추출하는 데 있어 기존에 제안된 한국어권 연구에 상호 보완적으로 정확도를 향상시킬 수 있는 k-Structure(k=5 또는 8) 기법을 제안한다. 단순한 문장이라 함은 패턴 길이를 최대 3으로 한다. 이는 평가 대상 상품(예를 들어 '카메라')의 속성 명 f (예를 들어 카메라의 '배터리')를 기준으로 ${\pm}2$의 거리에 감정어가 포함되어 있는 문장을 의미한다. 성능 실험은 국내 주요 쇼핑몰로부터 수집한 1,868개의 상품평을 대상으로 미리 주어진 8개의 속성 명에 대한 감정어를 k-Structure를 이용하여 자동으로 추출하고 그 정확도를 평가하였다. 그 결과, k=5일 경우 평균 79.0%의 재현률, 87.0%의 정확률을 보였고, k=8일 경우 평균 92.35%의 재현률, 89.3%의 정확률을 얻을 수 있었다. 또한, 영어권 연구에서 제안된 방법 중 PMI-IR(Pointwise Mutual Information-Information Retrieval) 기법을 이용하여 실험을 수행하였다. 이 결과, 평균 55%의 재현률과 57%의 정확률을 보였다.

개발자 별 버그 해결 유형을 고려한 자동적 개발자 추천 접근법 (A Technique to Recommend Appropriate Developers for Reported Bugs Based on Term Similarity and Bug Resolution History)

  • 박성훈;김정일;이은주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권12호
    • /
    • pp.511-522
    • /
    • 2014
  • 소프트웨어 개발 및 유지보수 과정에서 여러 종류의 버그가 발생된다. 버그는 소프트웨어의 개발 및 유지 보수 시간을 증가시키는 주요원인으로 소프트웨어의 품질 저하를 초래한다. 버그의 발생을 사전에 완벽하게 방지하는 것은 불가능하다. 대신 버그 질라(Bugzilla), 멘티스BT(MantisGBT), 트랙 (Trac), 질라 (JIRA)와 같은 버그 트래킹 시스템을 이용하여 버그를 효과적으로 관리하는 것이 가능하다. 개발자 또는 사용자가 발생된 버그를 버그 트래킹 시스템에 보고하면, 프로젝트 매니저에 의해서 보고된 버그는 버그 해결에 적합한 개발자에게 전달되어 해결될 때까지 버그 트래킹 시스템에 의해서 추척된다. 여기서 프로젝트 매니저가 버그 해결에 적합한 개발자를 선별하는 것을 버그 분류 작업 (Bug triaging)이라고 하며, 대량으로 발생되는 버그 리포트들을 수동으로 분류하는 것은 프로젝트 매니저에게 있어서 매우 어려운 문제가 된다. 본 논문에서는 버그 트래킹 시스템에 저장된 과거에 해결된 버그 리포트에서 개발자 별 버그 해결 유형을 추출하고, 이를 활용한 버그 분류 작업, 즉 개발자 추천 방법을 제안한다. 먼저 버그 트래킹 시스템에서 각 개발자가 해결한 버그 리포트들을 분류한 후, 자연 언어 처리 알고리즘과 TF-IDF (Term frequency-Inverse document frequency)를 활용하여 각 개발자 별 단어 리스트를 생성한다. 그 후, 새로운 버그가 발생되었을 때 코사인 유사도를 통해서 생성된 개발자 별 단어 리스트와 새로운 버그 리포트의 단어 리스트를 비교하여 가장 유사한 단어 리스트를 가지는 개발자를 추천하는 방법이다. 두 오픈 소스 프로젝트인 이클립스 JDT.UI와 CDT.CORE를 대상으로 수행한 개발자 추천 실험에서 기계 학습 모델 기반의 추천 방법보다 제안하는 방법이 더 우수한 결과를 얻은 것을 확인하였다.

텍스트 마이닝을 이용한 특허정보검색 개발에 관한 연구 (A Study on Development of Patent Information Retrieval Using Textmining)

  • 고광수;정원교;신영근;박상성;장동식
    • 한국산학기술학회논문지
    • /
    • 제12권8호
    • /
    • pp.3677-3688
    • /
    • 2011
  • 특허정보검색의 목적은 다양한 목적성을 지니고 있다. 일반적으로 특허정보검색은 제한된 키워드들에 의한 검색으로 이루어지며, 선행 특허권과 유사특허를 파악하기 위하여 반복적인 검색과 검토의 노력이 필요하다. 본 논문에서는 특허문서의 전체 텍스트를 분석하여 특징치를 찾아내는 내용기반 검색방법을 제안하고 검색결과를 질의문서와 유사한 문서 순으로 우선 배치하여 검색에 효율을 높일 수 있는 방법을 제안한다. 즉, 제안된 알고리즘은 텍스트 분석과정을 통해 각 문서별로 특징치가 부여되고 문서 간 특징치 비교를 통해 유사문서를 찾고 문서를 랭킹하여 유사정보를 제공한다. 텍스트 분석과정은 Stop-word과정, 핵심단어 추출과정, 핵심단어 가중치 산출 과정으로 이루어진다. 실험결과에서는 정확도 측정을 실시하여 일반검색엔진과 본 논문에서 제안한 알고리즘의 검색 정확도를 비교하였다. 본 논문은 검색결과를 질의한 문서와 유사한 문서 순으로 랭킹하기 때문에 검색이용자가 검색결과 검토과정에서 유사한 문서를 먼저 검토할 수 있도록 하여 검토시간을 줄이고 검색의 효율을 높일 수 있다. 또한 특허문서 전체 텍스트를 입력받아 사용하기 때문에 특허검색에 익숙하지 않는 이용자도 검색을 쉽고 빠르게 이용할 수 있다. 그리고 내용 기반 검색이 이루어지기 때문에 키워드 및 검색 식을 이용하는 방법보다 검색범위를 넓힐 수 있어서 검색에 누락되는 데이터를 줄일 수 있는 효과를 가진다.

온라인 문서 마이닝 접근법을 활용한 크라우드펀딩의 성공여부 예측 방법 (Online Document Mining Approach to Predicting Crowdfunding Success)

  • 남수현;진윤선;권오병
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.45-66
    • /
    • 2018
  • 크라우드펀딩(Crowdfunding)은 최근 벤처 기업의 기금 모금을 위한 엔젤 기금보다 인기가 있다. 이에 따라 크라우드펀딩의 성공 요인을 파악하는 것은 기금 조성자 및 투자자로 하여금 크라우드펀딩 프로젝트와 관련된 효과적 의사결정을 내리기 위해 크라우드펀딩 성공 여부를 선험적으로 예측하는데 유용할 것이다. 이에 최근까지 프로젝트의 목표 및 관련 SNS의 수와 같은 몇 가지 수치적 요인을 독립변인으로 제안하여 이들이 크라우드펀딩 캠페인의 성공에 어떤 영향을 미치는지 등이 연구되어오고 있었다. 그러나 수치가 아닌 비정형 데이터를 통한 크라우드펀딩 캠페인의 성공에 대한 예측은 거의 이루어진 바 없으며, 특히 프로젝트를 소개하는 문서에 대한 특성 분석을 통해 해당 프로젝트의 성공여부를 예측하려는 연구는 아직 이루어지지 않았다. 사실 프로젝트를 소개하는 문서는 공개되어 있어 확보에 드는 비용이 적게 들기 때문에 매우 유용하다. 따라서 본 연구의 목적은 Wadiz 등 온라인상으로 공개되어 있는 프로젝트에 대한 소개 문서를 기반으로 크라우드펀딩 프로젝트의 성공을 예측하는 새로운 방법을 제안하는 것이다. 제안된 방법의 성능을 테스트하기 위해, 본 연구에서는 1,980개의 실제 크라우드펀딩 프로젝트와 관련된 텍스트를 수집하고 경험적으로 분석했다. 텍스트 데이터 세트에서 카테고리, 응답 수, 자금 조달 목표, 기금 모금 방법, 보상, SNS 추종자 수, 이미지 및 비디오 수 및 기타 숫자 데이터와 같은 프로젝트에 대한 세부 정보를 수집하였다. 분석 결과 이러한 요인들은 분류 알고리즘에서 분류 성능을 제고하는데 의미 있는 변인으로 확인되었다. 즉, 제안된 방법이 최근에 제안된 비정형 텍스트 기반 방법보다 정확도나 F-점수 및 수행 경과 시간에서 성능이 우수하였다.