• 제목/요약/키워드: Large Dataset

검색결과 551건 처리시간 0.026초

추천시스템에서 구매 패턴 예측을 위한 SOM기반 고객 특성에 의한 군집 분석 (Clustering Analysis by Customer Feature based on SOM for Predicting Purchase Pattern in Recommendation System)

  • 조영성;문송철;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권2호
    • /
    • pp.193-200
    • /
    • 2014
  • 유비쿼터스 컴퓨팅이 생활의 일부가 되어가면서 정보의 양도 급속도로 늘어나고 있으며, 이로 인해 많은 데이터 속에서 정보를 찾아내는 기술이 부각되고 있다. 고객 기반의 협력적 필터링을 이용한 고객 선호도 예측 방법에서는 아이템에 대한 사용자의 선호도를 기반으로 이웃 선정 방법을 사용하므로 아이템에 대한 속성을 반영하지 못할 뿐만 아니라 희박성 문제를 해결하지 못하고 있다. 그리고 비슷한 선호도를 가진 일부 아이템의 정보를 바탕으로 하기 때문에 아이템의 속성은 무시하는 경향이 있다. 본 논문에서는 전자상거래 추천에서 구매 패턴 예측을 위한 고객 특성기반 SOM 학습을 이용한 군집 방법을 제안한다. 제안 방법은 고객의 속성 정보 기반의 유사한 속성의 데이터끼리의 클러스터링을 통해 보다 빠른 시간 내에 고객 성향에 맞는 추천이 가능한 구매 패턴의 추출이 가능하다. 성능평가를 위해 현업에서 사용하는 인터넷 화장품 아이템 쇼핑몰의 데이터를 기반으로 데이터 셋을 구성하여 기존 시스템과 비교 실험을 통해 성능을 평가하여 효용성과 타당성을 입증하였다.

풍력 데이터를 이용한 발전 패턴 예측 (Predicting Power Generation Patterns Using the Wind Power Data)

  • 서동혁;김규익;김광득;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권11호
    • /
    • pp.245-253
    • /
    • 2011
  • 화석 연료의 무분별한 사용으로 환경이 심각하게 오염되고, 화석 연료의 고갈에 대한 문제가 대두됨에 따라서 화석 연료에 대한 문제를 해결 할 수 있는 대체 에너지원에 대해 관심이 집중되기 시작하였다. 현재 신재생 에너지 중에서 가장 각광을 받고 있는 에너지는 중에 하나가 풍력에너지이다. 풍력에너지 발전단지와 기존의 전력 발전소는 소비되는 전력에 대한 생산의 균형을 맞춰야하며, 풍력에너지단지에서 균형적인 생산을 하기 위해서는 풍력에너지에 대한 분석 및 예측이 필요하다. 이를 위해서 데이터마이닝 분야의 예측 기법이 활용 될 수 있다. 본 논문에서는 풍력 데이터를 이용하여 발전 패턴을 예측하기 위해 SOM(Self-Organizing Feature Map) Clustering 기법과 의사결정나무(decision tree)를 이용한 연구를 진행하였다. 즉, 1) 풍력 데이터의 누락된 데이터와 이상치 데이터를 처리하기 위하여, 전처리 과정을 수행하였고, 이 과정에서 특징 벡터를 추출하였다. 2) 전처리 단계를 거쳐 정제되고 정규화된 데이터 집합을 MIA(Mean Index Adequacy) 척도와 SOM Clustering 기법에 적용하여 대표 발전 패턴을 찾아내고 각각의 데이터에 해당하는 대표 패턴을 클래스 레이블로 할당하도록 하였다. 3) 의사결정나무 기반의 분류 기법에 데이터 집합을 적용시켜 새로운 풍력에너지에 대한 분석 및 예측 모델을 생성하였다. 실험 결과, 의사결정나무를 통한 풍력에너지 발전 패턴을 예측하기 위한 모델을 구축하였다.

이변량 지역빈도해석을 이용한 우리나라 극한 강우 분석 (Bivariate regional frequency analysis of extreme rainfalls in Korea)

  • 신주영;정창삼;안현준;허준행
    • 한국수자원학회논문집
    • /
    • 제51권9호
    • /
    • pp.747-759
    • /
    • 2018
  • 다변량 빈도해석과 지역빈도해석의 장점을 동시에 가지는 다변량 지역빈도해석은 다양한 변수를 고려함으로써 수문 현상에 대하여 많은 정보를 얻을 수 있고 많은 가용 자료 수로 인하여 높은 정확도의 분석결과를 도출할 수 있다. 현재까지는 우리나라의 강우 자료를 이용하여 다변량 지역빈도해석이 시도된 적이 없어 국내의 강우 자료를 대상으로 다변량 지역빈도해석의 적용성을 검토할 필요가 있다. 본 연구에서는 다변량 지역빈도해석의 매개변수 추정, 최적 분포형 선정, 확률수문량 성장곡선 추정 등에 집중하여 이변량 수문자료인 연 최대 강우량-지속기간 자료에 대하여 이변량 지역빈도해석의 적용성을 평가하였다. 기상청 71개 지점에 대하여 분석을 실시하였다. 본 연구를 통해 적용된 지역강우자료의 최적 copula 모형으로는 Frank와 Gumbel copula 모형이 선택되었고 주변분포형에 대해서는 지역별로 Gumbel과 대수정규분포와 같은 다양한 분포형이 최적 분포형으로 선택되었다. 상대제곱근오차(relative root mean square error)를 기준으로 지역빈도해석이 지점빈도해석보다 안정적이고 정확한 확률수문량 곡선 추정을 하였다. 이변량 강우분석에서 지역빈도해석을 적용하면 안정적인 수공구조물 설계기준 제시와 강우-지속기간 관계를 모형화 할 수 있을 것으로 기대된다.

모바일 상황정보와 온라인 친구네트워크정보 기반 텐서 분해를 통한 오프라인 친구 추천 기법 (Offline Friend Recommendation using Mobile Context and Online Friend Network Information based on Tensor Factorization)

  • 김경민;김태훈;현순주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권8호
    • /
    • pp.375-380
    • /
    • 2016
  • 스마트폰과 Online Social Network Service(OSNS)의 대중화를 통해 언제 어디서든 주변인뿐만 아니라 전 세계 사람들과 상호작용 할 수 있게 되었고, 그 결과 사람들의 OSNS 사용률은 계속 증가하고 있다. 그런데, 일부 OSNS를 통한 대인관계 형성에 집중하는 사람들의 경우, 수많은 Face-to-Face Interaction(F2F Interaction)을 통해 형성되는 인간관계의 과정을 "친구추천" 버튼 하나로 건너뜀으로써 대인관계 기술 발달 및 유지에 어려움을 겪을 수 있다. 본 논문에서는 오프라인에서 F2F Interaction 기회를 발견 및 제공할 수 있는 상황정보 기반의 친구추천 기법을 제시한다. 이를 위해 스마트폰 센서로부터 사용자의 상황정보와 Facebook에서 형성된 사용자 친구관계 정보를 수집하여 텐서 분해 및 결합을 기반으로 오프라인 환경에서 친구를 추천한다. 성능 평가를 위해 12명의 실험 참가자로부터 상황정보를 수집하고, 만족도를 평가하였다.

MODIS 해색 자료의 유효관측영역 확장에 대한 연구 (A Study on Extending Successive Observation Coverage of MODIS Ocean Color Product)

  • 박정원;김현철;박경석;이상환
    • 대한원격탐사학회지
    • /
    • 제31권6호
    • /
    • pp.513-521
    • /
    • 2015
  • 해색 원격탐사 자료의 처리과정에서는 일반적으로 관측 영역의 확보를 위해 시공간적 합성을 수행하며, 이 때 Level-2 flag를 참조하여 합성 재료가 되는 영상의 유효성을 판단한다. NASA OBPG의 표준 알고리즘은 stray light에 의한 관측 오차를 최소화하기 위해서 필터링 윈도우를 채택하고 있으나, 이로 인한 관측 영역의 손실이 많다. 이 연구는 유효 관측 영역의 복원/확장을 통한 해색 원격탐사 자료의 품질 향상에 목적을 둔다. 이를 위해서 MODIS/Aqua의 필터링 윈도우의 크기 변화에 따른 관측 영역과 클로로필a 농도 측정값의 변화를 분석하였다. 그 결과 유효 관측 영역에 있어 Level-2 swath 자료, Level-3 일별 합성자료, 8일 합성자료, 월별 합성자료에서 각각 $13.2({\pm}5.2)%$, $30.8({\pm}16.3)%$, $15.8({\pm}9.2)%$, $6.0({\pm}5.6)%$의 복원 효과가 발생하였으며, 표준 자료와의 측정값 차이는 공통 관측 영역에서 평균 0.012% 이하로 매우 유의하였다. 또한 공간 영역 확장으로 인해 시계열 자료에서의 관측 밀도도 상승하였으며 그 이득은 8일 합성자료에서 가장 크게 나타났다. 제안 방법을 통한 유효 영역의 확장은 자료 생산의 효율성뿐만 아니라 자료 분석의 통계적 신뢰성 확보의 측면에서도 해색 원격탐사 자료의 품질 향상에 기여할 수 있다.

Global Productivity and Market Structure Implications of the US-China Trade War: A CGE Modeling Approach

  • Jung, Jaewon
    • Journal of Korea Trade
    • /
    • 제24권8호
    • /
    • pp.153-170
    • /
    • 2020
  • Purpose - As the US-China trade war intensifies and lasts long time, there is growing concern about its potential effects on the global economy. In particular, for the countries like Korea that have a large economic dependence on the economy of the two countries, the US-China trade war may have a great repercussion in many ways. The aim of this paper is to investigate the global productivity and market structure implications of the US-China trade war for Korea, as well as for other surrounding countries and regions. Design/methodology - In this paper, we develop a full multi-country/region multi-sector computable general equilibrium (CGE) model of global trade incorporating heterogeneous workers and firms in individual skill levels and used technologies. We then calibrate the model using a global Social Accounting Matrix (SAM) dataset extracted from the recently released GTAP 10 Database, and assess the potential effects of the US-China trade war on the aggregate real productivity and the market structure for Korea, as well as for other surrounding countries and regions. Findings - We show that the US-China trade war may largely affect the aggregate productivity in each sector in each country/region, as well as the global market structure through entry and exit of firms, which results finally in considerable changes in the industrial comparative advantage of each country/region. Though the effects are diverse sector by sector, the results show that Korea may also be affected significantly: concerning the real productivity implications, it is shown that the machinery industry may be affected the most negatively; on the other hand, it is shown that the number of exporting firms may decrease the most in the other transports industry. Originality/value - As the US-China trade war intensifies, many studies have tried to estimate the possible implications, and for this usually the CGE models have largely been used as the standard tool for evaluating the impacts of changes in trade policies. Standard CGE models, however, cannot be used to assess the global productivity and market structure implications due to the symmetric and simplified base assumptions. This paper is the first to analyze and quantify the possible impacts of the US-China trade war on the aggregate productivity and global market structure using a CGE model incorporating endogenous skill-technology assignment of heterogeneous workers and firms.

Dimensionality Reduction of Feature Set for API Call based Android Malware Classification

  • Hwang, Hee-Jin;Lee, Soojin
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.41-49
    • /
    • 2021
  • 악성코드를 포함한 모든 응용프로그램은 실행 시 API(Application Programming Interface)를 호출한다. 최근에는 이러한 특성을 활용하여 API Call 정보를 기반으로 악성코드를 탐지하고 분류하는 접근방법이 많은 관심을 받고 있다. 그러나 API Call 정보를 포함하는 데이터세트는 그 양이 방대하여 많은 계산 비용과 처리시간이 필요하다. 또한, 악성코드 분류에 큰 영향을 미치지 않는 정보들이 학습모델의 분류 정확도에 영향을 미칠 수도 있다. 이에 본 논문에서는 다양한 특성 선택(feature selection) 방법을 적용하여 API Call 정보에 대한 차원을 축소시킨 후, 핵심 특성 집합을 추출하는 방안을 제시한다. 실험은 최근 발표된 안드로이드 악성코드 데이터세트인 CICAndMal2020을 이용하였다. 다양한 특성 선택 방법으로 핵심 특성 집합을 추출한 후 CNN(Convolutional Neural Network)을 이용하여 안드로이드 악성코드 분류를 시도하고 결과를 분석하였다. 그 결과 특성 선택 알고리즘에 따라 선택되는 특성 집합이나 가중치 우선순위가 달라짐을 확인하였다. 그리고 이진분류의 경우 특성 집합을 전체 크기의 15% 크기로 줄이더라도 97% 수준의 정확도로 악성코드를 분류하였다. 다중분류의 경우에는 최대 8% 이하의 크기로 특성 집합을 줄이면서도 평균 83%의 정확도를 달성하였다.

분산 딥러닝에서 통신 오버헤드를 줄이기 위해 레이어를 오버래핑하는 하이브리드 올-리듀스 기법 (Hybrid All-Reduce Strategy with Layer Overlapping for Reducing Communication Overhead in Distributed Deep Learning)

  • 김대현;여상호;오상윤
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권7호
    • /
    • pp.191-198
    • /
    • 2021
  • 분산 딥러닝은 각 노드에서 지역적으로 업데이트한 지역 파라미터를 동기화는 과정이 요구된다. 본 연구에서는 분산 딥러닝의 효과적인 파라미터 동기화 과정을 위해, 레이어 별 특성을 고려한 allreduce 통신과 연산 오버래핑(overlapping) 기법을 제안한다. 상위 레이어의 파라미터 동기화는 하위 레이어의 다음 전파과정 이전까지 통신/계산(학습) 시간을 오버랩하여 진행할 수 있다. 또한 이미지 분류를 위한 일반적인 딥러닝 모델의 상위 레이어는 convolution 레이어, 하위 레이어는 fully-connected 레이어로 구성되어 있다. Convolution 레이어는 fully-connected 레이어 대비적은 수의 파라미터를 가지고 있고 상위에 레이어가 위치하므로 네트워크 오버랩 허용시간이 짧고, 이를 고려하여 네트워크 지연시간을 단축할 수 있는 butterfly all-reduce를 사용하는 것이 효과적이다. 반면 오버랩 허용시간이 보다 긴 경우, 네트워크 대역폭을 고려한 ring all-reduce를 사용한다. 본 논문의 제안 방법의 효과를 검증하기 위해 제안 방법을 PyTorch 플랫폼에 적용하여 이를 기반으로 실험 환경을 구성하여 배치크기에 대한 성능 평가를 진행하였다. 실험을 통해 제안 기법의 학습시간은 기존 PyTorch 방식 대비 최고 33% 단축된 모습을 확인하였다.

미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약 (Automatic Text Summarization based on Selective Copy mechanism against for Addressing OOV)

  • 이태석;선충녕;정영임;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.58-65
    • /
    • 2019
  • 문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 축약하는 작업을 말한다. 최근 연구에서는 대량의 문서를 딥러닝 기법을 적용하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 생성 요약은 미리 생성된 위드 임베딩 정보를 사용하는데, 전문 용어와 같이 저빈도 핵심 어휘는 입베딩 된 사전에 없는 문제가 발생한다. 인코딩-디코딩 신경망 모델의 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능 저하의 요인이다. 이를 해결하기 위해 본 논문에서는 요약 대상 문서에서 새로 출현한 단어를 복사하여 요약문을 생성하는 방법을 사용한다. 기존의 연구와는 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 방법으로 제안하였다. 학습 데이터는 논문의 초록과 제목을 대상 문서와 정답 요약으로 사용하였다. 제안한 인코딩-디코딩 기반 모델을 통해서 자동 생성 요약을 수행한 결과 단어 제현 기반의 ROUGE-1이 47.01로 나타났으며, 또한 어순 기반의 ROUGE-L이 29.55로 향상되었다.

오토인코더 기반의 잡음에 강인한 계층적 이미지 분류 시스템 (A Noise-Tolerant Hierarchical Image Classification System based on Autoencoder Models)

  • 이종관
    • 인터넷정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.23-30
    • /
    • 2021
  • 본 논문은 다수의 오토인코더 모델들을 이용한 잡음에 강인한 이미지 분류 시스템을 제안한다. 딥러닝 기술의 발달로 이미지 분류의 정확도는 점점 높아지고 있다. 하지만 입력 이미지가 잡음에 의해서 오염된 경우에는 이미지 분류 성능이 급격히 저하된다. 이미지에 첨가되는 잡음은 이미지의 생성 및 전송 과정에서 필연적으로 발생할 수밖에 없다. 따라서 실제 환경에서 이미지 분류기가 사용되기 위해서는 잡음에 대한 처리 및 대응이 반드시 필요하다. 한편 오토인코더는 입력값과 출력값이 유사하도록 학습되어지는 인공신경망 모델이다. 입력데이터가 학습데이터와 유사하다면 오토인코더의 출력데이터와 입력데이터 사이의 오차는 작을 것이다. 하지만 입력 데이터가 학습데이터와 유사성이 없다면 오토인코더의 출력데이터와 입력데이터 사이의 오차는 클 것이다. 제안하는 시스템은 오토인코더의 입력데이터와 출력데이터 사이의 관계를 이용한다. 제안하는 시스템의 이미지 분류 절차는 2단계로 구성된다. 1단계에서 분류 가능성이 가장 높은 클래스 2개를 선정하고 이들 클래스의 분류 가능성이 서로 유사하면 2단계에서 추가적인 분류 절차를 거친다. 제안하는 시스템의 성능 분석을 위해 가우시안 잡음으로 오염된 MNIST 데이터셋을 대상으로 분류 정확도를 실험하였다. 실험 결과 잡음 환경에서 제안하는 시스템이 CNN(Convolutional Neural Network) 기반의 분류 기법에 비해 높은 정확도를 나타냄을 확인하였다.