• Title/Summary/Keyword: Large Dataset

검색결과 561건 처리시간 0.031초

이변량 지역빈도해석을 이용한 우리나라 극한 강우 분석 (Bivariate regional frequency analysis of extreme rainfalls in Korea)

  • 신주영;정창삼;안현준;허준행
    • 한국수자원학회논문집
    • /
    • 제51권9호
    • /
    • pp.747-759
    • /
    • 2018
  • 다변량 빈도해석과 지역빈도해석의 장점을 동시에 가지는 다변량 지역빈도해석은 다양한 변수를 고려함으로써 수문 현상에 대하여 많은 정보를 얻을 수 있고 많은 가용 자료 수로 인하여 높은 정확도의 분석결과를 도출할 수 있다. 현재까지는 우리나라의 강우 자료를 이용하여 다변량 지역빈도해석이 시도된 적이 없어 국내의 강우 자료를 대상으로 다변량 지역빈도해석의 적용성을 검토할 필요가 있다. 본 연구에서는 다변량 지역빈도해석의 매개변수 추정, 최적 분포형 선정, 확률수문량 성장곡선 추정 등에 집중하여 이변량 수문자료인 연 최대 강우량-지속기간 자료에 대하여 이변량 지역빈도해석의 적용성을 평가하였다. 기상청 71개 지점에 대하여 분석을 실시하였다. 본 연구를 통해 적용된 지역강우자료의 최적 copula 모형으로는 Frank와 Gumbel copula 모형이 선택되었고 주변분포형에 대해서는 지역별로 Gumbel과 대수정규분포와 같은 다양한 분포형이 최적 분포형으로 선택되었다. 상대제곱근오차(relative root mean square error)를 기준으로 지역빈도해석이 지점빈도해석보다 안정적이고 정확한 확률수문량 곡선 추정을 하였다. 이변량 강우분석에서 지역빈도해석을 적용하면 안정적인 수공구조물 설계기준 제시와 강우-지속기간 관계를 모형화 할 수 있을 것으로 기대된다.

모바일 상황정보와 온라인 친구네트워크정보 기반 텐서 분해를 통한 오프라인 친구 추천 기법 (Offline Friend Recommendation using Mobile Context and Online Friend Network Information based on Tensor Factorization)

  • 김경민;김태훈;현순주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권8호
    • /
    • pp.375-380
    • /
    • 2016
  • 스마트폰과 Online Social Network Service(OSNS)의 대중화를 통해 언제 어디서든 주변인뿐만 아니라 전 세계 사람들과 상호작용 할 수 있게 되었고, 그 결과 사람들의 OSNS 사용률은 계속 증가하고 있다. 그런데, 일부 OSNS를 통한 대인관계 형성에 집중하는 사람들의 경우, 수많은 Face-to-Face Interaction(F2F Interaction)을 통해 형성되는 인간관계의 과정을 "친구추천" 버튼 하나로 건너뜀으로써 대인관계 기술 발달 및 유지에 어려움을 겪을 수 있다. 본 논문에서는 오프라인에서 F2F Interaction 기회를 발견 및 제공할 수 있는 상황정보 기반의 친구추천 기법을 제시한다. 이를 위해 스마트폰 센서로부터 사용자의 상황정보와 Facebook에서 형성된 사용자 친구관계 정보를 수집하여 텐서 분해 및 결합을 기반으로 오프라인 환경에서 친구를 추천한다. 성능 평가를 위해 12명의 실험 참가자로부터 상황정보를 수집하고, 만족도를 평가하였다.

MODIS 해색 자료의 유효관측영역 확장에 대한 연구 (A Study on Extending Successive Observation Coverage of MODIS Ocean Color Product)

  • 박정원;김현철;박경석;이상환
    • 대한원격탐사학회지
    • /
    • 제31권6호
    • /
    • pp.513-521
    • /
    • 2015
  • 해색 원격탐사 자료의 처리과정에서는 일반적으로 관측 영역의 확보를 위해 시공간적 합성을 수행하며, 이 때 Level-2 flag를 참조하여 합성 재료가 되는 영상의 유효성을 판단한다. NASA OBPG의 표준 알고리즘은 stray light에 의한 관측 오차를 최소화하기 위해서 필터링 윈도우를 채택하고 있으나, 이로 인한 관측 영역의 손실이 많다. 이 연구는 유효 관측 영역의 복원/확장을 통한 해색 원격탐사 자료의 품질 향상에 목적을 둔다. 이를 위해서 MODIS/Aqua의 필터링 윈도우의 크기 변화에 따른 관측 영역과 클로로필a 농도 측정값의 변화를 분석하였다. 그 결과 유효 관측 영역에 있어 Level-2 swath 자료, Level-3 일별 합성자료, 8일 합성자료, 월별 합성자료에서 각각 $13.2({\pm}5.2)%$, $30.8({\pm}16.3)%$, $15.8({\pm}9.2)%$, $6.0({\pm}5.6)%$의 복원 효과가 발생하였으며, 표준 자료와의 측정값 차이는 공통 관측 영역에서 평균 0.012% 이하로 매우 유의하였다. 또한 공간 영역 확장으로 인해 시계열 자료에서의 관측 밀도도 상승하였으며 그 이득은 8일 합성자료에서 가장 크게 나타났다. 제안 방법을 통한 유효 영역의 확장은 자료 생산의 효율성뿐만 아니라 자료 분석의 통계적 신뢰성 확보의 측면에서도 해색 원격탐사 자료의 품질 향상에 기여할 수 있다.

Global Productivity and Market Structure Implications of the US-China Trade War: A CGE Modeling Approach

  • Jung, Jaewon
    • Journal of Korea Trade
    • /
    • 제24권8호
    • /
    • pp.153-170
    • /
    • 2020
  • Purpose - As the US-China trade war intensifies and lasts long time, there is growing concern about its potential effects on the global economy. In particular, for the countries like Korea that have a large economic dependence on the economy of the two countries, the US-China trade war may have a great repercussion in many ways. The aim of this paper is to investigate the global productivity and market structure implications of the US-China trade war for Korea, as well as for other surrounding countries and regions. Design/methodology - In this paper, we develop a full multi-country/region multi-sector computable general equilibrium (CGE) model of global trade incorporating heterogeneous workers and firms in individual skill levels and used technologies. We then calibrate the model using a global Social Accounting Matrix (SAM) dataset extracted from the recently released GTAP 10 Database, and assess the potential effects of the US-China trade war on the aggregate real productivity and the market structure for Korea, as well as for other surrounding countries and regions. Findings - We show that the US-China trade war may largely affect the aggregate productivity in each sector in each country/region, as well as the global market structure through entry and exit of firms, which results finally in considerable changes in the industrial comparative advantage of each country/region. Though the effects are diverse sector by sector, the results show that Korea may also be affected significantly: concerning the real productivity implications, it is shown that the machinery industry may be affected the most negatively; on the other hand, it is shown that the number of exporting firms may decrease the most in the other transports industry. Originality/value - As the US-China trade war intensifies, many studies have tried to estimate the possible implications, and for this usually the CGE models have largely been used as the standard tool for evaluating the impacts of changes in trade policies. Standard CGE models, however, cannot be used to assess the global productivity and market structure implications due to the symmetric and simplified base assumptions. This paper is the first to analyze and quantify the possible impacts of the US-China trade war on the aggregate productivity and global market structure using a CGE model incorporating endogenous skill-technology assignment of heterogeneous workers and firms.

Dimensionality Reduction of Feature Set for API Call based Android Malware Classification

  • Hwang, Hee-Jin;Lee, Soojin
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.41-49
    • /
    • 2021
  • 악성코드를 포함한 모든 응용프로그램은 실행 시 API(Application Programming Interface)를 호출한다. 최근에는 이러한 특성을 활용하여 API Call 정보를 기반으로 악성코드를 탐지하고 분류하는 접근방법이 많은 관심을 받고 있다. 그러나 API Call 정보를 포함하는 데이터세트는 그 양이 방대하여 많은 계산 비용과 처리시간이 필요하다. 또한, 악성코드 분류에 큰 영향을 미치지 않는 정보들이 학습모델의 분류 정확도에 영향을 미칠 수도 있다. 이에 본 논문에서는 다양한 특성 선택(feature selection) 방법을 적용하여 API Call 정보에 대한 차원을 축소시킨 후, 핵심 특성 집합을 추출하는 방안을 제시한다. 실험은 최근 발표된 안드로이드 악성코드 데이터세트인 CICAndMal2020을 이용하였다. 다양한 특성 선택 방법으로 핵심 특성 집합을 추출한 후 CNN(Convolutional Neural Network)을 이용하여 안드로이드 악성코드 분류를 시도하고 결과를 분석하였다. 그 결과 특성 선택 알고리즘에 따라 선택되는 특성 집합이나 가중치 우선순위가 달라짐을 확인하였다. 그리고 이진분류의 경우 특성 집합을 전체 크기의 15% 크기로 줄이더라도 97% 수준의 정확도로 악성코드를 분류하였다. 다중분류의 경우에는 최대 8% 이하의 크기로 특성 집합을 줄이면서도 평균 83%의 정확도를 달성하였다.

분산 딥러닝에서 통신 오버헤드를 줄이기 위해 레이어를 오버래핑하는 하이브리드 올-리듀스 기법 (Hybrid All-Reduce Strategy with Layer Overlapping for Reducing Communication Overhead in Distributed Deep Learning)

  • 김대현;여상호;오상윤
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권7호
    • /
    • pp.191-198
    • /
    • 2021
  • 분산 딥러닝은 각 노드에서 지역적으로 업데이트한 지역 파라미터를 동기화는 과정이 요구된다. 본 연구에서는 분산 딥러닝의 효과적인 파라미터 동기화 과정을 위해, 레이어 별 특성을 고려한 allreduce 통신과 연산 오버래핑(overlapping) 기법을 제안한다. 상위 레이어의 파라미터 동기화는 하위 레이어의 다음 전파과정 이전까지 통신/계산(학습) 시간을 오버랩하여 진행할 수 있다. 또한 이미지 분류를 위한 일반적인 딥러닝 모델의 상위 레이어는 convolution 레이어, 하위 레이어는 fully-connected 레이어로 구성되어 있다. Convolution 레이어는 fully-connected 레이어 대비적은 수의 파라미터를 가지고 있고 상위에 레이어가 위치하므로 네트워크 오버랩 허용시간이 짧고, 이를 고려하여 네트워크 지연시간을 단축할 수 있는 butterfly all-reduce를 사용하는 것이 효과적이다. 반면 오버랩 허용시간이 보다 긴 경우, 네트워크 대역폭을 고려한 ring all-reduce를 사용한다. 본 논문의 제안 방법의 효과를 검증하기 위해 제안 방법을 PyTorch 플랫폼에 적용하여 이를 기반으로 실험 환경을 구성하여 배치크기에 대한 성능 평가를 진행하였다. 실험을 통해 제안 기법의 학습시간은 기존 PyTorch 방식 대비 최고 33% 단축된 모습을 확인하였다.

미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약 (Automatic Text Summarization based on Selective Copy mechanism against for Addressing OOV)

  • 이태석;선충녕;정영임;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.58-65
    • /
    • 2019
  • 문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 축약하는 작업을 말한다. 최근 연구에서는 대량의 문서를 딥러닝 기법을 적용하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 생성 요약은 미리 생성된 위드 임베딩 정보를 사용하는데, 전문 용어와 같이 저빈도 핵심 어휘는 입베딩 된 사전에 없는 문제가 발생한다. 인코딩-디코딩 신경망 모델의 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능 저하의 요인이다. 이를 해결하기 위해 본 논문에서는 요약 대상 문서에서 새로 출현한 단어를 복사하여 요약문을 생성하는 방법을 사용한다. 기존의 연구와는 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 방법으로 제안하였다. 학습 데이터는 논문의 초록과 제목을 대상 문서와 정답 요약으로 사용하였다. 제안한 인코딩-디코딩 기반 모델을 통해서 자동 생성 요약을 수행한 결과 단어 제현 기반의 ROUGE-1이 47.01로 나타났으며, 또한 어순 기반의 ROUGE-L이 29.55로 향상되었다.

오토인코더 기반의 잡음에 강인한 계층적 이미지 분류 시스템 (A Noise-Tolerant Hierarchical Image Classification System based on Autoencoder Models)

  • 이종관
    • 인터넷정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.23-30
    • /
    • 2021
  • 본 논문은 다수의 오토인코더 모델들을 이용한 잡음에 강인한 이미지 분류 시스템을 제안한다. 딥러닝 기술의 발달로 이미지 분류의 정확도는 점점 높아지고 있다. 하지만 입력 이미지가 잡음에 의해서 오염된 경우에는 이미지 분류 성능이 급격히 저하된다. 이미지에 첨가되는 잡음은 이미지의 생성 및 전송 과정에서 필연적으로 발생할 수밖에 없다. 따라서 실제 환경에서 이미지 분류기가 사용되기 위해서는 잡음에 대한 처리 및 대응이 반드시 필요하다. 한편 오토인코더는 입력값과 출력값이 유사하도록 학습되어지는 인공신경망 모델이다. 입력데이터가 학습데이터와 유사하다면 오토인코더의 출력데이터와 입력데이터 사이의 오차는 작을 것이다. 하지만 입력 데이터가 학습데이터와 유사성이 없다면 오토인코더의 출력데이터와 입력데이터 사이의 오차는 클 것이다. 제안하는 시스템은 오토인코더의 입력데이터와 출력데이터 사이의 관계를 이용한다. 제안하는 시스템의 이미지 분류 절차는 2단계로 구성된다. 1단계에서 분류 가능성이 가장 높은 클래스 2개를 선정하고 이들 클래스의 분류 가능성이 서로 유사하면 2단계에서 추가적인 분류 절차를 거친다. 제안하는 시스템의 성능 분석을 위해 가우시안 잡음으로 오염된 MNIST 데이터셋을 대상으로 분류 정확도를 실험하였다. 실험 결과 잡음 환경에서 제안하는 시스템이 CNN(Convolutional Neural Network) 기반의 분류 기법에 비해 높은 정확도를 나타냄을 확인하였다.

합성곱 신경망에서 이미지 분류를 위한 하이퍼파라미터 최적화 (Hyperparameter Optimization for Image Classification in Convolutional Neural Network)

  • 이재은;김영봉;김종남
    • 융합신호처리학회논문지
    • /
    • 제21권3호
    • /
    • pp.148-153
    • /
    • 2020
  • 합성곱 신경망 모형에서 높은 정확도를 얻기 위해서는 최적의 하이퍼파라미터를 설정하는 작업이 필요하다. 하지만 높은 성능을 낼 수 있는 하이퍼파라미터 값이 정확히 알려진 바가 없으며, 자료마다 최적의 하이퍼파라미터 값이 달라질 수 있기 때문에 매번 실험을 통해서 찾아야만 한다. 또한, 하이퍼파라미터 값들의 범위가 넓고 조합 수가 많기 때문에 시간과 계산량을 줄이기 위해서는 최적값을 찾기 위한 실험 계획을 먼저 한 후에 탐색을 하는 것이 필요하다. 그러나 아직까지 합성곱 신경망 모형에서 하이퍼파라미터 최적화를 위하여 실험계획법을 이용한 연구 결과가 보고되지 않았다. 본 논문에서는 이미지 분류 문제에서 통계방법 중 하나인 실험계획법의 요인배치법을 이용하여 실험 계획을 하고 합성곱 신경망 분석을 한 후에, 높은 성능을 갖는 값을 중심으로 그리드 탐색을 하여 최적의 하이퍼파라미터를 찾는 방법을 제안한다. 실험 계획을 통하여 각 하이퍼파라미터들의 탐색 범위를 줄인 후에 그리드 탐색을 함으로써 효율적으로 연산량을 줄이고 정확도를 높힐 수 있음을 보였다. 또한 실험 결과에서 모형 성능에 가장 큰 영향을 주는 하이퍼파라미터가 학습률이라는 것을 확인할 수 있었다.

국립수산과학원 장기 정선 관측 염분 자료의 정확성 평가 (Quality Evaluation of Long-Term Shipboard Salinity Data Obtained by NIFS)

  • 박종진
    • 한국해양학회지:바다
    • /
    • 제26권1호
    • /
    • pp.49-61
    • /
    • 2021
  • 국립수산과학원(NIFS)의 정선 관측은 높은 시공간 해상도를 가지며 장기간 동안 같은 정점에서 관측을 수행해오고 있어, 전 세계적으로 유례를 찾아볼 수 없을 만큼 귀중한 자료를 생산하고 있으나, 자료의 신뢰성 문제로 해양 기후 변화 연구에 실제적으로 활용되는 경우가 드물었다. 본 연구에서는 동해 심층 물성이 갖는 작은 자연적 변동성의 특성을 활용함으로써 반세기 이상 축적된 정선 관측 자료에서 나타나는 오차를 정량적으로 평가하여, 해양의 장기 변동성 연구에 기여하는 것을 목적으로 한다. 1℃ 등수온면에서 산출한 NIFS 염분 표준 오차는 평균적으로 1961~1980년 자료의 경우 약 0.160 g/kg, 1981년~1994년은 약 0.060 g/kg, 1995~2002년에는 약 0.020 g/kg, 2003년~2014년이 약 0.010 g/kg으로 시기에 따라 크게 달라져온 것으로 분석되었다. 특히 2011년~2014년 사이에 비정상적으로 오차가 증가된 해가 있었으며, 이것은 센서 관리의 미흡으로 염분 편향이 발생하였기 때문으로 파악되었다. 반면, 2012년도에는 안정적인 관측이 수행되어 거의 0.001 g/kg 의 오차를 갖는 매우 정확한 염분 자료가 얻어졌음이 확인되었다. 이 결과를 통해 품질 관리 과정의 체계화와 센서 관리 전문화 시스템을 확충한다면 국립수산과학원 정선 관측이 기후 변화로 인한 해양 변동성 연구에 크게 기여할 수 있을 만큼 충분히 고품질의 자료를 생산할 수 있을 것으로 기대한다. 마지막으로 현 정선 관측의 개선 방향에 대해 몇 가지 제언을 첨부하였다.