• Title/Summary/Keyword: 빈도-기반 모델

Search Result 362, Processing Time 0.041 seconds

Uncertainty of the operational models in the Nakdong River mouth (낙동강 하구 환경변화 예측모형의 불확실성)

  • Cho, Hong Yeon;Lee, Gi Seop
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.4-4
    • /
    • 2022
  • 낙동강 하구 환경/생태 복원을 위하여 "해수유입"으로 하구환경을 조성하는 사업이 추진되고 있으며, 해수 유입 규모와 빈도에 따른 생태환경변화를 예측하는 연구수요가 증가하고 있는 상황이다. 보다 구체적으로는 단기간의 해수유입에 의한 흐름 및 염분 확산범위 예측과 더불어 보다 장기간의 지형변화, 수질환경 변화, 생태환경 변화 등에 대한 예측이 필요한 상황이다. 그리고 그 예측의 대부분을 수치모델에 크게 의존하고 있는 상황이다. 그러나, 수치모형을 이용한 단기 예측은 가까운 미래에 대한 입력조건을 사용하여야 하기 때문에 입력조건에 대한 불확실성이 포함되고, 환경생태모형의 불확실성에 따른 예측 한계 등으로 인하여 오차가 누적되기 때문에 직접적인 활용에 크게 제한이 따를 수 있다. 또한 운영과정에서 어떤 분산, 편향 오차 등이 지속적으로 발생하는 경우, 모델 예측 결과에 대한 신뢰수준이 크게 감소하기 때문에 모델의 적절한 운영기법이 요구된다. 모델은 관심을 가지는 자연현상에 대한 근사(approximation)이고, 예상하지 못한 오차가 발생할 수 있기 때문에 관측 자료를 이용한 자료동화(data assimilation) 과정이 운영모델에서는 필수적인 부분이다. 이론적인 기반이 탄탄한 유체역학 기반 기상예측의 경우에도, 가용한 모든 지점의 관측 자료를 이용한 자료 동화과정을 통하여 모델 예측 결과를 개선하여 나가는 과정을 포함하여 운영하고 있다. 이 과정이 포함하는 중요한 개념은 수치모델이 가지고 있는 (예측 수준의) 한계를 인정하고, 수치모델에 전적으로 의존하는 것이 아니라 관측 자료를 이용하여 그 한계를 저감하여 나가는 과정이다. 모니터링은 모델의 한계를 알려주는 지표이다. 모델링과 모니터링의 불가피한 상호의존 관계를 의미하는 이 개념은 단기간의 흐름, 염분 확산 예측으로 한정되지 않고, 장기적인 변화가 예상되는 생태환경변화 모델에도 적용이 된다. 즉각적인 변화보다는 장기적인 관점에서 파악하여야 하는 생태학적인 변화는 보다 다양한 인자가 관여하기 때문에 어떤 측면에서는 모델보다는 적절한 빈도와 항목에 대한 관측계획 수립(monitoring design)이 더 중요하다고 할 수 있다. 이론적인 질량보존(mass conservation) 방정식을 기반으로 하는 모델은 다양한 현실적인 인자의 영향을 받기 때문에 모델의 한계를 인정하고, 모니터링 자료를 적극적으로 활용하여 불확실성을 저감하는 접근방식이 요구된다.

  • PDF

Phase-based Model Using Web Documents for Korean Unknown Word Recognition (웹문서를 이용한 단계별 한국어 미등록어 인식 모델)

  • Park, So-Young
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.13 no.9
    • /
    • pp.1898-1904
    • /
    • 2009
  • Recently, real documents such as newspapers as well as blogs include newly coined words such as "Wikipedia". However, most previous information processing technologies cannot deal with these newly coined words because they construct their dictionaries based on materials acquired during system development. In this paper, we propose a model to automatically recognize Korean unknown words excluded from the previously constructed dictionary. The proposed model consists of an unknown noun recognition phase based on full text analysis, an unknown verb recognition phase based on web document frequency, and an unknown noun recognition phase based on web document frequency. The proposed model can recognize accurately the unknown words occurred once and again in a document by the full text analysis. Also, the proposed model can recognize broadly the unknown words occurred once in the document by using web documents. Besides, the proposed model fan recognize both a Korean unknown verb, which syllables can be changed from its base form by inflection, and a Korean unknown noun, which syllables are not changed in any eojeol. Experimental results shows that the proposed model improves precision 1.01% and recall 8.50% as compared with a previous model.

Drought Frequency Analysis Using Hidden Markov Chain Model and Bivariate Copula Function (Hidden Markov Chain 모형과 이변량 코플라함수를 이용한 가뭄빈도분석)

  • Chun, Si-Young;Kim, Yong-Tak;Kwon, Hyun-Han
    • Journal of Korea Water Resources Association
    • /
    • v.48 no.12
    • /
    • pp.969-979
    • /
    • 2015
  • This study applied a probabilistic-based hidden Markov model (HMM) to better characterize drought patterns. In addition, a copula-based bivariate drought frequency analysis was employed to further investigate return periods of the current drought condition in year 2015. The obtained results revealed that western Kangwon area was generally more vulnerable to drought risk than eastern Kangwon area using the 40-year data. Imjin-river watershed including Cheorwon area was the most vulnerable area in terms of severe drought events. Four stations in Han-river watershed showed a joint return period exceeding 1,000 years associated with the drought duration and severity in 2014-2015. Especially, current drought status in Northern Han-river and Imjin-river watershed is most severe drought exceeding 100-year return period.

Long-tail Query Expansion using Extractive and Generative Methods (롱테일 질의 확장을 위한 추출 및 생성 기반 모델)

  • Kim, Lae-Seon;Kim, Seong-soon;Jang, Heon-Seok;Park, Seok-Won;Kang, In-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.267-273
    • /
    • 2020
  • 검색 엔진에 입력되는 질의 중 입력 빈도는 낮지만 상대적으로 길이가 긴 질의를 롱테일 질의라고 일컫는다. 롱테일 질의가 전체 검색 로그에서 차지하는 비중은 높은 반면, 그 형태가 매우 다양하고 검색 의도가 상세하며 개별 질의의 양은 충분하지 않은 경우가 많기 때문에 해당 질의에 대한 적절한 검색어를 추천하는 것은 어려운 문제다. 본 논문에서는 롱테일 질의 입력 시 적절한 검색어 추천을 제공하기 위하여 질의-문서 클릭 정보를 활용한 추출기반 모델 및 Seq2seq와 GPT-2 기반 생성모델을 활용한 질의 확장 방법론을 제안한다. 실험 및 결과 분석을 통하여 제안 방법이 기존에 대응하지 못했던 롱테일 질의를 자연스럽게 확장할 수 있음을 보였다. 본 연구 결과를 실제 서비스에 접목함으로써 사용자의 검색 편리성을 증대하는 동시에, 언어 모델링 기반 질의 확장에 대한 가능성을 확인하였다.

  • PDF

A Simulation Model for Korean Eojeol Retrieval (한국어 어절 재인의 시뮬레이션 모델)

  • Lim Heuiseok;Nam Kichun
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.301-304
    • /
    • 2002
  • 본 논문은 한국인 피험자를 대상으로 이루어진 어절 재인 실험 시 관찰된 언어 현상인 길이 효과, 빈도 효과, 그리고 이웃 효과를 설명할 수 있는 한국어 어절 재인 시뮬레이션 모델을 제안한다. 제안한 모델은 코퍼스에서 나타난 어절의 빈도를 이용하여 정렬한 트라이(trie) 구조를 기반으로 하고 있다. 본 모델은 피험자들의 어절 재인 현상을 모두 설명할 수 있으며 피험자들을 대상으로 한 실험에서 사용한 동일 자료를 이용하여 시뮬레이션한 결과 유의미한 상관 관계를 보였다. 현재 시뮬레이션 중 발견된 언어 현상이 한국인 피험자에서도 나타나는지를 규명하기 위한 실험과 영어 단어 재인시의 언어 현상에 대해서도 적용할 수 있는 확장 방안에 대하여 연구를 수행하고 있다.

  • PDF

Query Expansion based on Word Graph using Term Proximity (질의 어휘와의 근접도를 반영한 단어 그래프 기반 질의 확장)

  • Jang, Kye-Hun;Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.19B no.1
    • /
    • pp.37-42
    • /
    • 2012
  • The pseudo relevance feedback suggests that frequent words at the top documents are related to initial query. However, the main drawback associated with the term frequency method is the fact that it relies on feature independence, and disregards any dependencies that may exist between words in the text. In this paper, we propose query expansion based on word graph using term proximity. It supplements term frequency method. On TREC WT10g test collection, experimental results in MAP(Mean Average Precision) show that the proposed method achieved 6.4% improvement over language model.

Dam Inflow Prediction using Deep Learning Model based on Continuous Simulation (연속형 모의 기반의 딥러닝 모델을 활용한 댐 유입량 예측 및 평가)

  • Heo, Jae-Yeong;Bae, Deg-Hyo
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.122-122
    • /
    • 2021
  • 전 세계적인 기후변화로 인해 태풍과 집중호우의 빈도와 규모가 증가하고 있으며 그로 인해 수재해 대응과 수자원 관리에 많은 어려움이 따른다. 댐 운영은 이러한 수자원 관리의 중요한 요소이며 정확한 댐 유입량의 예측은 효율적인 댐 운영과 관리의 필수적인 부분이다. 최근에는 여러 분야에서 활용되고 있는 딥러닝 모델을 활용하여 댐 유입량 예측에 관한 다수의 연구들이 수행되고 있다. 특히, 수문 시계열의 장기적인 특성과 비선형적인 관계를 고려하기 위해 연속형 모의를 기반으로 하는 딥러닝 모델의 적용 및 평가와 관련 연구의 필요성이 대두되고 있다. 본 연구에서는 연속형 모의를 기반으로 하는 딥러닝 모델을 활용하여 댐 유입량 예측을 수행하고자 하며 이의 적용성을 평가하고자 한다. 적용 대상 지역으로는 안동댐 상류 유역을 선정하였으며 2006년부터 2020년까지의 시 단위 강우 및 댐 유입량 자료를 활용하였다. 선행시간(1~6시간)별 예측 유입량과 관측 유입량의 비교를 통한 정량적 평가를 수행하였다. 또한 입력 자료에 대한 과거 기간, 모델 구성, 손실함수 등에 대한 조건별 평가를 통해 예측 정확도의 변화에 대한 분석을 수행하였다. 본 연구결과를 통해, 딥러닝 기반의 댐 유입량 예측 정확도에 대한 향상과 실시간 예측을 위한 딥러닝 모델의 활용성 증대에 기여할 것으로 기대된다. 향후, 강우 예보 자료를 연계한 딥러닝 기반의 실시간 댐 유입량 예측 기법을 제안하고 이의 활용성을 평가하고자 한다.

  • PDF

Continuous Variable Regression Analysis for Frequency of Damage Analysis in Heat Pipe (연속형 변수 회귀분석을 통한 열수송관 파손빈도 분석)

  • Myeongsik Kong;Jaemo Kang;Sungyeol Lee
    • Journal of the Korean GEO-environmental Society
    • /
    • v.24 no.12
    • /
    • pp.47-52
    • /
    • 2023
  • In order to efficiently maintain heat pipes operated by district heating operators, the facility history and damage history data built by the operator are used to identify key independent variables that are related to the occurrence of damage. Afterwards, the correlation with the frequency of damage was analyzed, and a basic model for estimating the frequency of damage was derived. Considering the correlation with the estimation model based on the use time currently being used by domestic and foreign district heating operators, a simple regression analysis basic model was presented as the independent variable with the highest correlation between continuous variables such as the use time, pipe diameter, burial depth, and insulation level of monitoring system, and the frequency of damage. The remaining independent variables were reflected as factors that modify and supplement the basic model. As a result of the analysis, as in previous research cases, it was confirmed that the analysis model between use time and frequency of damage had the highest correlation between the two variables and could be used as a basic model. Pipe diameter, burial depth, and insulation level of monitoring system information have also been confirmed to have a correlation with the frequency of damage, so they can be used as factors to supplement the basic model.

Uncertainty Analysis for Parameter Estimation in Rainfall Frequency Analysis using Bootstrap (Bootstrap을 이용한 강우빈도해석에서의 매개변수 추정에 대한 불확실성 해석)

  • Seo, Young-Min;Jee, Hong-Kee;Lee, Soon-Tak
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2009.05a
    • /
    • pp.1406-1411
    • /
    • 2009
  • Bootstrap 기법은 통계학적 추정치의 정확도 또는 불확실성을 평가하기 위한 컴퓨터 기반 리샘플링 기법으로서 플러그인 원칙을 이용하여 요약통계치의 표준오차 및 신뢰구간을 추정하며, Bootstrap 기법 중 BCa 기법은 다른 Bootstrap 기법들에 비해 적합도 기준면에서 훨씬 우수한 결과를 나타내는 것으로 알려져 있다. 본 논문에서는 강우빈도해석에서 확률분포의 매개변수 추정에 대한 불확실성 고려한 확률강우량의 산정 및 불확실성의 영향을 평가하기 위하여 Bootstrap 기법 중 비매개변수적 BCa 기법에 기반한 불확실성을 고려한 강우빈도해석모델 구축 및 적용을 통해 홍수위험평가 및 수자원 계획 등에 있어서 불확실성 표현 및 처리기법을 제시하였다.

  • PDF

Semantic Clustering Model for Analytical Classification of Documents in Cloud Environment (클라우드 환경에서 문서의 유형 분류를 위한 시맨틱 클러스터링 모델)

  • Kim, Young Soo;Lee, Byoung Yup
    • The Journal of the Korea Contents Association
    • /
    • v.17 no.11
    • /
    • pp.389-397
    • /
    • 2017
  • Recently semantic web document is produced and added in repository in a cloud computing environment and requires an intelligent semantic agent for analytical classification of documents and information retrieval. The traditional methods of information retrieval uses keyword for query and delivers a document list returned by the search. Users carry a heavy workload for examination of contents because a former method of the information retrieval don't provide a lot of semantic similarity information. To solve these problems, we suggest a key word frequency and concept matching based semantic clustering model using hadoop and NoSQL to improve classification accuracy of the similarity. Implementation of our suggested technique in a cloud computing environment offers the ability to classify and discover similar document with improved accuracy of the classification. This suggested model is expected to be use in the semantic web retrieval system construction that can make it more flexible in retrieving proper document.