• 제목/요약/키워드: Term weighting

검색결과 110건 처리시간 0.028초

온라인 텍스트문서의 계층적 트리 기반 주제탐색 기법 (A Novel Technique of Topic Detection for On-line Text Documents: A Topic Tree-based Approach)

  • 현만;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.396-399
    • /
    • 2012
  • Topic detection is a problem of discovering the topics of online publishing documents. For topic detection, it is important to extract correct topic words and to show the topical words easily to understand. We consider a topic tree-based approach to more effectively and more briefly show the result of topic detection for online text documents. In this paper, to achieve the topic tree-based topic detection, we propose a new term weighting method, called CTF-CDF-IDF, which is simple yet effective. Moreover, we have modified a conventional clustering method, which we call incremental k-medoids algorithm. Our experimental results with Reuters-21578 and Google news collections show that the proposed method is very useful for topic detection.

Two-Dimensional Attention-Based LSTM Model for Stock Index Prediction

  • Yu, Yeonguk;Kim, Yoon-Joong
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1231-1242
    • /
    • 2019
  • This paper presents a two-dimensional attention-based long short-memory (2D-ALSTM) model for stock index prediction, incorporating input attention and temporal attention mechanisms for weighting of important stocks and important time steps, respectively. The proposed model is designed to overcome the long-term dependency, stock selection, and stock volatility delay problems that negatively affect existing models. The 2D-ALSTM model is validated in a comparative experiment involving the two attention-based models multi-input LSTM (MI-LSTM) and dual-stage attention-based recurrent neural network (DARNN), with real stock data being used for training and evaluation. The model achieves superior performance compared to MI-LSTM and DARNN for stock index prediction on a KOSPI100 dataset.

EMC 방법적용을 위한 논 대표 유출률 산정 (Estimation of Representative Runoff Ratio from Paddy Field for the Application of EMC Method)

  • 최동호;정재운;윤광식;진소현;최우영;최우정;김상돈;임병진;최유진
    • 한국물환경학회지
    • /
    • 제26권6호
    • /
    • pp.943-947
    • /
    • 2010
  • Runoff ratio of paddy fields for the application of Event Mean Concentration (EMC) method was studied. To measure actual runoff ratio of paddy fields, a field monitoring was conducted for 2008 ~ 2009 period. Long-term rainfall data of four cities in major river basins were analyzed and weighting factors were developed to consider temporal and spatial variation of rainfall distribution of Korean peninsula. The observed runoff ratio ranged 0.00 ~ 1.20 and arithmetic mean were 0.25, respectively. However, the representative runoff ratio for paddy fields was determined as 0.41 according to the method suggested by National Institute of Environmental Research (NIER).

유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구 (A Study on the Development of Search Algorithm for Identifying the Similar and Redundant Research)

  • 박동진;최기석;이명선;이상태
    • 한국콘텐츠학회논문지
    • /
    • 제9권11호
    • /
    • pp.54-62
    • /
    • 2009
  • 국가적으로 그리고 각 연구기관에서는 투자의 효율성을 기하기 위하여 연구사업 선정과정에서 데이터베이스로부터 중복과제 혹은 유사과제를 검색하는 과정을 거친다. 최근 부얼리언 기반의 키워드 매칭 검색알고리즘의 발전 및 이를 채택한 검색엔진의 개발로 인하여 검색의 정확도가 많이 향상되었지만, 사용자가 입력하는 제한된 수의 키워드들에 의한 검색은 유사과제 파악과 우선순위의 결정에 어려움이 있다. 본 연구에서는 제안된 과제의 문서를 분석하여 다수의 색인어들을 추출하고, 이들에게 가중치를 부여한 후, 기존의 문서들과 비교하여 유사과제를 찾아내는 문서단위의 검색 알고리즘을 제안한다. 구체적으로 벡터공간검색(Vector-Space Retrieval)모델의 한 종류인 TFIDF(Term Frequency Inverse document Frequency)를 기본 구조로 채택한다. 또한 개발되는 알고리즘에는 연구과제 제안문서의 구조에 적합한 속성별 가중치(feature weighting)를 반영하고 검색속도의 향상을 위하여 K-최근접 문서(KNN: K-Nearest Neighbors) 기법도 반영한 알고리즘을 제시한다. 실험을 위하여 실제 연구제안 문서와 구조가 동일한 기존의 보고서를 사용하였는데, KISTI에서 운영하는 과학기술정보포털서비스인 NDSL에서 이미 분류해 놓은 4분야의 1,000 개 연구 보고서 문서를 발췌하여 실험을 하였다.

과도한 지식을 요구하지 않는 공통기반축에 의한 용어 번역과 한영 교차정보검색에의 응용 (Knowledge-poor Term Translation using Common Base Axis with application to Korean-English Cross-Language Information Retrieval)

  • 최용석;최기선
    • 인지과학
    • /
    • 제14권1호
    • /
    • pp.29-40
    • /
    • 2003
  • 교차언어 정보검색은 다국어 정보검색의 일부분으로 질의어에서 사용하는 언어와 검색대상인 문서의 언어가 서로 다른 경우의 정보검색을 의미한다. 교차언어 정보검색의 성능 향상을 위해서는 양질의 언어자원이 대량으로 필요한 경우가 많기 때문에 이를 해결하기 쉽지 않다. 본 논문에서는 사전에 기반한 대역어 후보 선정 시, 가중치를 부여해 질의어를 변환하는 방식을 제안한다. 가중치 계산에 이용되는 의미거리는 영어 명사와 한국어 명사를 같은 벡터 공간에 표현하고, 두 벡터간의 관계를 이용해 거리를 계산한다. 서로 다른 두 언어의 명사를 한 공간에 표현하기 위해 "공통 기반축"의 개념을 제시하고, 구축 방법을 제안한다. 고급 자원인 온톨로지를 확보하지 않고, 제안하는 방법으로 우수한 정보검색 결과를 얻을 수 있다는 것을 실험을 통해 보여준다.을 통해 보여준다.

  • PDF

XLinks를 이용한 하이퍼텍스트 검색 시스템 (Hypertext Retrieval System Using XLinks)

  • 김은정;배종민
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.483-494
    • /
    • 2001
  • 일반적인 하이퍼텍스트 검색 모델은 문서와 문서사이의 관계나 링크의 의미를 무시하고, 모든 문서를 독립적인 존재로 간주하여 검색한다. 그러나 하이퍼텍스트 검색 시스템에 있어 링크 정보를 이용하며 검색의 성능을 향상시킬 수 있다. 기존의 링크 기반 하이퍼텍스트 검색 모델은 문서의 색인 과정에서 링크 정보를 무시하고, 검색 결과 집합에 대하여 문서의 우선 순위를 제조정하는데 링크 정보를 활용한다. 이는 링크정보의 활용이 검색 결과 집합의 문서들에만 한정된다는 단점이 있다. 본 논문에서는 링크 정보를 문서의 색인 과정에서 활용한다. 색인 과정에서 링크 정보를 이용하여 문서 내 용어의 가중치와 문서 내 inLinks의 가중치를 정의하고, 이들의 이용하여 문서의 우선 순위를 위한 확장된 RSV 계산식을 제시한다. 실험 결과에서 링크 의미에 따른 검색 조회율과 정확도를 제시하고 기존 링크 기반 검색 모델과의 비교, 분석 결과를 제시한다.

  • PDF

고해상도 격자 기후자료 내 이상 기후변수 수정을 위한 통계적 보간법 적용 (Application of a Statistical Interpolation Method to Correct Extreme Values in High-Resolution Gridded Climate Variables)

  • 정여민;음형일
    • 한국기후변화학회지
    • /
    • 제6권4호
    • /
    • pp.331-344
    • /
    • 2015
  • A long-term gridded historical data at 3 km spatial resolution has been generated for practical regional applications such as hydrologic modelling. However, overly high or low values have been found at some grid points where complex topography or sparse observational network exist. In this study, the Inverse Distance Weighting (IDW) method was applied to properly smooth the overly predicted values of Improved GIS-based Regression Model (IGISRM), called the IDW-IGISRM grid data, at the same resolution for daily precipitation, maximum temperature and minimum temperature from 2001 to 2010 over South Korea. We tested various effective distances in the IDW method to detect an optimal distance that provides the highest performance. IDW-IGISRM was compared with IGISRM to evaluate the effectiveness of IDW-IGISRM with regard to spatial patterns, and quantitative performance metrics over 243 AWS observational points and four selected stations showing the largest biases. Regarding the spatial pattern, IDW-IGISRM reduced irrational overly predicted values, i. e. producing smoother spatial maps that IGISRM for all variables. In addition, all quantitative performance metrics were improved by IDW-IGISRM; correlation coefficient (CC), Index Of Agreement (IOA) increase up to 11.2% and 2.0%, respectively. Mean Absolute Error (MAE) and Root Mean Square Error (RMSE) were also reduced up to 5.4% and 15.2% respectively. At the selected four stations, this study demonstrated that the improvement was more considerable. These results indicate that IDW-IGISRM can improve the predictive performance of IGISRM, consequently providing more reliable high-resolution gridded data for assessment, adaptation, and vulnerability studies of climate change impacts.

Development of a smart rain gauge system for continuous and accurate observations of light and heavy rainfall

  • Han, Byungjoo;Oh, Yeontaek;Nguyen, Hoang Hai;Jung, Woosung;Shin, Daeyun
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.334-334
    • /
    • 2022
  • Improvement of old-fashioned rain gauge systems for automatic, timely, continuous, and accurate precipitation observation is highly essential for weather/climate prediction and natural hazards early warning, since the occurrence frequency and intensity of heavy and extreme precipitation events (especially floods) are recently getting more increase and severe worldwide due to climate change. Although rain gauge accuracy of 0.1 mm is recommended by the World Meteorological Organization (WMO), the traditional rain gauges in both weighting and tipping bucket types are often unable to meet that demand due to several existing technical limitations together with higher production and maintenance costs. Therefore, we aim to introduce a newly developed and cost-effective hybrid rain gauge system at 0.1 mm accuracy that combines advantages of weighting and tipping bucket types for continuous, automatic, and accurate precipitation observation, where the errors from long-term load cells and external environmental sources (e.g., winds) can be removed via an automatic drainage system and artificial intelligence-based data quality control procedure. Our rain gauge system consists of an instrument unit for measuring precipitation, a communication unit for transmitting and receiving measured precipitation signals, and a database unit for storing, processing, and analyzing precipitation data. This newly developed rain gauge was designed according to the weather instrument criteria, where precipitation amounts filled into the tipping bucket are measured considering the receiver's diameter, the maximum measurement of precipitation, drainage time, and the conductivity marking. Moreover, it is also designed to transmit the measured precipitation data stored in the PCB through RS232, RS485, and TCP/IP, together with connecting to the data logger to enable data collection and analysis based on user needs. Preliminary results from a comparison with an existing 1.0-mm tipping bucket rain gauge indicated that our developed rain gauge has an excellent performance in continuous precipitation observation with higher measurement accuracy, more correct precipitation days observed (120 days), and a lower error of roughly 27 mm occurred during the measurement period.

  • PDF

3GPP LTE MIMO-OFDMA 시스템의 인접 셀 간섭 완화를 위한 개선된 Spatial Covariance Matrix 추정 기법 (Enhanced Spatial Covariance Matrix Estimation for Asynchronous Inter-Cell Interference Mitigation in MIMO-OFDMA System)

  • 문종건;장준희;한정수;김성수;김용석;최형진
    • 한국통신학회논문지
    • /
    • 제34권5C호
    • /
    • pp.527-539
    • /
    • 2009
  • 본 논문에서는 3GPP LTE (3rd Generation Partnership Project Long Term Evolution) MIMO-OFDMA(multiple-input multiple-output-orthogonal frequency division multiple access) 시스템의 하향 링크 수신기를 위한 asynchronous ICI (Inter-Cell Interference) 완화 기법을 제안한다. Multi-cell 환경을 고려한 celluar OFDMA 시스템에서는 기본적으로 frequency reuse factor가 1로 설정되기 때문에 셀 경계에 위치한 UE (User Equipment)의 경우 ICI 영향을 받게 되며, 특히 각기 다른 셀 반경 및 nodeB 간의 거리 차이 등 현실적인 celluar 환경을 고려 할 경우에는 UE 간 타이밍 오류가 가중되어 수신 신호의 주파수 영역의 직교성이 파괴될 가능성이 있다. 따라서 이러한 인접 셀 간섭을 제거 및 완화하기 위하여 수신 OFDM 심볼에 대한 SCM (Spatial Covariance Matrix) 추정이 필요하다. 일반적으로 SCM 추정은 training symbol을 이용함을 가정하지만, 긴 시간 동안 간섭의 통계적 특성을 측정하는 것은 어려울 뿐만 아니라 training symbol이 고려되지 않는 LTE와 같은 MIMO-OFDMA 시스템에는 적합하지 않다. 또한 추정의 정확성을 높이기 위하여 noise reduction 방식이 적용된 추정 기법이 제시되고 있으나, 기존 time-domain low-pass type weighting 방식은 spectral leakage에 의한 추정 에러를 유발하는 단점이 있다. 따라서, 본 논문에서는 noise reduction 효과를 얻으면서 spectral leakage에 의한 SCM 추정 오류를 최소화할 수 있으며, 주파수 영역에의 moving average filter로 구현 가능한 time-domain sinc-type weighting 방식의 SCM 추정 기법을 제안하였으며, 다양한 환경에서의 컴퓨터 모의 실험을 통하여 제안된 방식이 기존의 방식보다 약 3dB 의 SIR (Signal to Interference Ratio) 이득을 보임을 입증하였다.

장기공공임대주택 리모델링 사업의 기획단계 영향요인 중요도 분석 (The Analysis of the Importance of Influencing Factors in the Planning Stage of the Long-Term Public Rental Housing of Remodeling Project)

  • 정용찬;김정훈;현창택;이상훈
    • 한국건설관리학회논문집
    • /
    • 제25권3호
    • /
    • pp.3-16
    • /
    • 2024
  • 정부의 주거복지 로드맵(2017.11.)에서 도심에 위치한 중저밀도 노후 영구임대단지를 고밀도로 재건축하여 공공임대주택 공급을 확대하는 방안을 제시하였다. 이러한 방안은 재건축 타당성이 낮은 단지에 대한 리모델링 사업이 공공임대주택 공급을 위한 대안으로 인식된다. 그러나 공공임대주택 사업자가 리모델링 사업 추진을 위한 사업성 평가방법, 사업방식의 결정 절차 등이 미비하여 사업추진이 어려운 실정이다. 이에 본 연구에서는 기획단계에서 노후 장기공공임대주택 리모델링 사업의 예측 가능한 사업구조 수립을 위하여 사업성, 건축계획, 도시·주거환경계획, 법 제도 그룹으로 구분하여 영향요인을 분석하였다. 각 그룹별 주성분 요인을 도출하고 가중치 분석을 하였다. 그리고 주성분 요인의 세부영향요인에 대한 상대적 중요도 점수(RIS)를 산정하여 중요 영향요인을 선정하였다. 추가적으로 중요 영향요인 중 정량적 요인을 활용하여 리모델링 사업 검토를 위한 프로세스를 제안하였으며 서울특별시에 위치한 33개 장기공공임대주택을 대상으로 리모델링 사업이 가능한 단지를 선정하는 방법으로 제안한 프로세스의 실무활용성을 확인하였다. 본 연구의 결과는 공공임대사업자가 장기공공임대주택의 리모델링 사업 계획 수립 시 유용하게 활용될 것으로 기대된다. 다만 본 연구에서는 제시된 중요 영향요인 중 정량적인 요인들에 한하여 실무활용성을 검증하였다. 이에 향후 정성적인 요인들의 활용 및 검증 방안에 대한 연구가 추가적으로 필요할 것으로 판단된다.