• Title/Summary/Keyword: 선택 빈도

Search Result 861, Processing Time 0.032 seconds

Automatic Classification of Blog Posts using Various Term Weighting (다양한 어휘 가중치를 이용한 블로그 포스트의 자동 분류)

  • Kim, Su-Ah;Jho, Hee-Sun;Lee, Hyun Ah
    • Journal of Advanced Marine Engineering and Technology
    • /
    • v.39 no.1
    • /
    • pp.58-62
    • /
    • 2015
  • Most blog sites provide predefined classes based on contents or topics, but few bloggers choose classes for their posts because of its cumbersome manual process. This paper proposes an automatic blog post classification method that variously combines term frequency, document frequency and class frequency from each classes to find appropriate weighting scheme. In experiment, combination of term frequency, category term frequency and inversed (excepted category's) document frequency shows 77.02% classification precisions.

Functional ARCH analysis for a choice of time interval in intraday return via multivariate volatility (함수형 ARCH 분석 및 다변량 변동성을 통한 일중 로그 수익률 시간 간격 선택)

  • Kim, D.H.;Yoon, J.E.;Hwang, S.Y.
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.3
    • /
    • pp.297-308
    • /
    • 2020
  • We focus on the functional autoregressive conditional heteroscedasticity (fARCH) modelling to analyze intraday volatilities based on high frequency financial time series. Multivariate volatility models are investigated to approximate fARCH(1). A formula of multi-step ahead volatilities for fARCH(1) model is derived. As an application, in implementing fARCH(1), a choice of appropriate time interval for the intraday return is discussed. High frequency KOSPI data analysis is conducted to illustrate the main contributions of the article.

Bibliographic Use and Scatting of Foreign Academic Journal in Library and Information Science (문헌정보학분야의 외국학술잡지 이용빈도와 이용분포에 관한 연구 - 박사학위 논문을 중심으로 -)

  • Hong, Ki-Churl
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.35 no.3
    • /
    • pp.35-54
    • /
    • 2001
  • The Libraries are face to difficult of academic journal subscription for the increasing price of journal and the increasing number of journal. Bibliographic citation analysis is one of method of evaluating the use of a journal collection. This study is used bibliographic use and scatting of foreign academic journal in Library and Information Science found in doctorial dissertation of graduate students in Seoul city, for serve to complement another method of journal evaluation. Journal selection and cancellation may be done on the basis to dispersion of journal citation to usefulness of journal subscription in the library budget. But the library should not rely on one single evaluation technique, it should take advantage of combination technique.

  • PDF

Query Term Expansion and Reweighting using Term Co-Occurrence Similarity and Fuzzy Inference (용어 발생 유사도와 퍼지 추론을 이용한 질의 용어 확장 및 가중치 재산정)

  • Kim, Ju-Yeon;Kim, Byeong-Man
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.9
    • /
    • pp.961-972
    • /
    • 2000
  • 본 논문에서는 사용자의 적합 피드백을 기반으로 적합 문서들에서 발생하는 용어들과 초기 질의어간의 발생 빈도 유사도 및 퍼지 추론을 이용하여 용어의 가중치를 산정하는 방법에 대하여 제안한다. 피드백 문서들에서 발생하는 용어들 중에서 불용어를 제외한 모든 용어들을 질의어로 확장될 수 있는 후보 용어들로 선택하고, 발생 빈도 유사성을 이용한 초기 질의어-후보 용어의 관련 정도, 용어의 IDF, DF 정보를 퍼지 추론에 적용하여 후보 용어의 초기 질의어에 대한 최종적인 관련 정도를 산정 하였으며, 피드백 문서들에서의 가중치와 관련 정도를 결합하여 후보 용어들의 가중치를 산정 하였다. 본 논문에서는 성능을 평가하기 위하여 KT-set 1.0과 KT-set 2.0을 사용하였으며, 성능의 상대적인 평가를 위하여 Dec-Hi 방법, 용어 분포 유사도를 이용한 방법, 퍼지 추론을 이용한 방법들을 정확률-재현률을 사용하여 평가하였다.

  • PDF

The Changing Point Analysis of Annual Maximum Rainfall

  • Sung, Jang-Hyun;Kang, Hyun-Suk;Park, Su-Hee;Cho, Chun-Ho;Kim, Young-Oh
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.22-22
    • /
    • 2011
  • 기존의 빈도해석(frequency analysis) 방법은 자료의 정상성(stationarity)을 가정하고 있다. 즉, 자료 분포가 기상에 영향을 받는 정도가 통계적으로 유의하지 않다는 것을 의미하는데 최근의 관측값들은 주기를 나타내거나 증가, 감소하는 경향을 자주 보이고 있고 이는 정상성에 대한 가정이 더 이상 유효하지 않음을 의미한다. 본 연구는 최근 증가경향이 두드러지게 나타나고 있는 관측 연최대 일강우량을 대상으로 증가 변동점(changing point)을 탐색하였다. 이를 위하여 Barry and Hartigan이 1999년에 제안한 BCP (Bayesian Change Point) 방법을 우리나라 전체 강우 관측지점에 적용하였다. 적용 결과, 2000년대를 기준으로 이전의 관측값과 통계적 특성이 다른 관측값들이 많이 발생하는 것을 알 수 있었다. 향후, 매개변수와 시간의 회귀분석(regression analysis)으로 확률분포형의 미래 매개변수를 구하는 비정상성 빈도해석 방법 적용시, BCP 결과로 얻은 변동점을 바탕으로 회귀분석의 구간을 적절하게 선택한다면 계산된 결과의 신뢰성이 더욱 향상되리라 본다.

  • PDF

The Design and Implementation of Method for Providing VCR Functions in VOD (VOD상에서 VOR 기능 제공 방법 설계 및 구현)

  • Hong, Myung-Joon;Park, Ho-Kyun;Ryou, Hwang-Bin
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.10
    • /
    • pp.2421-2433
    • /
    • 1997
  • In this paper, based on the relative logical storage cost of each movie by the difference of service request probability, we propose and implement the SDU(Separate Data Use) method and the EDU(Existing Data Use) method to provide FF(Fast Forward) and FR(Fast Reverse) function in efficiently through analysing MPEG bit stream and frame characteristics. By selecting and applying the FF/FR function providing method based on the service request probability of movie, the proposed method can reduce the cost of FF/FR functions for total serviced movies.

  • PDF

An Automatic Spam e-mail Filter System Using χ2 Statistics and Support Vector Machines (카이 제곱 통계량과 지지벡터기계를 이용한 자동 스팸 메일 분류기)

  • Lee, Songwook
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.592-595
    • /
    • 2009
  • We propose an automatic spam mail classifier for e-mail data using Support Vector Machines (SVM). We use a lexical form of a word and its part of speech (POS) tags as features. We select useful features with ${\chi}^2$ statistics and represent each feature using text frequency (TF) and inversed document frequency (IDF) values for each feature. After training SVM with the features, SVM classifies each email as spam mail or not. In experiment, we acquired 82.7% of accuracy with e-mail data collected from a web mail system.

  • PDF

Selection Technique of Filter based on Analysis for Variables of Dual Polarized Radar (이중편파레이더 변수 분석 기반 필터 선정 기법)

  • Lee, Keon Haeng;Lim, Sanghun;Jang, Bong Joo;Hyun, Myung Suk;Lee, Dong Ryul
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.517-517
    • /
    • 2015
  • 레이더에 수신된 신호는 신호처리기를 통해 자료의 해석시 불필요한 지형에코를 제거하는 과정을 거친다. 신호처리기의 필터는 레이더의 기종에 따라 다르나, 일반적으로 도플러 속도나 스펙트럼 폭의 값에 따라 지형에코를 제거하며, 이 값들에 따라 번호를 부여하여 필터를 선택적으로 이용할 수 있도록 되어 있다. 본 연구에서는 국토교통부에서 운영하고 있는 비슬산 강우레이더와 소백산 강우레이더의 필터번호에 따른 반사도의 빈도 영역 그래프, 반사도-차등반사도의 빈도 산포도, 반사도와 차등반사도의 평균 및 표준편차를 통해 적정 필터를 선정하고자 하였다. 이 때, 지형에코와 기상에코의 제거 정도 확인을 위해 레이더 관측반경 50 km를 기준으로 비교를 수행하였다. 그 결과, 1번 필터 이후에는 필터에 따른 큰 변화가 없어 1번 필터를 사용하는 것이 기상에코를 보존하면서 지형에코를 제거하는 효과가 가장 좋은 것으로 판단되었다.

  • PDF

A Study on the Dense Vector Representation of Query-Passage for Open Domain Question Answering (오픈 도메인 질의응답을 위한 질문-구절의 밀집 벡터 표현 연구)

  • Minji Jung;Saebyeok Lee;Youngjune Kim;Cheolhun Heo;Chunghee Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.115-121
    • /
    • 2022
  • 질문에 답하기 위해 관련 구절을 검색하는 기술은 오픈 도메인 질의응답의 검색 단계를 위해 필요하다. 전통적인 방법은 정보 검색 기법인 빈도-역문서 빈도(TF-IDF) 기반으로 희소한 벡터 표현을 활용하여 구절을 검색한다. 하지만 희소 벡터 표현은 벡터 길이가 길 뿐만 아니라, 질문에 나오지 않는 단어나 토큰을 검색하지 못한다는 취약점을 가진다. 밀집 벡터 표현 연구는 이러한 취약점을 개선하고 있으며 대부분의 연구가 영어 데이터셋을 학습한 것이다. 따라서, 본 연구는 한국어 데이터셋을 학습한 밀집 벡터 표현을 연구하고 여러 가지 부정 샘플(negative sample) 추출 방법을 도입하여 전이 학습한 모델 성능을 비교 분석한다. 또한, 대화 응답 선택 태스크에서 밀집 검색에 활용한 순위 재지정 상호작용 레이어를 추가한 실험을 진행하고 비교 분석한다. 밀집 벡터 표현 모델을 학습하는 것이 도전적인 과제인만큼 향후에도 다양한 시도가 필요할 것으로 보인다.

  • PDF

An Adaptive Materialized Query Selection Method in a Mediator System (미디에이터 시스템의 적응적 구체화 질의 선택방법)

  • Joo, Kil-Hong;Lee, Won-Suk
    • The KIPS Transactions:PartD
    • /
    • v.11D no.1
    • /
    • pp.83-94
    • /
    • 2004
  • Recent researches which purport to Integrate distributed information have been concentrated on developing efficient mediator systems that not only provide a high degree of autonomy for local users but also support the flexible integration of required functions for global users. However, there has been little attention on how to evaluate a global query in a mediator. A global query is transformed into a set of its sub-queries and each sub-query is the unit of evaluation in a remote server. Therefore, it is possible to speed up the execution of a global query if the previous results of frequently evaluated sub-queries are materialized in a mediator. Since the Integration schema of a mediator can be incrementally modified and the evaluation frequency of a global query can also be continuously varied, query usage should be carefully monitored to determine the optimized set of materialized sub-queries. Furthermore, as the number of sub-queries increases, the optimization process itself may take too long, so that the optimized set Identified by a long optimization process nay become obsolete due to the recent change of query usage. This paper proposes the adaptive selection of materialized sub-queries such that available storage in a mediator can be highly utilized at any time. In order to differentiate the recent usage of a query from the past, the accumulated usage frequency of a query decays as time goes by.