• Title/Summary/Keyword: 군집 적합도

Search Result 339, Processing Time 0.043 seconds

Translation Clustering and Adequate Translation Selection by Surface Form (형태정보를 이용한 대역어 군집화 및 적합대역어 선정)

  • Koo Heekwan;Jung Hanmin;Lee Mikyoung;Sung Won-Kyung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.532-534
    • /
    • 2005
  • 본 논문은 자동적인 언어기반자원구축을 위해 신문 말뭉치에서 괄호를 이용하여 추출한 대역어쌍들을 군집화하고 각 군집에서 적합대역어를 선정하는 방법을 제안한다. 기존 연구에서 주로 제시된 음차표기어 대역쌍 추출 방법은 완전한 형태의 영어원어 자소 정보를 이용하기 때문에 약어는 고려대상에서 제외되었다. 그러나 약어형태의 영어원어가 신문에서는 약 $82\%$를 차지하기 때문에 이를 처리할 방법이 필요하다. 따라서 본 논문에서는 바이그램을 기본으로 하는 형태정보를 이용하여 적합대역어를 선정하고 이와 형태정보를 공유하는 한국어대역어쌍들을 군집화한다. 또한, 음차표기어와 두문자어에 대한 처리를 추가하여 적용범위를 넓힌다. 실험을 위하여 신문말뭉치에서 추출한 대역어쌍 1,806개 중 영어원어를 기준으로 한국어대역어의 수가 5개 이상인 대역어쌍 집합 200개를 선정하였다. 본 논문에서 제시한 방법으로 측정한 결과, 대역어 군집화에 대해서는 $74\%$의 정확율과 $65\%$의 재현율을, 적합대역어 선정에 대해서는 $97\%$의 정확율을 보였다.

  • PDF

A Study of Library Grouping using Cluster Analysis Methods (군집분석 기법을 이용한 공공도서관 그룹화에 대한 연구)

  • Kwak, Chul Wan
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.31 no.3
    • /
    • pp.79-99
    • /
    • 2020
  • The purpose of this study is to investigate the model of cluster analysis techniques for grouping public libraries and analyze their characteristics. Statistical data of public libraries of the National Library Statistics System were used, and three models of cluster analysis were applied. As a result of the study, cluster analysis was conducted based on the size of public libraries, and it was largely divided into two clusters. The size of the cluster was largely skewed to one side. For grouping based on size, the ward method of hierarchical cluster analysis and the k-means cluster analysis model were suitable. Three suggestions were presented as implications of the grouping method of public libraries. First, it is necessary to collect library service-related data in addition to statistical data. Second, an analysis model suitable for the data set to be analyzed must be applied. Third, it is necessary to study the possibility of using cluster analysis techniques in various fields other than library grouping.

Impact on Fish Community by Restoration of Ecological Waterway using Physical Habitat Simulation (물리서식처 분석을 통한 생태 물길 복원이 다양한 군집종에 미치는 영향)

  • Choi, Heung Sik;Choi, Jonggeun;Choi, Byungwoong
    • Ecology and Resilient Infrastructure
    • /
    • v.6 no.1
    • /
    • pp.1-11
    • /
    • 2019
  • This study performed the impact of ecological waterway on fish community in a reach of the Dal River, Korea. Fish monitoring revealed that 9 fish species are dominant, namely Zacco platypus, Coreoleuciscus splendidus, Zacco koreanus, Pungtungia herzi, Acheilognathus yamatsutae, Rhinogobius brunneus, Tanakia signifer, Gobiobotia macrocephala, and Pseudopungtungia tenuicorpus, and account for 95% of the total fish community. The River2D model was used for the computation of the flow and the HSI model for the habitat simulation. The restoration of the waterway performed through the small dam removal, the formation of the pool-riffle structure, and the change of the bed elevation and width. Simulation results indicated that the restoration of the ecological waterway effects significantly increased by about 16% for the WUA (Weighted Usable Area) of the total fish community in optimal ecological flow conditions ($Q=7.0m^3/s$). The restoration of the ecological waterway is more advantageous to fish community.

Region Based Image Similarity Search using Multi-point Relevance Feedback (다중점 적합성 피드백방법을 이용한 영역기반 이미지 유사성 검색)

  • Kim, Deok-Hwan;Lee, Ju-Hong;Song, Jae-Won
    • The KIPS Transactions:PartD
    • /
    • v.13D no.7 s.110
    • /
    • pp.857-866
    • /
    • 2006
  • Performance of an image retrieval system is usually very low because of the semantic gap between the low level feature and the high level concept in a query image. Semantically relevant images may exhibit very different visual characteristics, and may be scattered in several clusters. In this paper, we propose a content based image rertrieval approach which combines region based image retrieval and a new relevance feedback method using adaptive clustering together. Our main goal is finding semantically related clusters to narrow down the semantic gap. Our method consists of region based clustering processes and cluster-merging process. All segmented regions of relevant images are organized into semantically related hierarchical clusters, and clusters are merged by finding the number of the latent clusters. This method, in the cluster-merging process, applies r: using v principal components instead of classical Hotelling's $T_v^2$ [1] to find the unknown number of clusters and resolve the singularity problem in high dimensions and demonstrate that there is little difference between the performance of $T^2$ and that of $T_v^2$. Experiments have demonstrated that the proposed approach is effective in improving the performance of an image retrieval system.

Study of Rainfall Quantile Estimation using Cluster Analysis and Regional Frequency Analysis (군집분석과 지역빈도해석을 이용한 확률강우량 추정에 대한 연구)

  • Jung, Young-Hun;Jeong, Chang-Sam;Nam, Woo-Sung;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2010.05a
    • /
    • pp.288-291
    • /
    • 2010
  • 본 연구에서는 한강유역 109개 지점의 강우관측소에서 관측된 지속기간별 연최대강우량을 산정하고 지역빈도해석을 적용하기 위하여 한강유역에 대하여 지역구분을 실시하였다. 지역구분은 군집분석 방법인 Ward 방법, 평균연결법, Fuzzy-c means 방법, Two-Step 방법을 적용하였으며 군집분석을 수행하기 위해서 한강유역의 지점별 기상학적 인자와 지형학적 인자를 이용하여 군집분석을 수행하였다. 그 중 Fuzzy-c means 방법을 이용한 지역구분이 적합한 것으로 나타났다. 또한 모든 지속기간에 대하여 적합성 척도를 산정한 결과 GLO 분포형이 적정분포형으로 나타났으며, 지역빈도해석 방법인 지수홍수법을 이용하여 산정한 확률강우량과 지점빈도해석으로 산정한 확률강우량과 비교하여 적용성을 판단하였다.

  • PDF

Determination of Optimal Cluster Size Using Bootstrap and Genetic Algorithm (붓스트랩 기법과 유전자 알고리즘을 이용한 최적 군집 수 결정)

  • Park, Min-Jae;Jun, Sung-Hae;Oh, Kyung-Whan
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.13 no.1
    • /
    • pp.12-17
    • /
    • 2003
  • Optimal determination of cluster size has an effect on the result of clustering. In K-means algorithm, the difference of clustering performance is large by initial K. But the initial cluster size is determined by prior knowledge or subjectivity in most clustering process. This subjective determination may not be optimal. In this Paper, the genetic algorithm based optimal determination approach of cluster size is proposed for automatic determination of cluster size and performance upgrading of its result. The initial population based on attribution is generated for searching optimal cluster size. The fitness value is defined the inverse of dissimilarity summation. So this is converged to upgraded total performance. The mutation operation is used for local minima problem. Finally, the re-sampling of bootstrapping is used for computational time cost.

Enhancing Document Clustering Method using Synonym of Cluster Topic and Similarity (군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법)

  • Park, Sun;Kim, Chul-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1538-1541
    • /
    • 2011
  • 본 논문은 군집 주제의 유의어와 유사도를 이용하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 비음수행렬분해의 의미특징을 이용하여 군집 주제(topic)의 용어들을 선택함으로서 문서 군집 집합의 내부구조를 잘 표현할 수 있으며, 군집 주제의 용어들에 워드넷의 유의어를 사용하여서 확장함으로써 문서를 용어집합(bag-of-words)으로 표현하는 문제를 해결할 수 있다. 또한 확장된 군집 주제의 용어와 문서집합에 코사인 유사도를 이용하여서 군집의 주제에 적합한 문서를 잘 군집하여서 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

Analysis of Channel Habitat Characteristics for Soundness of Fish Community at Wonju-stream (원주천의 어류군집 건전화를 위한 하도의 서식구조 특성분석)

  • Choi, Heung Sik;Choi, Jun Kil
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.29 no.3B
    • /
    • pp.311-317
    • /
    • 2009
  • Similarity indices between sampling sites are calculated and cluster analysis of fish community is carried out by UPGMA based on investigating fish fauna and water environment. The restoration indicators as target species of Wonju stream are selected Cottus poecilopus, Zacco temmincki, and Zacco platypus along upper, middle, and lower streams, respectively. For better habitat suitability, low flow increasing and induced water quality improving must be secured by sewer system rearrangement and watershed management. Composite habitat suitability of Zacco temmincki as target species at middle stream of Wonju stream improve significantly by low flow increasing, which is very important factor to improve habitat suitability. The changes of hydraulics of depth and velocity govern the habitat suitability in general, but the effects are not significant. Low flow increasing with the change of 10% reducing of lower channel improves the composite habitat suitability of 0.37~0.78 to their origin of 0.1~0.25, which represent the channel restoration scheme of Wonju stream for enhancing the habitat suitability of fish community.

Car License Plate Extraction Based on Numeral Recognition (숫자 인식에 기반한 자동차 번호판 추출)

  • Lee, Duk-Ryong;Oh, Il-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.407-411
    • /
    • 2007
  • 이 논문은 우리나라 차량 영상에서 번호판 영역을 추출하는 알고리즘을 제안한다. 우리나라 번호판은 하단에 네개의 숫자를 포함하고 있으므로, 네 개의 숫자를 찾으면 번호판을 추출 할 수 있다. 제안하는 방법은 입력된 영상에서 숫자의 가능성을 가진 연결 요소를 검출하고 이들을 군집화 한다. 군집화 된 연결요소들을 바탕으로 숫자 네개(4-digits) 후보를 생성한다. 4-digits 후보들을 인식하여 숫자의 가능성을 측정하고, 적합도로 변환한다. 후보영역 중 적합도가 가장 높은 영역을 번호판 영역으로 추출한다. 적합도는 Perfect Metrics 방법으로 측정하였다. 제안하는 방법을 주간 영상 4600장과 야간 영상 264장으로 테스트 한 결과 각각 97.23%, 95.45%의 검출률과 0.09%, 0.11%의 오검출률을 얻었다.

  • PDF

Comparative Study of Regional Frequency Analysis Methods of Rainfall in Han River Basin (한강 유역에서의 강우 지역빈도 해석 방법의 비교 연구)

  • Um, Myoung-Jin;Lim, Seung-Teak;Nam, Woo-Sung;Cho, Won-Cheol;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2008.05a
    • /
    • pp.1072-1076
    • /
    • 2008
  • 본 연구에서는 한강유역 109개 지점의 강우관측소에서 관측된 지속기간별 연최대강우량을 기본으로 각 지속기간별 L-모멘트값을 산정하고, 한강유역에 적합한 빈도해석기법을 정의하기 위하여 지역구분을 실시하였다. 지역구분을 위한 군집분석을 수행하기 위하여 각 지점별 기상학적 인자와 지형학적 인자를 변수로 사용하였다. 군집분석 기법인 Ward, 평균연결법, Fuzzy-c means, Two-Step방법을 이용하여 지역구분을 실시하였다. GIS를 이용하여 각 방법들을 이용하여 군집된 결과를 도시한 결과 Fuzzy-c means방법으로 구분된 지역구분이 적합한 것으로 나타났다. 또한 구분된 지역의 동질성 여부를 판단하고 적정 분포형을 선정하였으며 지점빈도해석 및 지역빈도해석을 통하여 빈도별 확률 수문량을 산정하였다. 산정된 결과의 정확도 알아보기 위해 모의발생을 시킨 후, 각 기법별로 산정된 상대 평균 제곱근 오차(Relative Root Mean Square Error, RRMSE)를 비교 분석한 결과 대체적으로 지수홍수법과 계층적 방법이 낮은 RRMSE를 나타냈다. 따라서 한강유역에서는 지수홍수법과 계층적 방법을 적용한 지역빈도해석이 적합한 것으로 판단된다.

  • PDF