• Title/Summary/Keyword: 정규화

Search Result 2,298, Processing Time 0.04 seconds

Evaluating Site-based URL Normalization (사이트 기반의 URL 정규화 평가)

  • Jeong, Hyo-Sook;Kim, Sung-Jin;Lee, Sang-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.28-30
    • /
    • 2005
  • URL 정규화는 다양하게 표현된 동일 URL들을 하나의 통일된(cannonical) 형태의 URL로 변환하는 과정이다. 동일문서에 대한 중복된 URL 표현은 URL 정규화를 통하여 제거된다. 표준 정규화는 잘못된 긍정(동일하지 않는 URL들을 동일 문자열로 변환)이 없도록 개발되었다. 그러나 표준 정규화는 많은 잘못된 부정이 발생하게 되므로, 잘못된 긍정을 일부 허용하면서 잘못된 부정을 현격히 줄일 수 있는 확장 정규화가 제기되고 연구되어 왔다. 본 논문에서는 동일 사이트 내의 URL들에 대한 확장 정규화의 적용 결과가 유사한 정도를 보임으로써, 한 사이트 내의 URL에 대한 임의의 확장 정규화 결과 정보가 동일 사이트 내의 다른 URL들의 정규화에 효과적으로 사용될 수 있음을 보인다. 이를 위하여, 한 사이트의 확장 정규화 결과 동일성 척도와 사이트 기반의 확장 정규화 평가 척도를 제안한다. 20,000만개의 실제 국내 웹 사이트에서 추출된 25만개의 URL에 대해 6가지 확장 정규화가 평가된다.

  • PDF

Supervised Rank Normalization with Training Sample Selection (학습 샘플 선택을 이용한 교사 랭크 정규화)

  • Heo, Gyeongyong;Choi, Hun;Youn, Joo-Sang
    • Journal of the Korea Society of Computer and Information
    • /
    • v.20 no.1
    • /
    • pp.21-28
    • /
    • 2015
  • Feature normalization as a pre-processing step has been widely used to reduce the effect of different scale in each feature dimension and error rate in classification. Most of the existing normalization methods, however, do not use the class labels of data points and, as a result, do not guarantee the optimality of normalization in classification aspect. A supervised rank normalization method, combination of rank normalization and supervised learning technique, was proposed and demonstrated better result than others. In this paper, another technique, training sample selection, is introduced in supervised feature normalization to reduce classification error more. Training sample selection is a common technique for increasing classification accuracy by removing noisy samples and can be applied in supervised normalization method. Two sample selection measures based on the classes of neighboring samples and the distance to neighboring samples were proposed and both of them showed better results than previous supervised rank normalization method.

정규화가 실현할 수 없는 것

  • Korea Database Promotion Center
    • Digital Contents
    • /
    • no.10 s.65
    • /
    • pp.107-111
    • /
    • 1998
  • 필자는 정규화가 실현할 수 없는 몇가지 것들에 대하여 이야기하는 것을 끝으로 정규화에 관한 연재를 마치고자 한다.(우리가 크게 의존하는 기술이 가진 한계점들을 이해하는 일은 항상 중요하다.) 이러한 본인의 견해가 정규화에 대한 어떠한 종류의 비난도 아니라는 점을 분명히 하고자 한다. 그와 정반대로 필자는 과거에 정규화가 '예술에 가까운 노력에 의해 탄생한' 진정한 과학의 한 부분으로 표현한적이 있다. 그 노력이라 함은 물론 데이터베이스 설계이다.(실상 우리는 과거에 비해 조금 더 발달된 과학 기술을 접한다. 하지만 데이터베이스 설계는 여전히 주관적인 판단에 따른 문제라는 기본 사실은 아직도 유효하다.) 정규화는 주관적이기보다 객관적이라는 믿을만한 주장이 있지만, 이러한 주장과 전혀 일치하지 않는 데이터베이스 설계상의 몇 가지 경우도 있다는 사실도 여전히 존재한다.

  • PDF

A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases (시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭)

  • Moon Yang-Sae;Kim Jinho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.157-159
    • /
    • 2005
  • 본 논문에서는 단일 색인을 사용하는 정규화 변환 지원 서브시퀀스 매칭 방법을 제안한다. 기존의 정규화 변환 지원 서브시퀀스 매칭 방법은 질의 시퀀스 길이가 커질수록 성능이 저하되고, 이를 해결하기 위하여 여러개의 색인을 사용하는 방법을 취하였다. 본 논문에서는 하나의 색인을 사용하면서도 다양한 길이의 정규화 변환 지원 서브시퀀스 매칭을 수행하는 효율적인 방법을 제시한다. 이를 위하여, 본 논문에서는 정규화 변환의 정의를 확장하여 일반화 정규화 변환 개념을 제시한다. 또한, 이러한 일반화 정규화 변환 개념을 기존 서브시퀀스 매칭 방법들에 적용하는 방안에 대한 이론적 근거를 각각의 정리로서 제시하고 증명하였다. 그리고, 이들 방안을 구현하기 위한 색인 구성 알고리즘 및 서브시퀀스 매칭 알고리즘을 각각 제시하였다. 본 논문에서 제안한 정규화 변환 지원 서브시퀀스 매칭은 다른 변환을 지원하는 서브시퀀스 매칭으로 일반화 될 수 있는 우수한 연구결과라 사료된다.

  • PDF

An Unified Bayesian Total Variation Regularization Method and Application to Image Restoration (통합 베이즈 총변이 정규화 방법과 영상복원에 대한 응용)

  • Yoo, Jae-Hung
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.17 no.1
    • /
    • pp.41-48
    • /
    • 2022
  • This paper presents the unified Bayesian Tikhonov regularization method as a solution to total variation regularization. The integrated method presents a formula for obtaining the regularization parameter by transforming the total variation term into a weighted Tikhonov regularization term. It repeats until the reconstructed image converges to obtain a regularization parameter and a new weighting factor based on it. The experimental results show the effectiveness of the proposed method for the image restoration problem.

A Mixed Norm Image Restoration Algorithm Using Multi Regularization Parameters (다중 정규화 매개 변수를 이용한 혼합 norm 영상 복원 방식)

  • Choi, Kwon-Yul;Kim, Myoung-Jin;Hong, Min-Cheol
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.32 no.11C
    • /
    • pp.1073-1078
    • /
    • 2007
  • In this paper, we propose an iterative mixed norm image restoration algorithm using multi regularization parameters. A functional which combines the regularized $l_2$ norm functional and the regularized $l_4$ norm functional is proposed to efficiently remove arbitrary noise. The smoothness of each functional is determined by the regularization parameters. Also, a regularization parameter is used to determine the relative importance between the regularized $l_2$ norm functional and the regularized $l_4$ norm functional using kurtosis. An iterative algorithm is utilized for obtaining a solution and its convergence is analyzed. Experimental results demonstrate the capability of the proposed algorithm.

A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases (시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭)

  • Moon Yang-Sae;Kim Jin-Ho;Loh Woong-Kee
    • The KIPS Transactions:PartD
    • /
    • v.13D no.4 s.107
    • /
    • pp.513-524
    • /
    • 2006
  • Normalization transform is very useful for finding the overall trend of the time-series data since it enables finding sequences with similar fluctuation patterns. The previous subsequence matching method with normalization transform, however, would incur index overhead both in storage space and in update maintenance since it should build multiple indexes for supporting arbitrary length of query sequences. To solve this problem, we propose a single index approach for the normalization transformed subsequence matching that supports arbitrary length of query sequences. For the single index approach, we first provide the notion of inclusion-normalization transform by generalizing the original definition of normalization transform. The inclusion-normalization transform normalizes a window by using the mean and the standard deviation of a subsequence that includes the window. Next, we formally prove correctness of the proposed method that uses the inclusion-normalization transform for the normalization transformed subsequence matching. We then propose subsequence matching and index building algorithms to implement the proposed method. Experimental results for real stock data show that our method improves performance by up to $2.5{\sim}2.8$ times over the previous method. Our approach has an additional advantage of being generalized to support many sorts of other transforms as well as normalization transform. Therefore, we believe our work will be widely used in many sorts of transform-based subsequence matching methods.

Normalization of XQuery Queries fur Efficient XML Query Processing (효율적인 XML 질의 처리를 위한 XQuery 질의의 정규화)

  • 김서영;이기훈;황규영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.136-138
    • /
    • 2004
  • XML 이 웹 상에서의 정보 표현, 통합, 교환을 위한 표준이 됨에 따라 다양한 XML 질의 언어들이 제안되었으며, World Wide Web Consortium(W3C)은 XQery를 XML 질의 언어의 표준으로 권고하였다. XQuery는 SQL과 유사하게 중첩 질의를 허용하므로, 중첩된 XQuery 질의를 동일한 의미를 가지면서 보다 효율적으로 실행될 수 있는 질의로 변환하는 정규화 규칙들이 제안되었다. 그러나 제안된 정규화 규칙들은 제한적인 형태의 중첩 질의에만 적용되는 문제점을 가지고 있다 특히, FLWR 표현식의 where 절에 있는 중첩을 처리할 수 없다. 본 논문에서는 SQL 질의의 정규화 규칙들을 확장하여 FLWR 표현식의 모든 절에 나타나는 중첩을 처리할 수 있는 XQuery 질의의 정규화 규칙들을 제안한다 이를 위해 먼저, 상관과 집계의 유무에 따라 XQuery 질의의 중첩 유형을 분류하고, 각 유형 별로 정규화 규칙들을 제안한다 다음으로, 중첩된 XQuery 질의에 정규화 규칙들을 적용하는 세부 알고리즘을 제안한다.

  • PDF

Normalization for Link-Based Similarity Measures in Scientific Literature (논문 데이터베이스에서 링크 기반 유사도 계산을 위한 정규화 방안)

  • Kim, Ji-Soo;Yoon, Seok-Ho;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.130-131
    • /
    • 2010
  • 본 논문에서는 기존 링크 기반 유사도 계산 방안에 사용되는 두 가지 정규화 방안들을 설명하고, 두 정규화 방안 중에서 논문 데이터베이스에 적합한 정규화 방안을 선정한다. 또한, 실제 논문 데이터베이스에 두 가지 정규화 방안을 적용한 기존 링크 기반 유사도 계산 방안의 정확도를 측정함으로써 선정된 정규화 방안이 다른 정규화 방안보다 우수하다는 것을 규명한다.

Efficient Subword Segmentation for Korean Language Classification (한국어 분류를 위한 효율적인 서브 워드 분절)

  • Hyunjin Seo;Jeongjae Nam;Minseok Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.535-540
    • /
    • 2022
  • Out of Vocabulary(OOV) 문제는 인공신경망 기계번역(Neural Machine Translation, NMT)에서 빈번히 제기되어 왔다. 이를 해결하기 위해, 기존에는 단어를 효율적인 압축할 수 있는 Byte Pair Encoding(BPE)[1]이 대표적으로 이용되었다. 하지만 BPE는 빈도수를 기반으로 토큰화가 진행되는 결정론적 특성을 취하고 있기에, 다양한 문장에 관한 일반화된 분절 능력을 함양하기 어렵다. 이를 극복하기 위해 최근 서브 워드를 정규화하는 방법(Subword Regularization)이 제안되었다. 서브 워드 정규화는 동일한 단어 안에서 발생할 수 있는 다양한 분절 경우의 수를 고려하도록 설계되어 다수의 실험에서 우수한 성능을 보였다. 그러나 분류 작업, 특히 한국어를 대상으로 한 분류에 있어서 서브 워드 정규화를 적용한 사례는 아직까지 확인된 바가 없다. 이를 위해 본 논문에서는 서브 워드 정규화를 대표하는 두 가지 방법인 유니그램 기반 서브 워드 정규화[2]와 BPE-Dropout[3]을 이용해 한국어 분류 문제에 대한 서브 워드 정규화의 효과성을 제안한다. NMT 뿐만 아니라 분류 문제 역시 단어의 구성성 및 그 의미를 파악하는 것은 각 문장이 속하는 클래스를 결정하는데 유의미한 기여를 한다. 더불어 서브 워드 정규화는 한국어의 문장 구성 요소에 관해 폭넓은 인지능력을 함양할 수 있다. 해당 방법은 본고에서 진행한 한국어 분류 과제 실험에서 기존 BPE 대비 최대 4.7% 높은 성능을 거두었다.

  • PDF