• 제목/요약/키워드: Apriori

검색결과 144건 처리시간 0.047초

Phonetics and Language as a formal System

  • Port, Robert F.;Leary, Adam P.
    • 인문언어
    • /
    • 제5권
    • /
    • pp.221-264
    • /
    • 2003
  • This paper takes issue with the idea of language as a 'serial-time structure' as opposed to the 'real-time event' of speech, an idea entrenched in Chomskyan model of linguistic theory. The discussion centers around the leitmotif question: Is language constructed entirely from a finite set of apriori discrete symbol types, as the 'competence vs performance' dichotomy implies\ulcorner A set of linguistic patterns examined in this study, largely with regard to phonological considerations, points to the evidence to the contrary. That is, while the patterns may be said to be linguistically distinct, they are not discretely, different, i.e. not different enough to be reliably differentiated. It is demonstrated that much of current research in phonology, including the most recent Optimality Theory, is misdirected in that it falsely presupposes a discrete universal phonetic inventory. The main thrust of the present study is that there is no sharp boundary between 'competence' defined as the formal, symbolic, discrete time domain of language and human cognition on the one hand and 'performance' as the continuous, fuzzy, real-time domain of human physiology on the other.

  • PDF

수량적 속성을 포함하는 항목 제약을 고려한 연관규칙 마이닝 앨고리듬 (An Association Discovery Algorithm Containing Quantitative Attributes with Item Constraints)

  • 한경록;김재련
    • 산업경영시스템학회지
    • /
    • 제22권50호
    • /
    • pp.183-193
    • /
    • 1999
  • The problem of discovering association rules has received considerable research attention and several fast algorithms for mining association rules have been developed. In this paper, we propose an efficient algorithm for mining quantitative association rules with item constraints. For categorical attributes, we map the values of the attribute to a set of consecutive integers. For quantitative attributes, we can partition the attribute into values or ranges. While such constraints can be applied as a post-processing step, integrating them into the mining algorithm can reduce the execution time. We consider the problem of integrating constraints that are boolean expressions over the presence or absence of items containing quantitative attributes into the association discovery algorithm using Apriori concept.

  • PDF

Augmented Rotation-Based Transformation for Privacy-Preserving Data Clustering

  • Hong, Do-Won;Mohaisen, Abedelaziz
    • ETRI Journal
    • /
    • 제32권3호
    • /
    • pp.351-361
    • /
    • 2010
  • Multiple rotation-based transformation (MRBT) was introduced recently for mitigating the apriori-knowledge independent component analysis (AK-ICA) attack on rotation-based transformation (RBT), which is used for privacy-preserving data clustering. MRBT is shown to mitigate the AK-ICA attack but at the expense of data utility by not enabling conventional clustering. In this paper, we extend the MRBT scheme and introduce an augmented rotation-based transformation (ARBT) scheme that utilizes linearity of transformation and that both mitigates the AK-ICA attack and enables conventional clustering on data subsets transformed using the MRBT. In order to demonstrate the computational feasibility aspect of ARBT along with RBT and MRBT, we develop a toolkit and use it to empirically compare the different schemes of privacy-preserving data clustering based on data transformation in terms of their overhead and privacy.

데이터 마이닝에서 샘플링 기법을 이용한 연속패턴 알고리듬 (An Algorithm for Sequential Sampling Method in Data Mining)

  • 홍지명;김낙현;김성집
    • 산업경영시스템학회지
    • /
    • 제21권45호
    • /
    • pp.101-112
    • /
    • 1998
  • Data mining, which is also referred to as knowledge discovery in database, means a process of nontrivial extraction of implicit, previously unknown and potentially useful information (such as knowledge rules, constraints, regularities) from data in databases. The discovered knowledge can be applied to information management, decision making, and many other applications. In this paper, a new data mining problem, discovering sequential patterns, is proposed which is to find all sequential patterns using sampling method. Recognizing that the quantity of database is growing exponentially and transaction database is frequently updated, sampling method is a fast algorithm reducing time and cost while extracting the trend of customer behavior. This method analyzes the fraction of database but can in general lead to results of a very high degree of accuracy. The relaxation factor, as well as the sample size, can be properly adjusted so as to improve the result accuracy while minimizing the corresponding execution time. The superiority of the proposed algorithm will be shown through analyzing accuracy and efficiency by comparing with Apriori All algorithm.

  • PDF

생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝 (Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences)

  • 강태호;유재수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.645-648
    • /
    • 2006
  • 생물학적 데이터 서열에는 크게 DNA 서열과 단백질 서열이 있다. 이들 서열 데이터들은 여러 데이터베이스에 걸쳐 매우 방대한 양을 가지고 있으며, 각각의 서열은 수백 또는 수천 개의 항목들을 가지고 있어 길이가 매우 길다. 일반적으로 유전적인 변형, 또는 변이로부터 보존된 영역이나 특정 패턴들을 서열 안에 포함하고 있는데 생물학적 서열 데이터에서 보존된 영역이나 패턴들은 계통발생학적 근거로 활용 될 수도 있으며 기능과 밀접한 관계를 가지기도 한다. 따라서 서열들로부터 빈번하게 발생하는 패턴을 발견하고자 하는 알고리즘 개발이 요구되고 있다. 초창기 Apriori 알고리즘을 변형하여 빈발 패턴을 발견하고자 하는 노력들로부터 근래에는 PrefixSpan 트리를 이용하여 효과적으로 성능을 개선하고 있지만 아직까지는 여러 번의 데이터베이스 접근이 요구되고 있어 성능저하가 발생한다. 이에 본 논문에서는 접미사 트리를 변형하여 데이터베이스 접근을 획기적으로 줄이고 많은 서열들로부터 빈번하게 발생하는 연속적인 서열을 효과적으로 발견하는 방법을 제안한다.

  • PDF

협력적 필터링을 위해 연관 단어 빈도를 이용한 웹 문서 분류 (Classification of Web Documents Using Associative Word Frequency for Collaborative Filtering)

  • 하원식;정경용;정헌만;류중경;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.160-162
    • /
    • 2004
  • 기존의 웹 문서 분류 시스템서는 많은 시간과 노력을 요구하며, 연관 단어가 아닌 단일 단어만으로 웹 문서들을 분류하여 단어의 중의성을 반영하지 못해 많은 오분류가 있었다. 이러한 문제점을 해결하기 위해 본 논문에서는 협력적 필터링을 위한 연관 단어 빈도를 사용한 웹 문서 분류 방법을 제안한다. 제안된 방법에서는 웹 문서 내에서 단어들을 추출하고 빈도 가중치를 계산한다. 추출된 단어를 Apriori 알고리즘에 의해 연관 규칙을 생성하고 신뢰도에 단어 빈도 가중치를 반영한다. 수정된 신뢰도를 ARHP 알고리즘에 적용하여 연관 단어들 사이의 유사정도를 계산하고 유사 클래스를 구성한다 생성된 유사 클래스들을 기반으로 웹 문서를 $\alpha$-cut을 이용하여 분류한다 성능평가를 위해 기존의 문서 분류 방법들과 비교 평가를 하였다.

  • PDF

사용자 접근 패턴 분석을 이용한 적응형 웹사이트 구축에 관한 연구 (A Study on Adaptive Web Site Construction by Analyzing User Access Patterns)

  • 고경자;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 추계정기학술대회:지능형기술과 CRM
    • /
    • pp.151-157
    • /
    • 2000
  • 본 논문에서는 웹사이트에 접근하는 사용자 접근 패턴을 학습하여 정보 제공이 보다 용이한 구조로 자동 개선시켜 나가는 적응형 웹사이트를 구축하고자 한다. 즉, 기존 웹사이트의 구조를 가늠한 한 파괴하지 않는 범위 내에서 김 사이트를 변경하고자 관련성은 높으나 접근 경로가 긴 문서들의 클러스터를 찾아내고, 이들에 대한 별도의 색인 페이지를 생성하여 웹사이트 내에 위치시킨다. 이를 위하여, 먼저 대용량의 웹 서버 로그 데이터들을 대상으로 순차 패턴 탐색 방법인 AprioriAll 알고리즘을 적용함으로써 웹문서간의 충분한 연관성 지지도를 갖는 사용자 순차 접근 패턴을 분석해낸다. 사용자 순차 접근 패턴 분석을 통해 관련성 있는 문서들의 집합을 알아낸 후, 웹사이트의 하이퍼 링크 구조 정보를 고려하여 접근 경로가 긴 문서들만을 골라 웹 문서 클러스터를 생성시킨다. 이러한 웹문서 클러스터들에 대한 색인 페이지를 추가 생성하여 제공함으로써 사용자들의 보다 효과적인 정보 접근을 지원한 수 있는 웹사이트로의 변경이 가능하다.

  • PDF

L2-tree를 이용한 효율적인 빈발항목 집합 탐사 (An Efficient Algorithm for mining frequent itemsets using L2-tree)

  • 박인창;장중혁;이원석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.259-261
    • /
    • 2002
  • 데이터마이닝 분야에서 빈발항목집합 탐사에 관한 연구는 활발히 진행되어 왔지만 여전히 많은 메모리 공간과 시간을 필요로 한다. 특히 apriori 알고리즘에 기반한 방법들은 긴 패턴이 생성될수록 지수적으로 시간과 공간이 증가한다. 최근에 발표된 fp-growth는 일반적인 데이터 집합에서 우수한 성능을 보이나 희소 데이터 집합에서 효율적인 성능을 보여주지 못한다. 본 논문에서는 길이가 2인 빈발항목집합 L2에 기반한 L2-tree 구조를 제안한다. 또한 L2-tree에서 빈발항목집합을 탐사하는 L2-traverse 알고리즘을 제안한다. L2-tree는 L2를 기반으로 하기 때문에 L2가 상대적으로 적은 희소 데이터 집합 환경에서 적은 메모리 공간을 사용하게 된다. L2-traverse 알고리즘은 별도의 추출 데이터베이스를 생성하는 FP-growth와 달리 단순히 L2-tree를 오직 한번의 깊이 우선 탐사를 통해 빈발항목집합을 찾는다. 최적화 기법으로써 길이가 3인 빈발항목집합 L3가 되지 않는 L2 패턴들을 미리 제거하는 방법으로 C3-traverse 알고리즘을 제안하며 실험을 통해 기존 알고리즘과 비교 검증한다.

  • PDF

Big-data Analytics: Exploring the Well-being Trend in South Korea Through Inductive Reasoning

  • Lee, Younghan;Kim, Mi-Lyang;Hong, Seoyoun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권6호
    • /
    • pp.1996-2011
    • /
    • 2021
  • To understand a trend is to explore the intricate process of how something or a particular situation is constantly changing or developing in a certain direction. This exploration is about observing and describing an unknown field of knowledge, not testing theories or models with a preconceived hypothesis. The purpose is to gain knowledge we did not expect and to recognize the associations among the elements that were suspected or not. This generally requires examining a massive amount of data to find information that could be transformed into meaningful knowledge. That is, looking through the lens of big-data analytics with an inductive reasoning approach will help expand our understanding of the complex nature of a trend. The current study explored the trend of well-being in South Korea using big-data analytic techniques to discover hidden search patterns, associative rules, and keyword signals. Thereafter, a theory was developed based on inductive reasoning - namely the hook, upward push, and downward pull to elucidate a holistic picture of how big-data implications alongside social phenomena may have influenced the well-being trend.

Association Rules of Comorbidities in Dementia by Using Korea National Hospital Discharge In-depth Injury Survey Data

  • Kim, Mijung
    • International journal of advanced smart convergence
    • /
    • 제11권1호
    • /
    • pp.127-133
    • /
    • 2022
  • This study aims to find out the associative relationship between dementia and comorbidities. To conduct this study, we used KNHDIS(Korea National Hospital Discharge In-depth Injury Survey) data from 2009 to 2018 provided by the KDCA(Korean Disease Control and Prevention Agency) annually. We used MySQL for data preprocessing and R for data analysis. As a result of applying the Apriori algorithm criteria of support(≥0.01), confidence(≥ 0.6), and lift(>1), seventeen rules related to dementia were discovered. The diseases associated with dementia were diabetes mellitus, hypertension, disorders of lipoprotein metabolism, glomerular disorders in diabetes mellitus, renal diseases, cardiovascular disease, cerebrovascular disease, and other urinary system disorders. This study can be utilized as primary data for the care of patients with dementia and provides implications for improving effective dementia prevention policies.