• 제목/요약/키워드: 연관규칙 마이닝

검색결과 286건 처리시간 0.026초

연관규칙 마이닝에서의 동시성 기준 확장에 대한 연구 (An Investigation on Expanding Co-occurrence Criteria in Association Rule Mining)

  • 김미성;김남규;안재현
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.23-38
    • /
    • 2012
  • 온라인 쇼핑몰은 인터넷을 통해 손쉽게 접근이 가능하기 때문에, 최초 구매의사가 발생한 시점으로부터 이에 대한 실제 구매가 실현되기까지의 기간이 오프라인 쇼핑몰에 비해 비교적 짧게 나타난다. 즉 오프라인 쇼핑몰의 경우 구매희망 물품을 바로 구매하기 보다는 몇 개의 물품들을 모아서 구매하는 행태가 일반적이다. 하지만, 인터넷 쇼핑몰의 경우 단 하나의 물품만을 포함하고 있는 주문이 전체 주문의 절반 이상을 차지한다. 따라서 온라인 쇼핑몰 데이터의 장바구니 분석에 전통적 데이터마이닝 기법을 그대로 적용할 경우, Null Transaction의 수가 지나치게 많음으로 인해 합리적 수준의 지지도(Support)를 만족시키는 규칙을 찾는 것이 매우 어렵게 된다. 이러한 이유로 온라인 데이터를 사용한 많은 연구는 동시성 기준을 여러 방법으로 확장하여 사용하였는데, 이들 동시성 기준은 명확한 근거나 합의 없이 연구자의 상황에 따라 임의로 선택된 측면이 있다. 따라서 본 연구에서는 온라인 마켓 분석에 적용되는 구매의 동시성 기준을 정확도 측면에서 평가함으로써, 구매의 동시성 기준 선정을 위한 근거를 제시하고자 한다. 또한 동시성 기준의 정확도가 고객의 평균 구매간격에 따라 상이하게 나타나는 것을 파악하여, 향후 고객의 특성에 따른 차별화된 추천 시스템 구축을 위한 기본 방향을 제시하고자 한다. 이를 위해 국내 대형 인터넷 쇼핑몰의 최근 2년간 실제 거래 내역을 대상으로 실험을 수행하였으며, 실험 결과 단골 고객의 구매 추천을 위한 분석의 경우 추천 범위와 분석 데이터의 동시성 기준을 맞추어 연관규칙을 도출하는 것이 바람직하며, 비단골 고객의 경우 대부분의 추천 범위에 대해서 분석 데이터의 동시성 기준을 비교적 길게 설정하여 연관규칙을 도출하는 것이 바람직한 것으로 나타났다.

사용자 로그 분석과 클러스터 내의 문서 유사도를 이용한 동적 추천 시스템 (A Dynamic Recommendation System Using User Log Analysis and Document Similarity in Clusters)

  • 김진수;김태용;최준혁;임기욱;이정현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.586-594
    • /
    • 2004
  • 웹 문서들은 빠른 생성과 소멸의 특징 때문에, 사용자는 찾고자하는 웹 문서를 신속하고 정확하게 추천해 줄 시스템을 요구하고 있다. 정제되지 않은 웹 데이타에는 사용자들의 축적된 경험들을 포함하는 유용한 정보들을 포함하고 있다. 현재, 이러한 유용한 정보를 마이닝 기법이나 통계학적 측정 방법 등을 가지고 정제하여 추천 시스템을 통해 사용자에게 제공하려는 노력이 시도되고 있다. 기존의 정보 필터링 방식은 사용자들의 프로파일을 반드시 이용해야 하는 문제점을 갖고 있으며, 협력적 필터링 방식은 First Rater 문제와 Sparsity 문제가 있다. 또한 사용자 브라우징 패턴을 이용하는 동적 추천 시스템은 연관성이 없는 웹 문서들을 결과로서 제공한다는 문제점이 있다. 본 논문에서는 웹 문서 형식에 따라 웹 문서 사이의 유사도를 이용하여 웹 문서를 분류하고, 웹 서버에 기록된 로그 파일을 이용하여 사용자 브라우징 순차 패턴 DB를 생성한다. 이렇게 생성된 정보들과 사용자들의 세션 정보를 이용하여, 사용자가 웹 문서에 접근했을 때 현재 웹 문서와 유사도가 높은 상위 N개의 연관 웹 문서 집합을 제공하고, 순차적인 특성을 갖는 웹 문서를 추천 문서로 제공하는 시스템을 제안한다.

소셜미디어 분석을 통한 전고체 배터리 감성분석과 이슈 탐색 (Sentiment Analysis and Issue Mining on All-Solid-State Battery Using Social Media Data)

  • 이지연;이병희
    • 한국콘텐츠학회논문지
    • /
    • 제22권10호
    • /
    • pp.11-21
    • /
    • 2022
  • 전고체 배터리는 차세대 배터리의 유력 후보 중 하나로 특히 미래 전기차 산업을 이끌 핵심 부품으로 주목받고 있다. 본 연구에서는 글로벌 소셜미디어인 레딧(Reddit)의 전고체 배터리 관련 댓글 10,280건을 분석하여 전고체 배터리와 관련된 정책 이슈 및 대중의 관심사를 파악한다. 수집된 글로벌 데이터에 빈도분석, 연관규칙분석, 토픽모델링 등 텍스트마이닝 기법과 감성분석을 적용하여 세계적 동향을 읽고, 이를 우리 정부의 전고체 배터리 발전전략과 비교 및 관련 국가R&D의 정책적 방향을 제시하고자 한다. 분석 결과, 2016년부터 2021년까지의 전고체 배터리 이슈에 대한 전반적인 감성은 긍정이 50.5%, 부정이 39.5%로 긍정인 것으로 나타났다. 또한 세부 감성을 분석한 결과, 대중들은 전고체 배터리에 대해 신뢰와 기대를 가지고 있음과 동시에 해결되지 않은 기술적 문제들에 대한 두려움과 우려의 감정이 공존함을 알 수 있었다. 본 연구에서는 전고체 배터리와 관련된 핵심 이슈 도출을 위한 텍스트마이닝 분석 방법을 적용하였고, 정부 정책 분석을 바탕으로 한 하향식 접근방법과 대중의 인식을 분석하는 상향식 접근방법을 수용하여, 보다 포괄적인 동향 분석 방법을 제시하였다.

데이터 마이닝의 범죄수사 적용 가능성 (Usefulness of Data Mining in Criminal Investigation)

  • 김준우;손중권;이상한
    • 대한수사과학회지
    • /
    • 제1권2호
    • /
    • pp.5-19
    • /
    • 2006
  • 데이터 마이닝은 컴퓨터와 정보처리의 발전으로 각기 다른 차원에서 다량으로 수집되는 데이터 속에서 숨은 의미나 패턴을 발견하는 유용한 기법이다. 의사결정나무, 신경망 모형, 규칙 귀납, K-평균 군집화, 시각화 등의 데이터 마이닝 개별 기법들은 산재해 있는 데이터에서 연관성을 분석하고, 이를 분류함으로써 일반화된 개념을 정의하고, 새로운 지식을 추론함으로써 실제 생활에 적용 가능한 예측을 가능하게 한다. 따라서 현재 데이터 마이닝은 기업의 마케팅 분야, 금융기관의 고객 분석, 통신 회사의 고객 이탈 방지 등에서 유용하게 활용되고 있다. 우리가 접해야 하는 정보의 양이 늘어나는 것은 범죄 수사에 있어서도 마찬가지 현상이다. 범죄와 범죄자에 대한 데이터는 축적되어 가지만 정작 개별 사안에 있어서는 중요한 데이터가 접근조차 되지 않고 있으며, 많은 데이터 속에서 이것이 내포하고 있는 숨은 의미를 지나치게 되는 경우도 많다. 본 연구에서는 선행 연구와 사례 적용을 통해 데이터 마이닝의 범죄 수사 적용 가능성과 한계점을 살펴보고자 하였다. 미제 사건으로 남는 경우가 많은 절도나 사기 같은 습관적 상습 범죄의 경우 데이터 마이닝의 분류, 군집화 기능을 활용 한다면 향후 여죄 추적에 효율적으로 활용될 수 있음을 파악할 수 있었고, 특히 다양한 문제에 적용 가능하고, 잡음에 대한 견고성이 있음에도 예측의 정확성을 지니고 있는 신경망 모형의 경우 패턴 인식을 통하여 범죄자 프로파일링이나 화상 자료 대비 시스템 구축에 충분히 활용될 것으로 생각한다. 특히 보험 사기 사례 적용에서 살펴본 바와 같이 마약, 테러와 같은 조직적 범죄수사나 자금세탁과 같은 금융 추적 수사의 경우 해당 자료의 방대함과 모호성으로 인해 수사를 하는 데 많은 어려움이 있지만 이러한 데이터 마이닝 가시화 기법을 적절히 활용한다면 전체적인 윤곽을 파악하는 데 매우 유용하며, 효율적인 수사가 가능함을 확인할 수 있었다. 그러나 데이터 마이닝은 예측 모델이므로 오류를 내재하고 있다는 점에서 수사 기관의 데이터 마이닝 접근은 조심스러워야 하며, 정보 독점화 현상과 개인 사생활 보호라는 측면에서 각 수사기관은 해당 법률에 정한 범위 내에서 해당 사건별로 데이터를 수집하고 이를 통합, 재구성하여 활용하는 측면으로 적용되어야 할 것이다. 또한 각 수사기관별로는 자신의 보유하고 있는 데이터에 대해 다차원 처리가 가능하도록 데이터베이스 시스템을 구축하여 데이터 마이닝이 적용 가능한 환경을 구축하도록 하여야 할 것이다. 아직은 논의의 초기 단계이므로 효과가 크게 부각되지는 않았지만 지금까지 제시한 문제에 대한 연구가 계속 이루어진다면 인권중심, 증거중심의 수사 개념을 바탕으로 적법절차에 의한 수사 활동을 요구받는 시대에 새로운 대안으로 자리 잡을 것이며, 수사의 과학화에 기여할 것으로 전망한다.

  • PDF

데이터 마이닝에서 기존의 연관규칙을 갱신하는 효율적인 앨고리듬 (An Efficient Algorithm for Updating Discovered Association Rules in Data Mining)

  • 김동필;지영근;황종원;강맹규
    • 산업경영시스템학회지
    • /
    • 제21권45호
    • /
    • pp.121-133
    • /
    • 1998
  • This study suggests an efficient algorithm for updating discovered association rules in large database, because a database may allow frequent or occasional updates, and such updates may not only invalidate some existing strong association rules, but also turn some weak rules into strong ones. FUP and DMI update efficiently strong association rules in the whole updated database reusing the information of the old large item-sets. Moreover, these algorithms use a pruning technique for reducing the database size in the update process. This study updates strong association rules efficiently in the whole updated database reusing the information of the old large item-sets. An updating algorithm that is suggested in this study generates the whole candidate item-sets at once in an incremental database in view of the fact that it is difficult to find the new set of large item-sets in the whole updated database after an incremental database is added to the original database. This method of generating candidate item-sets is different from that of FUP and DMI. After generating the whole candidate item-sets, if each item-set in the whole candidate item-sets is large at an incremental database, the original database is scanned and the support of each item-set in the whole candidate item-sets is updated. So, the whole large item-sets in the whole updated database is found out. An updating algorithm that is suggested in this study does not use a pruning technique for reducing the database size in the update process. As a result, an updating algoritm that is suggested updates fast and efficiently discovered large item-sets.

  • PDF

연관규칙 마이닝을 활용한 개념적 데이터베이스 설계 자동화 기법 (Automated Conceptual Data Modeling Using Association Rule Mining)

  • 손윤호;김인규;김남규
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제18권4호
    • /
    • pp.59-86
    • /
    • 2009
  • Data modeling can be regarded as a series of processes to abstract real-world business concerns. The conceptual modeling phase is often regarded as the most difficult stage in the entire modeling process, because quite different conceptual models may be produced even for similar business domains based on users' varying requirements and the data modelers' diverse perceptions of the requirements. This implies that an object considered as an entity in one domain may be considered as an attribute in another, and vice versa. However, many traditional knowledge-based automated database design systems unfortunately fail to construct appropriate Entity-Relationship Diagrams(ERDs) for a given set of requirements due to the rigid assumption that an object should be classified as an entity if it has been classified as an entity in previous applications. In this paper, we propose an alternative automation system which can generate ERDs from business descriptions using association rule mining technique. Our system can be differentiated from the traditional ones in that our system can perform data modeling only based on business description written by domain workers, rather than relying on any kind of knowledge base. Since the proposed system can produce various versions of ERDs from the same business descriptions simultaneously, users can have the opportunity to choose one of the ERDs as being the most appropriate, based on their business environment and requirements. We performed a case study for personnel management in a university to evaluate the practicability of the proposed system This paper summarizes the result of it in the experiment section.

텍스트마이닝과 연관규칙을 이용한 외부감사 실시내용의 그룹별 핵심어 추출 (Group-wise Keyword Extraction of the External Audit using Text Mining and Association Rules)

  • 성윤석;이동희;정욱
    • 품질경영학회지
    • /
    • 제50권1호
    • /
    • pp.77-89
    • /
    • 2022
  • Purpose: In order to improve the audit quality of a company, an in-depth analysis is required to categorize the audit report in the form of a text document containing the details of the external audit. This study introduces a systematic methodology to extract keywords for each group that determines the differences between groups such as 'audit plan' and 'interim audit' using audit reports collected in the form of text documents. Methods: The first step of the proposed methodology is to preprocess the document through text mining. In the second step, the documents are classified into groups using machine learning techniques and based on this, important vocabularies that have a dominant influence on the performance of classification are extracted. In the third step, the association rules for each group's documents are found. In the last step, the final keywords for each group representing the characteristics of each group are extracted by comparing the important vocabulary for classification with the important vocabulary representing the association rules of each group. Results: This study quantitatively calculates the importance value of the vocabulary used in the audit report based on machine learning rather than the qualitative research method such as the existing literature search, expert evaluation, and Delphi technique. From the case study of this study, it was found that the extracted keywords describe the characteristics of each group well. Conclusion: This study is meaningful in that it has laid the foundation for quantitatively conducting follow-up studies related to key vocabulary in each stage of auditing.

온라인 연관관계 분석의 장바구니 기준에 대한 연구 (An Investigation on Expanding Co-occurrence Criteria in Association Rule Mining)

  • 김미성;김남규
    • CRM연구
    • /
    • 제4권2호
    • /
    • pp.19-29
    • /
    • 2011
  • 오프라인 쇼핑몰에 비해 온라인 쇼핑몰은 빠르게 접근이 가능하기 때문에 처음 구매의사를 생성하고 실제 구매가 이루어지기까지의 기간이 오프라인 쇼핑몰에 비해 매우 짧게 나타난다. 즉 오프라인 쇼핑몰의 경우 구매 희망물건을 바로 구매하기 보다는 몇 개의 물건들을 모두 모아서 구매하는 행태가 일반적이다. 하지만, 인터넷 쇼핑몰의 경우 단 하나의 물품만을 포함하고 있는 주문이 전체 주문의 절반이상을 차지한다. 이러한 차이는 온라인 쇼핑몰 거래데이터의 분석을 위해서는 데이터 마이닝 분석에서 사용되어 온 장바구니의 정의에 대한 확장이 필요함을 의미한다. 하지만 현재까지 온라인 데이터를 대상으로 한 장바구니 분석 연구는, 장바구니의 기준 즉 동시구매의 기준에 대한 명확한 근거나 합의 없이 연구자의 선택에 따라 서로 다른 기준으로 수행되어왔다. 따라서 본 연구에서는 온라인 쇼핑몰 분석에 적용되는 동시에 구매되는 물건들에 대한 기준을 고찰해보고 연구모형을 마련하고자 한다.

  • PDF

시뮬레이션과 순차 패턴을 이용한 FMC 로봇의 효율적 작업 순서 설계 및 분석 (Design and Analysis of Efficient Operation Sequencing in FMC Robot Using Simulation and Sequential Patterns)

  • 김선길;김연진;이홍철
    • 한국산학기술학회논문지
    • /
    • 제11권6호
    • /
    • pp.2021-2029
    • /
    • 2010
  • 본 논문에서는 FMC 로봇의 생산성 향상을 위해 시뮬레이션과 순차 패턴 기법을 이용해 로봇의 패턴을 분석하고 최적의 로봇 작업 우선순위규칙(Dispatching Rule)을 설계하는 방법을 제시하였다. 이를 위해, 먼저 FMC를 시뮬레이션으로 설계하고 각 설비가 로봇에게 요청하는 신호를 추출 해 이를 로그(Log) 형태로 생성, 저장하였다. 그 후, 이 로그를 데이터 마이닝 기법 중 하나인 순차 패턴 분석을 이용해 설비의 신호와 로봇간의 연관된 순서를 분석 하여 로봇의 최적 이동 경로를 도출하는 방법을 제시하였다. 또한, 사례연구를 통하여 FMC의 적용성에 대한 효율성 을 입증하였다. 도출된 최적의 패턴을 국내 A사 생산라인에 적용한 결과 작업물 대기시간(Loss Time)의 감소와 로봇 이용률의 향상, 작업물의 총 처리량의 증가와 평균 처리시간 감소를 가져왔다. 또한, 이러한 신호의 패턴을 이용한 분석 방법은 신호와 동작간의 로그를 저장, 데이터베이스화하여 시스템 상에서 로봇의 작업 우선순위규칙을 도출할 수 있게 하므로, 작업자의 오랜 노하우(Know-How) 없이도 로봇 운영의 문제점을 파악하고 그 개선안을 제시할 수 있다. 이러한 방법을 통해 FMC 뿐만이 아닌 로봇을 사용하는 모든 분야에 설비의 신호와 로봇 동작간의 그 연관관계를 분석하고 최적의 운영법칙을 설계, 운영하여 생산성 향상에 크게 기여할 것으로 기대된다.

순차적 레이어 필터링을 이용한 상품 판매 연관도 분석 (Association Analysis of Product Sales using Sequential Layer Filtering)

  • 방선호;이강현;장지영;;신광섭
    • 한국빅데이터학회지
    • /
    • 제7권1호
    • /
    • pp.213-224
    • /
    • 2022
  • 물류와 유통에서 장바구니 분석(MBA: Market Basket Analysis)은 주요 판매 상품 간의 연관성을 분석하고, 내부 운영 효율성을 높이기 위한 중요한 수단으로 활용된다. 특히, 장바구니 분석의 결과는 상품 구매예측, 상품 추천 및 매장의 상품 전시 구조 등 의사결정 과정에 중요한 참고자료로 활용된다. 최근 전자상거래의 발전으로 하나의 유통 및 물류 기업이 취급하는 품목의 수가 급격하게 증가하면서 기존의 분석기법인 Apriori와 FP-Grwoth 등의 방법은 계산량의 기하급수적 증가로 인한 속도저하와 실제 비즈니스에 적용하기 위한 중요한 연관규칙을 살피기에는 한계가 있다. 본 연구에서는 이러한 한계를 극복하기 위해, 상품의 최상위 분류체계인 Main-Category 수준에서는 상품의 판매량을 함께 고려할 수 있는 utility item set mining 기법을 활용하여 주로 함께 판매된 상품군을 우선 선별하였다. 그 후, sub-category 수준에서는 FP-Growth를 활용하여 함께 판매되는 상품 유형을 식별하였다. 이렇게 순차적 레이어 필터링 기법을 활용하여 불필요한 연산을 줄일 수 있어 현실적으로 활용가능한 결과를 제시할 수 있다.