• Title/Summary/Keyword: 연관규칙 마이닝

검색결과 287건 처리시간 0.031초

우수 의약품 제조 기준 위반 패턴 인식을 위한 연관규칙과 텍스트 마이닝 기반 t-SNE분석 (Violation Pattern Analysis for Good Manufacturing Practice for Medicine using t-SNE Based on Association Rule and Text Mining)

  • 이준오;손소영
    • 품질경영학회지
    • /
    • 제50권4호
    • /
    • pp.717-734
    • /
    • 2022
  • Purpose: The purpose of this study is to effectively detect violations that occur simultaneously against Good Manufacturing Practice, which were concealed by drug manufacturers. Methods: In this study, we present an analysis framework for analyzing regulatory violation patterns using Association Rule Mining (ARM), Text Mining, and t-distributed Stochastic Neighbor Embedding (t-SNE) to increase the effectiveness of on-site inspection. Results: A number of simultaneous violation patterns was discovered by applying Association Rule Mining to FDA's inspection data collected from October 2008 to February 2022. Among them there were 'concurrent violation patterns' derived from similar regulatory ranges of two or more regulations. These patterns do not help to predict violations that simultaneously appear but belong to different regulations. Those unnecessary patterns were excluded by applying t-SNE based on text-mining. Conclusion: Our proposed approach enables the recognition of simultaneous violation patterns during the on-site inspection. It is expected to decrease the detection time by increasing the likelihood of finding intentionally concealed violations.

인문전산학 활용을 위한 데이터마이닝기법 (Data Mining Technology for Application in Humanistic Computing)

  • 곽호형;방혜자
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.593-596
    • /
    • 2005
  • 데이터마이닝은 대량의 실제 데이터로부터 이전에 잘 알려지지는 않았지만 묵시적이고 잠재적으로 유용한 정보를 추출하는 작업으로, 본 논문은 최근 인문학 정보 자료가 전산화되고 있는 가운데 대량의 정보와 특정 체계를 갖춘 ‘조선왕조실록’ 전산자료를 분석하고 기존의 단순한 정보 검색이 아닌 데이터마이닝 기법을 적용한 상세하고 예측가능 한 정보자료 추출법을 제시한다. 먼저 텍스트화 되어 있는 컨텐츠를 형태소분석기법을 사용하여 색인어를 추출하고 집계를 낸다. 질의어와 유관한 색인어의 군집정도와 출현시점을 분석하는데, 사용된 마이닝 기법은 연관규칙분석과 클러스터링 분석기법이다. 최종 결과치는 기존의 인문학연구 결과물과 비교하여 그 정확도를 분석해 보인다.

  • PDF

데이타 마이닝에서 기존의 연관 규칙을 갱신하는 앨고리듬 개발 (An Algorithm for Updating Discovered Association Rules in Data Mining)

  • 이동명;지영근;황종원;강맹규
    • 산업경영시스템학회지
    • /
    • 제20권43호
    • /
    • pp.265-276
    • /
    • 1997
  • There have been many studies on efficient discovery of association rules in large databases. However, it is nontrivial to maintain such discovered rules in large databases because a database may allow frequent or occasional updates and such updates may not only invalidate some existing strong association rules but also turn some weak rules into strong ones. The major idea of updating algorithm is to resuse the information of the old large itemsets and to integrate the support information of the new large itemsets in order to substantially reduce the pool of candidate sets to be re-exmained. In this paper, an updating algorithm is proposed for efficient maintenance of discovered assocation rules when new transaction data are added to a transaction database. And superiority of the proposed updating algorithm will be shown by comparing with FUP algorithm that was already proposed.

  • PDF

인적재난사고사례기반의 새로운 재난전조정보 등급판정 연구 (Developing an Intelligent System for the Analysis of Signs Of Disaster)

  • 이영재
    • 한국재난관리표준학회지
    • /
    • 제4권2호
    • /
    • pp.29-40
    • /
    • 2011
  • 본 연구는 인적재난 분야에 다양한 재난전조자료를 수집 분석하여 재난 위험등급을 결정하는 의사결정체계를 구축할 목적으로 재난전조 정의, 재난전조정보를 분석하기 위한 분류체계, 재난전조정보 위험등급을 판단하기 위한 논리적 알고리즘, 대응 조치사항을 포함한 권고사항 등을 연구하였다. 본 연구에서 의사결정체계를 위해 적용된 온톨로지 기법은 기본요소들의 분류 및 3계층 속성 분류만을 도입하였고, 텍스트 마이닝 기법에서는 용어의 빈도수 분석 및 신뢰도 계산 부분을 도입하여 연관성 규칙의 기본구조를 밝혀냈다. 이 기본구조에 과거 재난사례를 적용하여 연관성 규칙을 생성하였으며, 새로운 재난전조정보와 비교하여 위험등급을 추론하는 사례기반추론 기법을 사용하였다. 본 연구에서 제시된 지능형 의사결정체계는 의사결정자가 재난전조정보를 바탕으로 위험등급을 결정하여 사전예방조치를 할 수 있도록 도와주며, 궁극적으로 재난발생 가능성을 줄일 수 있다.

  • PDF

관계형 다차원모델에 기반한 온라인 고객리뷰 분석시스템의 설계 및 구현 (Study on Designing and Implementing Online Customer Analysis System based on Relational and Multi-dimensional Model)

  • 김근형;송왕철
    • 한국콘텐츠학회논문지
    • /
    • 제12권4호
    • /
    • pp.76-85
    • /
    • 2012
  • 오피니언마이닝 기법은 대량의 고개리뷰들에 나타나는 핵심개체 또는 속성들에 대하여 고객들이 느끼는 긍정 또는 부정의 정도를 계산할 수 있지만, 그 분석능력이 단순하다는 한계가 있다. 본 논문에서는 온라인 고객리뷰들에 대하여 다차원적으로 분석할 수 있는 기법을 제안하였다. 기존의 OLAP기법을 텍스트 데이터형에 적용할 수 있도록 수정하였다. 다차원 분석모델은 명사축과 형용사축, 문서축으로 구성되는 3차원 공간 개념을 4개의 관계형 테이블로 실체화 한 것이다. 다차원 분석모델은 기존의 오피니언마이닝, 정보요약, 클러스터링 알고리즘들을 융합할 수 있는 새로운 틀이라는 점에서 그 가치가 있다. 본 논문에서 제안한 다차원 분석모델과 알고리즘들을 실제로 구현하여 온라인 고객리뷰에 대한 복잡한 분석을 수행할 수 있음을 확인하였다.

마이닝 기반 유비쿼터스 헬스케어 멀티에이전트 시스템 (A Mining-based Healthcare Multi-Agent System in Ubiquitous Environments)

  • 강은영
    • 한국산학기술학회논문지
    • /
    • 제10권9호
    • /
    • pp.2354-2360
    • /
    • 2009
  • 유비쿼터스 컴퓨팅 환경에서 가장 널리 사용 가능한 분야는 헬스케어 분야이다. 본 논문에서는 유비쿼터스 환경에서 마이닝 기반 멀티 에이전트 헬스케어 시스템을 제안한다. 제안하는 기법은 환자의 몸으로부터 생성된 센싱 데이터를 마이닝을 이용하여 진단 패턴을 뽑아내어 정상 상태, 긴급 상태, 응급 상황으로 분류할 수 있다. 이는 실시간으로 센싱되는 엄청난 양의 생체 데이터를 처리할 수 있으며, 환자의 병력 데이터와 비교, 분석한다. 이를 위해 연관 규칙 탐사를 2가지 데이터 그룹으로 구분하여 적용한다. 첫 번째는, 기존의 방대한 의료 병력 데이터로 두 번째는, 체온, 혈압, 맥박등과 같은 센서로부터 센싱한 환자의 실시간 생체데이터로 분류한다. 제안하는 시스템은 PDA 같은 모바일 디바이스 등을 통하여 병원과 멀리 떨어진 지역에서도 긴급 상황을 판단하여 처리할 수 있다. 또한 환자(노인)의 상태를 실시간으로 모니터링 함으로써 요구되는 시간과 비용을 단축하게 되고, 의료 서비스의 지원에 대한 효율성을 높이게 된다.

학생정보마이닝 시스템의 설계 및 구현 (Design and Implementation of A Student Information Mining System)

  • 공현선;김명
    • 컴퓨터교육학회논문지
    • /
    • 제6권1호
    • /
    • pp.55-63
    • /
    • 2003
  • 현재 초 중등학교에서는 교육행정시스템을 사용하여 학생들의 데이터를 관리한다. 이 시스템의 일부인 교무업무지원 시스템은 학사 및 교무 업무를 지원하는 단위 시스템으로써 학생들에 대한 각종 데이터를 저장하고 있으며, 데이터의 단순 검색 및 통계 데이터 계산을 허용하여 교육 정보 자원의 통합관리에 큰 도움을 준다. 그러나 현재의 교무업무지원 시스템은 데이터를 개별적으로 관리하고 있기 때문에 데이터 사이의 연관 관계로부터 도출될 수 있는 유용한 정보는 제공하지 못한다. 본 연구에서는 저장되어 있는 데이터의 연관 관계 분석을 통해 학생 교육에 유용한 데이터 추출이 가능하다는 것을 보이고, 그러한 분석을 손쉽게 할 수 있는 도구인 SIMS를 설계하고 구현하였다. SIMS는 데이터 상호 관계 분석에 연관규칙 기법을 사용한다. 유사한 기능을 제공하는 기존의 도구들을 사용하려면 전문 지식이 필요한 반면 SIMS는 일선 교사들이 수월하게 사용할 수 있으며 현재의 교육행정시스템에 연동되어 사용될 수 있다는 장점이 있다.

  • PDF

클라우드 시스템에서 소셜 시멘틱 웹 기반 협력 프레임 워크 (Collaboration Framework based on Social Semantic Web for Cloud Systems)

  • 마테오 로미오;양현호;이재완
    • 인터넷정보학회논문지
    • /
    • 제13권1호
    • /
    • pp.65-74
    • /
    • 2012
  • 클라우드 서비스는 비즈니스 향상을 위해 사용되며, 특히, 고객 관리에서는 고객 서비스 향상을 위한 툴로서 소셜 네트워크를 사용한다. 그러나 대부분의 클라우드 시스템은 시멘틱 구조를 지원하지 않기 때문에 소셜 네트워크 사이트의 중요한 정보는 비즈니스 정책을 위해 처리 및 사용이 어렵다. 본 연구에서는 클라우드 시스템에서 소셜 시멘틱 웹에 기반을 둔 협력 프레임 워크를 제안한다. 제안한 프레임 워크는 클라우드 소비자와 서비스 제공자를 위한 효율적인 협력시스템을 제공하기 위해, 소셜 시멘틱 웹 지원을 위한 요소들로 구성된다. 지식획득모듈은 소셜 에이전트가 수집한 데이터로부터 규칙을 추출하며, 이 규칙들은 협력 및 경영정책에 사용된다. 본 논문은 제안한 시멘틱 모델에서 소셜 네트워크 사이트 데이터의 처리 및 효율적인 협력을 위한 클라우드 서비스 제공자의 가상 그룹핑을 위해 사용될 패턴 추출에 대한 구현 결과를 보여준다.

사회연결망 분석을 활용한 연관규칙 확장기법 (Extension Method of Association Rules Using Social Network Analysis)

  • 이동원
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.111-126
    • /
    • 2017
  • 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 상품 탐색 시간을 줄여주며 판매자의 매출 증대에 크게 기여한다. 이는 주문과 같은 거래의 빈도를 기반으로 생성되므로, 통계적으로 판매 확률이 높은 상품을 효과적으로 선별할 수 있다. 하지만, 판매 가능성이 높은 경우라도 신상품처럼 판매 초기에 거래 건수가 충분하지 않은 상품은 추천에서 누락될 수 있다. 연관 추천에서 누락된 상품은 이로 인해 노출 기회를 잃게 되고, 이는 거래 건수 감소로 이어져, 또 다시 추천 기회를 잃는 악순환을 겪을 수도 한다. 따라서, 충분한 거래 건수가 쌓이기 전까지 초기 매출은 일정 기간 동안 정체되는 현상을 보이는데, 의류 등과 같이 유행에 민감하거나 계절 변화에 영향을 많이 받는 상품은 이로 인해 매출에 큰 타격을 입을 수도 있다. 본 연구는 이와 같이 거래 초기의 낮은 거래 빈도로 인해 잘 드러나지 않는 상품 간의 잠재적인 연관성을 찾아 추천 기회를 확보할 수 있도록 연관 규칙을 확장하기 위한 목적으로 수행되었다. 두 상품 간에 직접적인 연관성이 나타나지 않더라도 다른 상품을 매개로 두 상품 간의 잠재적 연관성을 예측할 수 있을 것이며, 이런 연관성은 주문에서 나타나는 상품 간 상호작용으로 표현될 수 있으므로, 사회연결망 분석을 활용한 분석을 시도하였다. 사회연결망 분석기법을 통해 각 상품의 속성과 두 상품 간 경로의 특성을 추출하고 회귀분석을 실시하여, 두 상품 간 경로의 최단 거리 및 경로의 개수, 각 상품이 얼마나 많은 상품과 연관성을 갖는지, 두 상품의 분류 카테고리가 어느 정도 일치하는지가 두 상품 간의 잠재적 연관성에 미친다는 것을 확인하였다. 모형의 성능을 평가하기 위해, 일정 기간의 주문 데이터로부터 연결망을 구성하고, 이후 10일 간 생성될 상품 간 연관성을 예측하는 실험을 진행하였다. 실험 결과는 모형을 적용하지 않는 경우보다 제안 모형을 활용할 때 훨씬 많은 연관성을 찾을 수 있음을 보여준다.

한국자료분석학회지에 대한 토픽분석 (A Topic Analysis of Abstracts in Journal of Korean Data Analysis Society)

  • 강창완;김규곤;최승배
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2907-2915
    • /
    • 2018
  • 1998년에 창립한 한국자료분석 학회지는 자료분석에 기반한 다양한 전공분야를 위해 현재까지 응용학회지로서 역할을 해오고 있다. 본 연구에서는 이러한 한국자료분석 학회지의 본연의 목적을 잘 수행해오고 있는지 최근 10년간 학회지 요약문을 통해 분석하였다. 분석은 한국연구재단에서 제공한 온라인 저널 홈페이지를 통해 2006년부터 2016년까지의 영문 요약문 2680개를 웹크롤링하여 토픽모델을 적용하였다. 분석결과로 18개의 토픽이 선정되었으며 이에 대한 토픽을 해석한 결과 자료분석학회지는 간호학, 경영학(마케팅), 경제학 등 여러 분야를 다루고 있으며 분석방법으로 회귀분석, 가설검정, 데이터마이닝(연관성분석), 요인분석 등이 많이 이용되고 있음을 볼 수 있었다. 그리고 단어들의 연관성(association rule)분석을 통하여 통계적으로 유의한 연관성 규칙 10개를 제시하였다. 여기서 연관성규칙의 통계적 유의성검정은 피셔의 정확검정(Fisher's exact test)을 사용하였다. 또한 연구주제(토픽)의 변화를 살펴본 결과 전반기에는 조사연구가, 후반기에는 대조 연구가 많아졌음을 볼 수 있고 또한 회귀분석과 요인분석은 전, 후반기 구분 없이 자료분석에서 공통적으로 많이 사용하는 통계적 방법임을 알 수 있었다.