• 제목/요약/키워드: Database Mining

검색결과 574건 처리시간 0.035초

지수적 가중치를 적용한 협력적 상품추천시스템 (A Recommendation System of Exponentially Weighted Collaborative Filtering for Products in Electronic Commerce)

  • 이경희;한정혜;임춘성
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.625-632
    • /
    • 2001
  • 전자상점에서 이루어지는 고객의 구매패턴이 온라인 상에서 데이터베이스화되어, 이를 통하여 고객의 취향에 맞는 상품을 제공할 수 있는 많은 알고리즘이 연구되고 있다. 이러한 알고리즘은 전자상점에서 고객의 개별특성을 고려한 상품을 제공하기 위하여, 고객정보 데이터베이스와 거래정보 데이터베이스로부터 연관규칙 등을 추출하여 사용한다. 그러나 시간의 흐름에 민감한 계절상품이나 특선상품과 같이 전자상점의 거래량에 크게 직결될 수 있는 상품에도 기존의 시간을 고려하지 않은 알고리즘을 적용한다면 추천성공률이 떨어질 것이다. 따라서 본 논문에서는 시간의 영향을 많이 받는 상품추천을 위하여, 최근 전자상점 추천시스템으로 효과적인 아이템 기반 협력알고리즘에 지수적 가중치를 적용한 협력적 여과추천(EWCFR) 알고리즘을 제안한다. 또한 이러한 추천시스템이 대용량의 고객데이터와 상품데이터에 대한 연산을 수행하고 다수의 고객에게 실시간으로 서비스를 제공하여야 하므로, XML기반의 MMDB를 활용한 전자상거래 시스템과 알고리즘을 제안한다.

  • PDF

Comparative chloroplast genomics and phylogenetic analysis of the Viburnum dilatatum complex (Adoxaceae) in Korea

  • PARK, Jongsun;XI, Hong;OH, Sang-Hun
    • 식물분류학회지
    • /
    • 제50권1호
    • /
    • pp.8-16
    • /
    • 2020
  • Complete chloroplast genome sequences provide detailed information about any structural changes of the genome, instances of phylogenetic reconstruction, and molecular markers for fine-scale analyses. Recent developments of next-generation sequencing (NGS) tools have led to the rapid accumulation of genomic data, especially data pertaining to chloroplasts. Short reads deposited in public databases such as the Sequence Read Archive of the NCBI are open resources, and the corresponding chloroplast genomes are yet to be completed. The V. dilatatum complex in Korea consists of four morphologically similar species: V. dilatatum, V. erosum, V. japonicum, and V. wrightii. Previous molecular phylogenetic analyses based on several DNA regions did not resolve the relationship at the species level. In order to examine the level of variation of the chloroplast genome in the V. dilatatum complex, raw reads of V. dilatatum deposited in the NCBI database were used to reconstruct the whole chloroplast genome, with these results compared to the genomes of V. erosum, V. japonicum, and three other species in Viburnum. These comparative genomics results found no significant structural changes in Viburnum. The degree of interspecific variation among the species in the V. dilatatum complex is very low, suggesting that the species of the complex may have been differentiated recently. The species of the V. dilatatum complex share large unique deletions, providing evidence of close relationships among the species. A phylogenetic analysis of the entire genome of the Viburnum showed that V. dilatatum is a sister to one of two accessions of V. erosum, making V. erosum paraphyletic. Given that the overall degree of variation among the species in the V. dilatatum complex is low, the chloroplast genome may not provide a phylogenetic signal pertaining to relationships among the species.

커널필터링 기법을 이용한 건강비용의 효과적인 지출에 관한 군집화 분석 (Clustering Analysis of Effective Health Spending Cost based on Kernel Filtering Techniques)

  • 정용규;최영진;차병헌
    • 서비스연구
    • /
    • 제5권2호
    • /
    • pp.25-33
    • /
    • 2015
  • 데이터마이닝은 방대한 데이터를 기반으로 정보를 추출하는 방법으로 많은 분야에 적용하고 있으며 특히 보건의료 데이터를 다루는 기법으로 많이 활용 되고 있다. 하지만 데이터가 다양하고 방대해짐에 따라 데이터들을 완벽하게 다룰 수 있는 알고리즘이 개발되지 못한 현황이다. 따라서 본 논문에서는 군집화 알고리즘 중의 하나인 DBSCAN 알고리즘과 EM 알고리즘의 성능을 동일한 데이터에 대하여 분석을 시도하였다. 이를 위하여 DBSACN과 EM 알고리즘에 따른 변화를 Health expenditure 실험데이터의 결과를 기반으로 분석 하였고 더욱 정확한 실험과 더욱 정확한 결과를 알아내기 위하여 Kernel Filtering을 통하여 정확한 데이터분석을 시도하였다. 본 연구에서는 알고리즘의 기술적 성능을 비교한 것을 물론이고 성능을 높이기 위한 시도를 하였다. 이를 통하여 확장한 알고리즘에 따른 성능의 변화와 실험데이터의 적용결과를 기반으로 비교하고 이를 분석하게 되었다. 특히 의료기관을 이용하는 다양한 군집으로부터 데이터 레코드를 수집하여 의료 서비스에 대한 효과적인 비용 지출을 권장할 수 있도록 실험하였다.

데이터 마이닝 기반 침입탐지 패턴 알고리즘의 설계 및 구현 (Design and Implementation of the Intrusion Detection Pattern Algorithm Based on Data Mining)

  • 이상훈;소진
    • 정보처리학회논문지C
    • /
    • 제10C권6호
    • /
    • pp.717-726
    • /
    • 2003
  • 본 논문에서 우리는 방대한 패킷 데이터로부터 침입탐지를 위한 규칙들을 자동으로 생성하는 방법으로 기존 연관규칙을 연역적 알고리즘을 분석하고, 그 결과를 기반으로 침입탐지 시스템에 적용되기 위한 침입 패턴 규칙들을 빠르게 생성할 수 있도록 연연적 알고리즘을 제안하였다. 본 논문에서 제안한고 있는 연역적 알고리즘은 대량의 데이터를 항목별로 분류하고 제거하는 클러스터링 개념에 적합하도록 설계하였다. 이 알고리즘은 적용될 침입탐지 시스템 패턴 생성 및 분석 모듈 방식에 직접적으로 연계되어 있으며, 이것은 침입탐지 시스템에 관한 패턴관리를 위한 규칙 데이터베이스를 구축함으로서 응용범위의 확장은 물론 기존 침입탐지 시스템의 탐지속도를 높일 수 있다. 제안된 연역적 알고리즘의 패텅 생성 기법은 침입탐지 시스템에서 생성되는 데이터의 지원율에 따라 적절히 변경될 수 있는 알고리즘을 사용하였으며, 이 기법에 의한 규칙 생성율의 향상에 따른 규칙생성 속도개선 가능성에 대해 알고리즘 시뮬레이션을 통하여 분석하였다.

철원 지진-공중음파 관측망 설치 (The Installation of Chul-Won Seismo-Acoustic Array)

  • 전명순;전정수;신인철;김동균;제일영;김용성;박정호
    • 한국지진공학회:학술대회논문집
    • /
    • 한국지진공학회 1999년도 추계 학술발표회 논문집 Proceedings of EESK Conference-Fall
    • /
    • pp.52-57
    • /
    • 1999
  • Korea Earthquake Monitoring System(KEMS) in the Korea Institute of Geology Mining and Materials(KIGAM) as detected more than 1000 events since the end of 1998. But not all events are interpreted as earthquakes because many events are concentrated on daytime. It strongly implies that in addition to earthquake these events include artificial effects such as industrial blasting. Before the determination of eathquake charactertistics in the korean peninsula it is necessary to discriminate the detected events as earthquakes or artificial events. For the discriminant study KIGAM and SMU(Southern Methodist University) installed a triangular four-element 1-km aperture seismo-acoustic array at Chul-Won area northeast of Seoul Korea. Each array element includes a GS-13 seismometer in the bottom of borehole and a Validyne DP250-14 microbarometer sensor mounted inside of the borehole 1,2 meter deep connected to a 11 arm radial array of 10m porous soaker hoses. This array introduce the use of 2.4-GHz radios for inter-array self-contained solar-charged power system and GPS time-keeping system. A 24-bit digital data acquisition system performs 40 SPS in the infrasound and seismometer data. Velocity and direction of wind and temperature are also measured at hub site and included to the data stresam. This seismo-acoustic array will be used to identify and locate associated with industrial blasting and these identified and located events will be applied to form a ground truth database useful to assist the other development of discriminant studies.

  • PDF

다양한 계층 트리 구조를 갖는 쇼핑몰 상에서의 상품평 수집을 위한 웹 크롤러 래퍼의 설계 및 구현 (Design and Implementation of Web Crawler Wrappers to Collect User Reviews on Shopping Mall with Various Hierarchical Tree Structure)

  • 강한훈;유성준;한동일
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.318-325
    • /
    • 2010
  • 본 논문에서는 다 계층 구조와 다양한 웹 언어로 구성된 한국내 쇼핑몰로부터 상품평 수집을 위한 래퍼 데이터베이스 기술 언어 및 모델을 제안한다. 기존에 제안된 래퍼 기반 웹 크롤러는 HTML 문서를 수집할 수 있고, 수집 대상으로 하는 문서의 계층 구조는 2~3계층이다. 그러나 한국형 쇼핑몰 사이트는 HTML 문서뿐만 아니라 다양한 웹 언어(JavaScript, Flash, AJAX)로 구성되어 있고, 그 계층 또한 5계층으로 이루어졌다. 웹크롤러가 이 5 계층 사이트에 있는 상품평만을 수집하려고 하면 상품평이 있는 위치를 정확히 알고 있으면 된다. 우리가 제안하는 래퍼에는 이러한 정보를 포함하고 있도록 하였고, 이러한 정보를 기술하기 위해 필요한 래퍼 데이터 기술 문법도 제안한다.

클러스터링 기법을 활용한 출발 여객 체류 시간 분석 (Analysis of Departing Passengers' Dwell Time using Clustering Techniques)

  • 안덕배;김휘양;백호종
    • 한국항행학회논문지
    • /
    • 제23권5호
    • /
    • pp.380-385
    • /
    • 2019
  • 본 연구는 실제 공항에서 수집되는 여객 데이터를 활용하여 공항 내 여객의 체류 시간을 분석한 연구이다. 여객의 체류 시간은 공항 터미널 설계, 공항의 수익성에 영향을 주어 중요한 여객 특성으로 간주되어 왔지만 실제 여객 데이터 수집의 어려움으로 그에 대한 분석이나 실시간 공항 운영에 활용하기가 어려웠다. 하지만 스마트 공항의 일환으로 세계 유수의 공항에서 방대한 양의 여객 데이터를 수집하고 있고, 축적된 데이터를 활용하여 공항 내 여객 체류 시간 분석이 가능해졌다. 본 연구에서는 인천 국제 공항에서 수집된 여객 데이터를 활용하여 여객 체류 시간 분석을 수행하였으며, 방대한 양의 자료를 효율적으로 처리하기 위해 데이터 마이닝 기법인 클러스터링을 활용하여 여객을 체류 시간에 따라 구분하였다. 분석 결과 인천 국제 공항 출발 여객은 체류 시간에 따라 1) 체류 시간이 짧고 대부분의 시간을 에어사이드에서 보내는 여객, 2) 평균 3 시간 정도의 체류 시간을 갖는 여객, 3) 총 체류 시간이 압도적으로 긴 여객 등 크게 3 개의 클러스터로 구분할 수 있는 것으로 나타났다.

골다공증 다빈도 처방과 구성 약물의 네트워크 분석 - 오아시스 검색을 중심으로 (Network Analysis of Herbs that are Frequently Prescribed for Osteoporosis with a Focus on Oasis Platform Research)

  • 신선미;고흥
    • 대한한방내과학회지
    • /
    • 제42권4호
    • /
    • pp.628-644
    • /
    • 2021
  • Objectives: This study analyzed, through network analysis and data mining analysis, the relationship between herbs used in osteoporosis prescriptions, diversified the analysis of osteoporosis-related prescriptions, and analyzed the combination of herbs used in osteoporosis-related prescriptions. Methods: The prescriptions used in osteoporosis treatment and experiments were established by conducting a full survey of the papers published by the OASIS site. A database for osteoporosis-related prescriptions was established, herbs were extracted, and the frequency of frequent herbs and prescriptions were investigated using Excel (MS offices ver. 2013). Using the freeware R version 4.0.3 (2020-10-10), igraph, and arules package, network analysis was performed in the first second of prescription composition. Results: Among the osteoporosis-related prescriptions, the most studied prescriptions are as follows.: Yukmijihwang-tang (六味地黃湯) and Samul-tang (四物湯). In the osteoporosis prescription network, herbs with connection centrality, proximity centrality, mediation centrality, and eigenvector centrality appeared in the order of Rehmanniae Radix Preparata, Angelicae Gigantis Radix, Poria Sclerotium, Paeoniae Radix, and Glycyrrhizae Radix et Rhizoma. After extracting the herbal combination network, including the corresponding herbs, and clustering it, it can be divided into drugs of the Yukmijihwang-tang (六味地黃湯) series and the Samul-tang (四物湯). Conclusions: This study could assist researchers in diversifyingy formula analysis in future studies. Moreover, the herbal combination used in osteoporosis prescriptions could be used to search for osteoporosis prescriptions in other databases or to create a new prescription.

소셜네트워크서비스 기반 데이터를 이용한 빅데이터 분석 (Big Data Analysis Using on Based Social Network Service Data)

  • 남수태;신성윤;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.165-166
    • /
    • 2019
  • 빅데이터 분석은 기존 데이터베이스 관리 도구로부터 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 말한다. 빅데이터는 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐만 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다. 빅데이터는 기존 방식으로는 관리와 분석이 어려운 데이터를 의미하며, 거대한 크기(Volume), 다양한 형태(Variety), 빠른 생성 및 유통속도(Velocity)의 특징을 가지고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 가치 창출을 위한 노력을 기하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석도구인 소셜 매트릭스를 활용하여 키워드 의미를 분석하였다. 또한, 분석결과를 바탕으로 이론적 실무적 시사점을 제시하고자 한다.

  • PDF

머신러닝 기법을 활용한 공장 에너지 사용량 데이터 분석 (Machine Learning Approach for Pattern Analysis of Energy Consumption in Factory)

  • 성종훈;조영식
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권4호
    • /
    • pp.87-92
    • /
    • 2019
  • 본 연구에서는 머신 러닝 기법을 활용하여 공장에서 발생하는 에너지 사용량에 대한 데이터 분석 및 패턴 추출에 대해 다룬다. 통계학이나 기존의 방법들은 몇 가지 물리적 특성을 반영하는 수학적 모델을 구축하는 반면, 머신 러닝을 통한 접근방법은 데이터 학습을 통하여 모델의 계수들을 결정하게 된다. 기존의 방법들은 특정한 구조를 갖는 수학적 모델을 구축해야 한다는 어려움이 있으며 과연 데이터의 특징들을 잘 반영하는지에 대한 의문이 존재했다. 그러나 머신 러닝을 통한 방법은 사람이 구축하기 어려운 작업들을 용이하게 구축한다는 장점을 가지고 있기 때문에 데이터 간의 관계를 파악하기에 더 효율적이라는 장점을 가지고 있다. 공장의 에너지 소비에 직접적으로 영향을 끼치는 요소들이 존재하며 이러한 전력 소비는 시간에 따른 데이터로 나타나게 된다. 각 요소들로부터 발생하는 소비 전력을 계측하고 데이터 베이스를 구축하기 위해 각 요소에 센서를 장착하였다. 취득된 데이터에 대해 전처리 과정 및 통계적인 분석을 거친 뒤, 머신 러닝을 통해 패턴을 분석하는 과정을 거쳤다. 이를 통해 공장에서 발생하는 소비 전력 데이터에 대한 패턴 분석을 진행하였다.