• 제목/요약/키워드: Business Classification Systems

검색결과 343건 처리시간 0.021초

유전자 알고리즘 및 국소 적응 오퍼레이션 기반의 의료 진단 문제 자동화 기법 연구 (Medical Diagnosis Problem Solving Based on the Combination of Genetic Algorithms and Local Adaptive Operations)

  • 이기광;한창희
    • 지능정보연구
    • /
    • 제14권2호
    • /
    • pp.193-206
    • /
    • 2008
  • 의료 진단 문제는 기정의된 특성치들로 표현되는 환자의 상태 데이터로부터 병의 유무를 판단하는 일종의 분류 문제로 간주할 수 있다. 본 연구는 혼용 유전자 알고리즘 기반의 분류방법을 도입함으로써 의료 진단 문제와 같은 다차원의 패턴 분류 문제를 해결할 수 있는 방안을 제안하고 있다. 일반적으로 분류 문제는 데이터 패턴에 존재하는 여러 클래스 간 구분경계를 생성하는 접근방법을 사용하는데, 이를 위해 본 연구에서는 일단의 영역 에이전트들을 도입하여 이들을 유전자 알고리즘 및 국소 적응조작을 혼용함으로써 데이터 패턴에 적응하도록 유도하고 있다. 일반적인 유전자 알고리즘의 진화단계를 거친 에이전트들에 적용되는 국소 적응조작은 영역 에이전트의 확장, 회피 및 재배치로 이루어지며, 각 에이전트의 적합도에 따라 이들 중 하나가 선택되어 해당 에이전트에 적용된다. 제안된 의료 진단용 분류 방법은 UCI 데이터베이스에 있는 잘 알려진 의료 데이터, 즉 간, 당뇨, 유방암 관련 진단 문제에 적용하여 검증하였다. 그 결과, 기존의 대표적인 분류기법인 최단거리이웃방법(the nearest neighbor), C4.5 알고리즘에 의한 의사 결정트리(decision tree) 및 신경망보다 우수한 진단 수행도를 나타내었다.

  • PDF

Support Vector Machine을 이용한 온라인 리뷰의 용어기반 감성분류모형 (Terms Based Sentiment Classification for Online Review Using Support Vector Machine)

  • 이태원;홍태호
    • 경영정보학연구
    • /
    • 제17권1호
    • /
    • pp.49-64
    • /
    • 2015
  • SNS의 확산으로 온라인 상점에서는 상품에 대한 주관적인 의견이 내포되어 있는 고객리뷰 정보가 빠르게 생성되고 확산되어 다른 고객들에게 큰 영향을 미치고 있다. 이와 더불어, 고객들의 긍정적 또는 부정적 의견을 분석하여 개선방안을 모색하려는 오피니언마이닝(opinion mining)이 주목 받고 있다. 고객리뷰에 내포된 감성정보를 가진 용어들은 감성분류를 하는데 가장 중요한 역할을 하기 때문에 영향력이 높은 용어를 선별하는 것이 가장 중요하다. 본 연구에서는 품사태깅을 이용하여 최적의 용어들을 선별하고 용어정보에 기반한 문서수준에서의 감성분류모형을 제안하고자 한다. 고객리뷰의 감성분류모형에 대표적인 기계학습기법인 SVM을 적용하고, SVM의 입력변수 선정과정에 품사태깅 방식과 용어추출기법을 다르게 조합하고 사용하여 긍정적/부정적 문서를 분류하였다. 본 연구에서 제안한 감성분류모형의 성과를 검증하기 위해 아마존(Amazon.com)의 영화와 도서에 대한 고객리뷰 80,000개를 수집하여 불필요한 용어들을 제거한 후 품사태깅을 통해 용어를 추출하였다. 추출된 용어는 문서빈도, TF-IDF, 정보획득량, 카이제곱 통계량의 값을 산출하여 값을 통해 용어들을 순위화하고, 각 상위 20개에 해당하는 최적의 용어를 선정한 후 SVM을 이용하였다. 제안된 감성분류모형을 통해 기존 연구에서 언급한 형용사만을 사용한 예측변수와 4품사를 사용한 예측변수에서의 실험결과를 통해 비교 분석하였다. 카이제곱 통계량 기반의 감성분류모형이 다른 모형보다 예측성과가 가장 우수하게 나타나는 것을 확인할 수 있었다. 본 연구에서 제안된 문서수준에서의 용어기반 감성분류모형을 이용함으로써 온라인 상점에서의 서비스 개선과 경쟁력 확보에 많은 도움이 될 것으로 기대된다.

이진 분류문제에서의 딥러닝 알고리즘의 활용 가능성 평가 (Feasibility of Deep Learning Algorithms for Binary Classification Problems)

  • 김기태;이보미;김종우
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.95-108
    • /
    • 2017
  • 최근 알파고의 등장으로 딥러닝 기술에 대한 관심이 고조되고 있다. 딥러닝은 향후 미래의 핵심 기술이 되어 일상생활의 많은 부분을 개선할 것이라는 기대를 받고 있지만, 주요한 성과들이 이미지 인식과 자연어처리 등에 국한되어 있고 전통적인 비즈니스 애널리틱스 문제에의 활용은 미비한 실정이다. 실제로 딥러닝 기술은 Convolutional Neural Network(CNN), Recurrent Neural Network(RNN), Deep Boltzmann Machine (DBM) 등 알고리즘들의 선택, Dropout 기법의 활용여부, 활성 함수의 선정 등 다양한 네트워크 설계 이슈들을 가지고 있다. 따라서 비즈니스 문제에서의 딥러닝 알고리즘 활용은 아직 탐구가 필요한 영역으로 남아있으며, 특히 딥러닝을 현실에 적용했을 때 발생할 수 있는 여러 가지 문제들은 미지수이다. 이에 따라 본 연구에서는 다이렉트 마케팅 응답모델, 고객이탈분석, 대출 위험 분석 등의 주요한 분류 문제인 이진분류에 딥러닝을 적용할 수 있을 것인지 그 가능성을 실험을 통해 확인하였다. 실험에는 어느 포르투갈 은행의 텔레마케팅 응답여부에 대한 데이터 집합을 사용하였으며, 전통적인 인공신경망인 Multi-Layer Perceptron, 딥러닝 알고리즘인 CNN과 RNN을 변형한 Long Short-Term Memory, 딥러닝 모형에 많이 활용되는 Dropout 기법 등을 이진 분류 문제에 활용했을 때의 성능을 비교하였다. 실험을 수행한 결과 CNN 알고리즘은 비즈니스 데이터의 이진분류 문제에서도 MLP 모형에 비해 향상된 성능을 보였다. 또한 MLP와 CNN 모두 Dropout을 적용한 모형이 적용하지 않은 모형보다 더 좋은 분류 성능을 보여줌에 따라, Dropout을 적용한 CNN 알고리즘이 이진분류 문제에도 활용될 수 있는 가능성을 확인하였다.

Towards Improving Causality Mining using BERT with Multi-level Feature Networks

  • Ali, Wajid;Zuo, Wanli;Ali, Rahman;Rahman, Gohar;Zuo, Xianglin;Ullah, Inam
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권10호
    • /
    • pp.3230-3255
    • /
    • 2022
  • Causality mining in NLP is a significant area of interest, which benefits in many daily life applications, including decision making, business risk management, question answering, future event prediction, scenario generation, and information retrieval. Mining those causalities was a challenging and open problem for the prior non-statistical and statistical techniques using web sources that required hand-crafted linguistics patterns for feature engineering, which were subject to domain knowledge and required much human effort. Those studies overlooked implicit, ambiguous, and heterogeneous causality and focused on explicit causality mining. In contrast to statistical and non-statistical approaches, we present Bidirectional Encoder Representations from Transformers (BERT) integrated with Multi-level Feature Networks (MFN) for causality recognition, called BERT+MFN for causality recognition in noisy and informal web datasets without human-designed features. In our model, MFN consists of a three-column knowledge-oriented network (TC-KN), bi-LSTM, and Relation Network (RN) that mine causality information at the segment level. BERT captures semantic features at the word level. We perform experiments on Alternative Lexicalization (AltLexes) datasets. The experimental outcomes show that our model outperforms baseline causality and text mining techniques.

LIME을 활용한 준지도 학습 기반 이상 탐지 모델: 반도체 공정을 중심으로 (Anomaly Detection Model Based on Semi-Supervised Learning Using LIME: Focusing on Semiconductor Process)

  • 안강민;신주은;백동현
    • 산업경영시스템학회지
    • /
    • 제45권4호
    • /
    • pp.86-98
    • /
    • 2022
  • Recently, many studies have been conducted to improve quality by applying machine learning models to semiconductor manufacturing process data. However, in the semiconductor manufacturing process, the ratio of good products is much higher than that of defective products, so the problem of data imbalance is serious in terms of machine learning. In addition, since the number of features of data used in machine learning is very large, it is very important to perform machine learning by extracting only important features from among them to increase accuracy and utilization. This study proposes an anomaly detection methodology that can learn excellently despite data imbalance and high-dimensional characteristics of semiconductor process data. The anomaly detection methodology applies the LIME algorithm after applying the SMOTE method and the RFECV method. The proposed methodology analyzes the classification result of the anomaly classification model, detects the cause of the anomaly, and derives a semiconductor process requiring action. The proposed methodology confirmed applicability and feasibility through application of cases.

용어 확장을 통한 핀테크 기술 적용가능 산업의 탐색 :네트워크 분석 및 토픽 모델링 접근 (Exploring Potential Application Industry for Fintech Technology by Expanding its Terminology: Network Analysis and Topic Modelling Approach)

  • 박민규;전병민;김종우;금영정
    • 한국전자거래학회지
    • /
    • 제26권1호
    • /
    • pp.1-28
    • /
    • 2021
  • 핀테크는 기술주도형 금융혁신을 위한 중요한 사업 영역으로 논의되어 왔다. 핀테크라는 용어는 금융과 기술의 합성어로, 현재 모든 금융 분야와 연계된 ICT 기술을 의미한다. 핀테크 산업에 관한 관심은 시간이 지날수록 크게 높아져 수많은 스타트업에 대한 전폭적인 투자와 지원이 이루어지고 있다. 이에 따라 학문적, 실무적 시점에서 핀테크 동향을 연구하려는 시도가 있어 왔다. 그러나 시장의 높은 관심에도 불구하고 기존 연구는 핀테크 기술에 대한 명확하고 체계적인 정의 및 확장 절차가 부족하였다. 이러한 이유로 핀테크 기술을 바탕으로 적절한 응용 분야를 파악하는 것 역시 한계가 존재하였다. 이에 본 연구는 세 가지 방식을 결합하여 핀테크 관련 용어를 확장하고, 네트워크 분석과 토픽 모델링을 활용해 핀테크 분야 동향을 분석하는 새로운 방법을 제안한다. 이를 위해 새로운 핀테크 용어목록을 생성하고, USPTO로부터 10년간 총 1만 8341건의 특허를 수집하였다. 수집된 특허를 바탕으로 Co-classification 분석과 네트워크 분석을 통해 핀테크 특허의 기술 동향을 파악하였고, 핀테크 도메인을 분석하기 위해 핀테크 트렌드를 파악하는 토픽 모델링을 실시하였다. 이번 연구는 기술주도형 금융서비스에 참여하고자 하는 경영자와 투자자가 핀테크 기술의 정의와 범위를 정확히 이해하고, 이를 바탕으로 핀테크 기술의 트렌드를 다각적으로 분석함으로써 새로운 핀테크 기술 기회를 포착하는 데 도움이 될 것으로 기대된다.

단변량 분석과 LVF 알고리즘을 결합한 하이브리드 속성선정 방법 (A Hybrid Feature Selection Method using Univariate Analysis and LVF Algorithm)

  • 이재식;정미경
    • 지능정보연구
    • /
    • 제14권4호
    • /
    • pp.179-200
    • /
    • 2008
  • 본 연구에서는 사례기반 추론 기법을 대상으로 효율성과 효과성을 함께 증진시킬 수 있는 속성선정 방법을 개발하였다. 기본적으로, 본 연구에서 개발한 속성선정 방법은 기존에 개발된 단변량 분석 방법과 LVF 알고리즘을 통합하는 것이다. 먼저, 단변량 분석 방법 중 선택효과를 사용하여 전체 속성 중에서 예측력이 우수하다고 판단되는 일부분의 속성들을 추려낸다. 이 속성들로부터 생성해낼 수 있는 모든 가능한 부분집합을 생성해낸 후에, LVF 알고리즘을 이용하여 이 부분집합들이 가지는 불일치 비율을 평가함으로써 최종적으로 속성 부분집합을 선정한다. 본 연구에서 개발한 속성선정 방법을 UCI에서 제공하는 데이터 집합들에 적용하여 성능을 측정한 후, 기존 기법의 성능들과 비교한 결과, 본 연구에서 개발된 속성선정 방법이 선정된 속성의 개수도 만족할만하고 적중률도 향상되어서, 효율성과 효과성 모두의 측면에서 우수함을 보였다.

  • PDF

고객의 이탈 가능성과 LTV를 이용한 고객등급화 모형개발에 관한 연구 (A Model for Effective Customer Classification Using LTV and Churn Probability : Application of Holistic Profit Method)

  • 이훈영;양주환;류치훈
    • 지능정보연구
    • /
    • 제12권4호
    • /
    • pp.109-126
    • /
    • 2006
  • 성공적인 고객관계관리(CRM : customer relationship management)를 수행하기 위해서는 효과적인 고객 등급화가 필요하다. 일반적으로 고객등급화는 고객별로 LTV를 산정한 다음 일정한 비율로 고객을 분류하여 등급을 정하는 방법이 사용되어 왔다. 그러나 이러한 방법은 등급간의 이질성을 명확하게 반영하지 못하기 때문에 적지 않은 문제점을 내포하고 있다. 본 논문에서는 Holistic Profit을 이용해서 고객을 등급화 하는 방법을 제시하고, A 생명보험회사의 고객자료을 이용해서 이를 검증하였다. Holistic Profit은 신용대출 승인정책에서 승인임계점수(Cutoff Point) 책정에 활용되고 있는 방법들 중의 하나이다. 요약하면, 본 논문의 목적은 Holistic Profit을 활용하여 보다 효과적이고 과학적인 방법으로 고객 등급화 하는 방법의 개발과 검증에 있다. 본 논문에서 제시된 방법을 사용해서 고객을 등급화 함으로써 기업은 보다 효과적인 고객관계관리(CRM)와 마케팅 활동을 수행할 수 있을 것으로 기대된다.

  • PDF

수입자동차 리콜 수요패턴 분석과 ARIMA 수요 예측모형의 적용 (Analysis of the Recall Demand Pattern of Imported Cars and Application of ARIMA Demand Forecasting Model)

  • 정상천;박소현;김승철
    • 산업경영시스템학회지
    • /
    • 제43권4호
    • /
    • pp.93-106
    • /
    • 2020
  • This research explores how imported automobile companies can develop their strategies to improve the outcome of their recalls. For this, the researchers analyzed patterns of recall demand, classified recall types based on the demand patterns and examined response strategies, considering plans on how to procure parts and induce customers to visit workshops, recall execution capacity and costs. As a result, recalls are classified into four types: U-type, reverse U-type, L- type and reverse L-type. Also, as determinants of the types, the following factors are further categorized into four types and 12 sub-types of recalls: the height of maximum demand, which indicates the volatility of recall demand; the number of peaks, which are the patterns of demand variations; and the tail length of the demand curve, which indicates the speed of recalls. The classification resulted in the following: L-type, or customer-driven recall, is the most common type of recalls, taking up 25 out of the total 36 cases, followed by five U-type, four reverse L-type, and two reverse U-type cases. Prior studies show that the types of recalls are determined by factors influencing recall execution rates: severity, the number of cars to be recalled, recall execution rate, government policies, time since model launch, and recall costs, etc. As a component demand forecast model for automobile recalls, this study estimated the ARIMA model. ARIMA models were shown in three models: ARIMA (1,0,0), ARIMA (0,0,1) and ARIMA (0,0,0). These all three ARIMA models appear to be significant for all recall patterns, indicating that the ARIMA model is very valid as a predictive model for car recall patterns. Based on the classification of recall types, we drew some strategic implications for recall response according to types of recalls. The conclusion section of this research suggests the implications for several aspects: how to improve the recall outcome (execution rate), customer satisfaction, brand image, recall costs, and response to the regulatory authority.

DEA를 이용한 B2B 온라인 쇼핑몰 상품관리 효율성 증대 방안 (Improving the Utilization and Efficiency of B2B Online Store using DEA)

  • 구승환;박현기;장성용
    • 한국산학기술학회논문지
    • /
    • 제15권7호
    • /
    • pp.4237-4245
    • /
    • 2014
  • 본 연구는 DEA 모형을 이용하여 B2B 온라인 쇼핑몰의 상품을 효율적으로 분류하고 운영하는 방법을 제시하였다. 이를 위해 실제 M사의 자료를 활용하여 분석을 수행하였으며, 카테고리를 분류하여 업무부하량을 산정하였다. 연구결과, DEA를 활용하여 상품을 분리해 관리할 경우 기존에 비해 업무 부하량이 평준화되는 것을 알 수 있었다. 또한 A분류에는 순이익이 가장 높은 카테고리들로 구성되어 있어 회사에서 주력으로 관리해야할 분류임을 알 수 있었다. B와 C분류의 업무는 상대적으로 중요도가 낮은 것으로 구성되어 있으며, 기존보다 업무 부하량도 줄어든 것을 알 수 있었다. 따라서 본 연구결과를 실제 업무에 반영한다면 효율적인 운영이 가능 할 것으로 사료된다.