• 제목/요약/키워드: hybrid systems

검색결과 2,626건 처리시간 0.027초

유전자 알고리즘을 이용한 분류자 앙상블의 최적 선택 (Optimal Selection of Classifier Ensemble Using Genetic Algorithms)

  • 김명종
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.99-112
    • /
    • 2010
  • 앙상블 학습은 분류 및 예측 알고리즘의 성과개선을 위하여 제안된 기계학습 기법이다. 그러나 앙상블 학습은 기저 분류자의 다양성이 부족한 경우 다중공선성 문제로 인하여 성과개선 효과가 미약하고 심지어는 성과가 악화될 수 있다는 문제점이 제기되었다. 본 연구에서는 기저 분류자의 다양성을 확보하고 앙상블 학습의 성과개선 효과를 제고하기 위하여 유전자 알고리즘 기반의 범위 최적화 기법을 제안하고자 한다. 본 연구에서 제안된 최적화 기법을 기업 부실예측 인공신경망 앙상블에 적용한 결과 기저 분류자의 다양성이 확보되고 인공신경망 앙상블의 성과가 유의적으로 개선되었음을 보여주었다.

금융 특화 딥러닝 광학문자인식 기반 문서 처리 플랫폼 구축 및 금융권 내 활용 (Deep Learning OCR based document processing platform and its application in financial domain)

  • 김동영;김두형;곽명성;손현수;손동원;임민기;신예지;이현정;박찬동;김미향;최동원
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.143-174
    • /
    • 2023
  • 인공지능의 발전과 함께 딥러닝을 활용한 인공지능 광학문자인식 기법 (Artificial Intelligence powered Optical Character Recognition, AI-OCR) 의 등장은 기존의 이미지 처리 기반 OCR 기술의 한계를 넘어 다양한 형태의 이미지로부터 여러 언어를 높은 정확도로 읽어낼 수 있는 모델로 발전하였다. 특히, AI-OCR은 인력을 통해 대량의 다양한 서류 처리 업무를 수행하는 금융업에 있어 그 활용 잠재력이 크다. 본 연구에서는 금융권내 활용을 위한 AI-OCR 모델의 구성과 설계를 제시하고, 이를 효율적으로 적용하기 위한 플랫폼 구축 및 활용 사례에 대해 논한다. 금융권 특화 딥러닝 모델을 만듦에 있어 금융 도메인 데이터 사용은 필수적이나, 개인정보보호법 이하 실 데이터의 사용이 불가하다. 이에 본 연구에서는 딥러닝 기반 데이터 생성 모델을 개발하였고, 이를 활용하여 AI-OCR 모델 학습을 진행하였다. 다양한 서류 처리에 있어 유연한 데이터 처리를 위해 단계적 구성의 AI-OCR 모델들을 제안하며, 이는 이미지 전처리 모델, 문자 탐지 모델, 문자 인식 모델, 문자 정렬 모델 및 언어 처리 모델의 선택적, 단계적 사용을 포함한다. AI-OCR 모델의 배포를 위해 온프레미스(On-Premise) 및 프라이빗 클라우드(Private Cloud) 내 GPU 컴퓨팅 클러스터를 구성하고, Hybrid GPU Cluster 내 컨테이너 오케스트레이션을 통한 고효율, 고가용 AI-OCR 플랫폼 구축하여 다양한 업무 및 채널에 적용하였다. 본 연구를 통해 금융 특화 AI-OCR 모델 및 플랫폼을 구축하여 금융권 서류 처리 업무인 문서 분류, 문서 검증 및 입력 보조 시스템으로의 활용을 통해 업무 효율 및 편의성 증대를 확인하였다.

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

적응형 부스팅을 이용한 파산 예측 모형: 건설업을 중심으로 (Bankruptcy Forecasting Model using AdaBoost: A Focus on Construction Companies)

  • 허준영;양진용
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.35-48
    • /
    • 2014
  • 2013년 건설 경기 전망 보고서에 따르면 주택건설경기 침체 상황의 지속으로 건설 기업의 유동성 위기가 지속될 것으로 전망된다. 건설업은 파산으로 인한 사회적 파급효과가 다른 산업에 비해 큰 편이지만, 업종의 특성상 다른 산업과는 상이한 자본구조와 부채비율, 현금흐름을 가지고 있어서 기업의 파산 예측이 더 어려운 측면이 있다. 건설업은 레버리지가 큰 산업으로 부채비율이 매우 높은 업종이며 현금흐름이 프로젝트 후반부에 집중되는 특성이 있다. 그리고 경기사이클에 따른 부침이 매우 심하여 경기하강국면에선 파산이 급증하는 양상을 보인다. 건설업이 레버리지 산업인 이상 건설업체의 파산율 증가는 여신을 공여한 은행에 큰 부담으로 작용한다. 그럼에도 그간의 파산예측모델이 주로 금융기관에 집중되어 왔고 건설업종에 특화된 연구는 드물었다. 기업의 재무 자료를 바탕으로 한 파산 예측 모델에 대한 연구는 오래 전부터 다양하게 진행되었다. 하지만, 일반적인 기업 전체를 대상으로 하는 모델이기 때문에, 건설 기업과 같이 유동성이 큰 기업의 예측에는 적절하지 못할 수 있다. 건설 산업은 오랜 사업 기간과 대규모 투자, 그리고 투자금 회수가 오래 걸리는 특징을 갖는 자본 집약 산업이다. 이로 인해 다른 산업과는 상이한 자본 구조를 갖기 마련이고, 다른 산업의 기업 재무 위험도를 판단하는 기준과 동일한 적용이 곤란할 수 있다. 최근에는 기계 학습을 바탕으로 한 기업 파산 예측 연구가 활발하다. 기계 학습의 대표적 응용 분야인 패턴 인식을 기업의 파산 예측에 응용한 것이다. 기업의 재무 정보를 바탕으로 패턴을 작성하고 이 패턴이 파산 위험 군에 속하는지 안전한 군에 속하는지 판단하는 것이다. 전통적인 Z-Score와 기계 학습을 이용한 파산 예측과 같은 기존 연구들은 특정 산업 분야가 아닌 일반적인 기업을 대상으로 하기 때문에 기업들의 특성을 전혀 고려하고 있지 못하다. 본 논문에서는 건설 기업을 규모에 따라 각 기법들의 예측 능력을 비교하여 적응형 부스팅이 가장 우수함을 확인하였다. 본 논문은 건설 기업을 자본금 규모에 따라 세 등급으로 분류하고 각각에 대해 적응형 부스팅의 예측력을 분석하였다. 실험 결과 적응형 부스팅이 다른 기법에 비해 예측 결과가 좋았고, 특히 자본금 규모가 500억 이상인 기업의 경우 아주 우수한 결과를 보였다.

Emoticon by Emotions: 소비자 감성 기반 이모티콘 추천 시스템 개발 (Emoticon by Emotions: The Development of an Emoticon Recommendation System Based on Consumer Emotions)

  • 김건우;박도형
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.227-252
    • /
    • 2018
  • 인터넷의 발달을 통해 지속적으로 인스턴트 커뮤니케이션이 발달해왔다. 인스턴트 커뮤니케이션에서 가장 대표적인 것이 메신저 애플리케이션이다. 메신저 애플리케이션에서 이모티콘은 송신자의 감정 전달을 보완하기 위해 활용됐다. 메신저 애플리케이션 송신자의 감정 전달에 약한 모습을 보이는데 그 이유는 면대면 커뮤니케이션이 아니기 때문이다. 이모티콘은 과거 화자의 기분 상태를 나타내는 기호로만 사용됐다. 그러나 현재는 이모티콘은 감정 전달 뿐만 아니라 개인의 특성과 개성을 나타내고 싶어 하는 소비자의 심리를 반영하는 형태로 발전해가고 있다. 이모티콘의 사용 환경이 개선되었고, 이모티콘 자체가 발전함으로써 이모티콘 자체에 대한 관심도는 증가하였다. 대표적인 예로 카카오톡, 라인, 애플 등에서 서비스를 진행하고 있으며, 관련 컨텐츠 상품의 매출도 지속적으로 증가할 것으로 전망하고 있다. 이모티콘 자체의 관심도 증가와 관련 사업의 성장세에도 불구하고 현재 적절한 이모티콘 추천 시스템이 부재하다. 국내 점유율 90% 이상의 메신저 애플리케이션인 카카오톡조차 단순히 인기 순이나 최근 순, 혹은 간략한 카테고리 별로 분류한 정도이다. 소비자들은 원하는 이모티콘을 찾기 위해서 스크롤을 계속해서 내려야 하는 불편함이 있으며, 본인이 원하는 감성의 이모티콘을 찾기 어렵다. 소비자들이 편의성 향상과 기업의 이모티콘 관련 사업의 판매 매출 증가를 위해 소비자가 원하는 이모티콘을 추천해줄 수 있는 이모티콘 추천 시스템이 필요하다. 적절한 이모티콘을 추천하기 위해서 소비자가 이모티콘을 보고 느낀 감성에 대해 정량화할 필요성이 있다. 정량화를 통해 소비자가 원하는 이모티콘 셋이 가진 특징과 감성에 대해 분석할 수 있으며, 분석 결과를 토대로 소비자에게 이모티콘을 추천할 수 있다. 이모티콘은 메타데이터화의 방법으로 정량화가 가능하다. 메타데이터화 방법은 빅데이터 시대에 비정형, 반정형 데이터에 대해서 의미를 추출하기 위해 데이터를 구조화 혹은 조직화하는 작업이다. 비정형 데이터인 이모티콘을 메타데이터화를 통해 구조화한다면, 쉽게 소비자가 원하는 감성 형태로 분류할 수 있을 것으로 생각한다. 정확한 감성을 추출하기 위해 감정과 관련된 선행 연구를 통해 7개의 공통 감성 형용사와 한국어에서만 나타나는 은유 혹은 표현적 특징들을 반영하기 위해 하위 세부 표현들까지 고려했다. 이모티콘의 가장 큰 특징인 캐릭터를 기반으로 "표상", "형상", "색상"의 범주에서 세부 하위 감성들을 수집했다. 정확도 높은 추천 시스템을 설계하기 위해 감성 지표만이 아니라 객관적 지표도 고려하였다. 메타데이터화 방법을 통해 이모티콘이 갖고 있는 캐릭터의 특징을 객관적 지표로 14개, 감성 지표로 활용하기 위해 감성 형용사를 36개를 추출하였다. 추출된 감성 형용사는 대비되는 형용사로 구성하여 총 18개로 줄였으며, 18개의 감성 형용사는 카카오톡의 이모티콘을 인기 순으로 임의의 40개 셋을 대상으로 측정하였다. 측정을 위해 이모티콘을 평가할 조사 대상자 온라인으로 모집하였고, 277명의 20~30대의 이모티콘을 구매한 경험이 있는 소비자를 대상으로 설문을 진행하였다. 설문응답자에게 서로 다른 5개의 이모티콘 셋을 평가하도록 하였다. 평가 결과 수집된 18개의 감정 형용사는 요인분석을 통해 감성 지표 요인으로 추출하였다. 추출된 소비자 감성 지표의 요인은 "코믹", "부드러움", "모던함", "투명함"이었다. 이모티콘의 객관적 지표와 감성 지표 요인을 활용하여 소비자 만족과의 관계를 분석하였고, 객관적 지표와 감성 지표 간의 관계도 분석하였다. 이 과정에서 객관적 지표가 소비자 태도에 바로 영향을 주는 것이 아니라 감성 지표 요인을 통해 소비자 태도에 영향을 주는 매개 효과가 있음을 확인하였다. 분석 결과는 소비자의 감성 평가 메커니즘을 밝혀냈고, 소비자의 이모티콘 감성 평가 메커니즘은 객관적 지표가 감성 지표 요인에 영향을 미치며, 감성 지표 요인은 소비자 만족에 영향을 미치는 관계였다. 따라서 감성 지표 요인의 네 가지만으로 이모티콘 추천 시스템을 설계하였고, 추천 방법은 각 감성과의 거리를 유클리디안 거리로 측정하여 거리의 차가 0에 가까울수록 비슷한 감성으로 정의하였다. 본 연구에서 제안한 이모티콘 시스템의 검증을 위해 각 감성 지표 요인과 소비자 만족의 평균을 지표 값으로 활용하여 각 이모티콘 셋의 감성 패턴을 그래프로 비교하였고, 추천된 이모티콘들과 선택된 이모티콘이 대체로 비슷한 패턴을 그리는 것을 확인하였다. 정확한 검증을 위해 사전 조사하였던 소비자를 대상으로 이모티콘 추천 시스템이 제시한 결과와 유사하게 평가하였는지 유사 순위를 세 구간으로 나누어 비교하였고, 순위별 예측 정확도는 결과 1순위 81.02%, 2순위 76.64%, 3순위 81.63%였다. 본 연구의 결과는 학문적, 실무적으로 다양한 분야에서 활용 가능한 방법론을 제시하였으며, 기존에 없던 이모티콘 추천 시스템의 설계를 통해 소비자에게는 편의와 이모티콘을 서비스하는 기업에는 매출증대의 효과를 가져올 것으로 예상한다. 그리고 본 연구를 통해 지능형 이모티콘 시스템으로 발전할 수 있는 단초를 제공했다는 점에서 의미가 있다. 본 연구에서 제안한 감성 요인들을 활용하여 감성 라이브러리로 사용함으로써, 새로운 이모티콘 출시 시 감성 평가의 지표로 활용할 수 있다. 축적된 감성 라이브러리와 기업의 판매 데이터, 매출 정보, 소비자 데이터를 결합하여 본 연구에서 제안한 추천 시스템을 복합형 추천 시스템으로 발전시켜 단순 소비자의 편의성이나 매출 증가뿐만 아니라 기업에서 전략적으로 활용 가능한 지적 자산으로 활용할 수 있을 것으로 판단한다.

사용자 행동 기반의 사회적 관계를 결합한 사용자 협업적 여과 방법 (Incorporating Social Relationship discovered from User's Behavior into Collaborative Filtering)

  • 타이쎄타;하인애;조근식
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.1-20
    • /
    • 2013
  • 소셜 네트워크는 사용자들의 공통된 관심사, 경험, 그리고 일상 생활들을 함께 공유하기 위해 소셜 네트워크 상 사람들을 서로 연결시켜주는 거대한 커뮤니케이션 플랫폼이다. 소셜 네트워크상의 사용자들은 포스팅, 댓글, 인스턴스 메시지, 게임, 소셜 이벤트 외에도 다양한 애플리케이션을 통해 다른 사용자들과 소통하고 개인 정보 관리하는데 많은 시간을 소비한다. 소셜 네트워크 상의 풍부한 사용자 정보는 추천시스템이 추천 성능을 향상시키기 위해 필요한 큰 잠재력이 되었다. 대부분의 사용자들은 어떤 상품을 구매하기 전 가까운 관계이거나 같은 성향을 가진 사람들의 의견을 반영하여 의사 결정을 하게 된다. 그러므로 소셜 네트워크에서의 사용자 관계는 추천시스템을 위한 사용자 선호도 예측을 효율적으로 높이는데 중요한 요소라 할 수 있다. 일부 연구자들은 소셜 네트워크에서의 사용자와 다른 사용자들 사이의 상호작용 즉, 소셜 관계(social relationship)와 같은 소셜 데이터가 추천시스템에서 추천의 질에 어떠한 영향을 미치는가를 연구하고 있다. 추천시스템은 아마존, 이베이, Last.fm과 같은 큰 규모의 전자상거래 사이트 또한 채택하여 사용되는 시스템으로, 추천시스템을 위한 방법으로는 협업적 여과 방법과 내용 기반 여과 방법이 있다. 협업적 여과 방법은 사용자들의 선호도 학습에 의해 사용자가 아직 평가하지 않은 아이템 중 선호할 수 있는 아이템을 정확하게 제안하기 위한 추천시스템 방법 중 하나이다. 협업적 여과는 사용자들의 데이터에 초점을 맞춘 방법으로 유사한 배경과 선호도를 가지는 사용자들로부터 정보를 수집하여 사용자들의 선호도 예측을 자동으로 발생시킨다. 특히 협업적 여과는 근접한 이웃 사용자들에 의해서 목적 사용자가 선호할 수 있는 아이템을 제시하는 것으로 유사한 이웃 사용자를 찾는 것이 중요하다. 좋은 이웃 사용자 발견은 사용자와 아이템을 고려하는 방법이 일반적이다. 각 사용자는 아이템 즉, 영화, 상품, 책 등에 자신의 선호도를 나타내기 위하여 평가 값을 입력하고, 시스템은 이를 바탕으로 사용자-평가 행렬을 구축한다. 이 사용자-평가 행렬은 목적 사용자와 유사하게 아이템을 평가한 사용자 그룹을 찾기 위한 것으로, 목적 사용자가 아직 평가하지 않은 아이템에 대하여 사용자-평가 매트릭스를 통해 그 평가 값을 예측한다. 현재 이 협업적 여과 방법은 전자상거래와 정보 검색에서 적용되어 개인화 시스템에 효율적으로 사용되고 있다. 하지만 초기 사용자 문제, 데이터 희박성 문제와 확장성 그리고 예측 정확도 향상 등 해결해야 할 과제가 여전히 남아 있다. 이러한 문제들을 해소하기 위해 많은 연구자들은 하이브리드, 신뢰기반, 소셜 네트워크 기반 협업적 여과와 같은 다양한 방법을 제안하였다. 본 논문에서는 전통적인 협업적 여과 방식의 예측 정확도와 추천 성능을 향상시키기 위해 소셜 네트워크에 존재하는 소셜 관계를 이용한 협업적 여과 시스템을 제안한다. 소셜 관계는 소셜 네트워크 서비스 중 하나인 페이스북 사용자들이 남긴 포스팅과 사용자의 소셜 네트워크 친구와 의견 교류 중 남긴 코멘트와 같은 사용자 행동을 기반으로 정의된다. 소셜 관계를 구축하기 위해 소셜 네트워크 사용자의 포스팅과 댓글을 추출하고, 추출된 텍스트에 불용어 및 특수 기호 제거와 스테밍 등 전처리를 수행하였다. 특징 벡터는 TF-IDF를 이용하여 전처리된 텍스트에 나타난 각 단어에 대한 특징 점수를 계산함으로써 구축된다. 본 논문에서 이웃 사용자를 결정하기 위해 사용되는 사용자 간 유사도는 특징 벡터를 이용한 사용자 행동 유사도와 사용자의 영화 평가를 기반으로 한 전통적 방법의 유사도를 결합하여 계산된다. 제안하는 시스템은 목표 사용자와 제안한 방법을 통해 결정된 이웃 사용자 집단을 기반으로 목표 사용자가 평가하지 않은 아이템에 대한 선호도를 예측하고 Top-N 아이템을 선별하여 사용자에게 아이템을 추천하게 된다. 본 논문에서 제안하는 방법을 확인하고 평가하기 위하여 IMDB에서 제공하는 영화 정보 기반으로 영화 평가 시스템을 구축하였다. 예측 정확도를 평가하기 위해 MAE 값을 이용하여 제안하는 알고리즘이 얼마나 정확한 추천을 수행하는지에 대한 예측 정확도를 측정하였다. 그리고 정확도, 재현율 및 F1값 등을 활용하여 시스템의 성능을 평가하였으며, 시스템의 추천 품질은 커버리지를 이용하여 평가되었다. 실험 결과로부터 본 논문에서 제안한 시스템이 보다 더 정확하고 좋은 성능으로 사용자에게 아이템을 추천하는 것을 볼 수 있었다. 특히 소셜 네트워크에서 사용자 행동을 기반으로 한 소셜 관계를 이용함으로써 추천 정확도를 6% 향상시킴을 보였다. 또한 벤치마크 알고리즘과의 성능비교 실험을 통해 7% 향상된 추천 성능의 결과를 보여준다. 그러므로 사용자의 행동으로부터 관찰된 소셜 관계를 CF방법과 결합한 제안한 방법이 정확한 추천시스템을 위해 유용하며, 추천시스템의 성능과 품질을 향상시킬 수 있음을 알 수 있다.