• 제목/요약/키워드: imbalanced data

검색결과 151건 처리시간 0.022초

앙상블 학습 기반 국내 도서의 해외 판매 굿셀러 예측 및 굿셀러 리뷰 키워드 분석 (Ensemble Learning-Based Prediction of Good Sellers in Overseas Sales of Domestic Books and Keyword Analysis of Reviews of the Good Sellers)

  • 김도영;김나연;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.173-178
    • /
    • 2023
  • 한국 문학이 세계적으로 관심을 받게 됨에 따라 해외 출판시장에서의 수요가 지속적으로 증가하고 있다. 따라서 해외 출판시 도서 판매량의 예측과 과거 해외 독자들의 선호도가 높았던 도서들의 특징을 분석하는 것이 중요하다. 본 논문에서는 최근 5년간 해외 출간된 도서 중에서 굿셀러로 분류되는 누적 5천 부 이상 판매 여부 예측 모델을 제안하고 굿셀러의 요인이 되는 변수들을 분석하였다. 이를 위해, XGBoost, Gradient Boosting, Adaboost, LightGBM, Random Forest의 다섯 개 앙상블 학습 모델과 Support Vector Machine, Logistic Regression, Deep Learning을 적용한 결과, 불균형 데이터 문제 해결에 앙상블 알고리즘이 큰 효과를 보였음을 확인했으며, 그 중에서도 LightGMB 모델이 99.86%의 AUC 값을 얻어 가장 좋은 예측 성능을 보임을 검증하였다. 예측을 위해 사용된 변수 중 가장 중요한 변수는 작가의 해외 출간 횟수로 나타났으며, 평점 평균, 상위 출판 시장 규모를 가진 국가에서 출판 여부와 평점 참여자 수 등이 중요한 변수로 나타났다. 또한, 굿셀러 도서에 대한 독자들의 반응을 분석하기 위해서, 굿셀러 도서 중에서도 가장 많이 판매된 4권의 작품 리뷰에 대해 텍스트 마이닝을 실시하였다. 분석 결과 스토리, 등장인물, 작가 순으로 관심을 둔 리뷰가 많았음을 알 수 있었으며, 평점이 낮은 리뷰로부터 번역 키워드가 도출된 것으로 보아, 번역에 대한 지원을 확대하는 것이 필요할 것으로 보인다.

머신러닝 기법을 활용한 수입 수산물 통관검사결과 분류 모델 (A Classification Model for Customs Clearance Inspection Results of Imported Aquatic Products Using Machine Learning Techniques)

  • 엄지성;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제8권1호
    • /
    • pp.157-165
    • /
    • 2023
  • 수산물은 많은 국가의 주요한 단백질 공급원이며 소비가 증가하고 있다. 우리나라도 수산물 소비는 증가하는 반면 자급률은 낮아지고 있으며, 수산물의 수입량이 증가함에 따라 안전관리의 중요성이 높아지고 있다. 국내로 수입되는 수산물은 110여 개 국가로부터 수백 종에 이르며, 수입 수산물의 안전관리를 검사관의 경험에만 의존하는 것은 한계가 있다. 데이터를 기반으로 수입 수산물 통관검사 결과를 예측할 수 있는 모델을 개발하여 수입신고서가 제출되었을 때 수산물의 부적합 가능성을 판단하는 머신러닝 분류 모델을 생성한다. 수입수산물 통관검사 결과 부적합율은 1% 미만으로 매우 낮은 불균형 데이터이므로 이러한 특성을 보완할 수 있는 샘플링 방법을 비교 연구하였고, 분류결과를 해석할 수 있는 전처리 방법을 적용하였다. 여러 가지 머신러닝 기반의 분류모델 중에서 랜덤포레스트와 XGBoost가 좋은 성능을 보였다. 통관검사 결과 적합과 부적합을 모두 잘 예측하는 모델은 ADASYN과 원-핫 인코딩을 적용한 랜덤포레스트 기본 모델이며 정확도 99.88%, 정밀도 99.87%, 재현율 99.89%, AUC 99.88%이다. XGBoost는 오버샘플링과 인코딩 종류에 상관없이 모든 지표가 90%를 넘겨 가장 안정적인 모델이다.

VRIFA: LRBF 커널과 Nomogram을 이용한 예측 및 비선형 SVM 시각화도구 (VRIFA: A Prediction and Nonlinear SVM Visualization Tool using LRBF kernel and Nomogram)

  • 김성철;유환조
    • 한국멀티미디어학회논문지
    • /
    • 제13권5호
    • /
    • pp.722-729
    • /
    • 2010
  • 예측 문제를 해결하기 위한 데이타마이닝 기법은 다양한 분야에서 주목받고 있다. 이것에 대한 한 예로 컴퓨터-기반의 질병의 예측 혹은 진단은 CDSS(Clinical Decision support System)에서 가장 중요한 요소이기도 하다. 이러한 예측 문제를 해결하기 위해서 RBF커널 같은 비선형 커널을 사용한 SVM이 가장 널리 사용되고 있는데, 이는 비선형 SVM이 어떠한 다른 분류기법보다 정확한 성능을 보이기 때문이다. 하지만 비선형 SVM을 사용한 경우에는 모델내부를 시각화하는 일이 어려워서 예측결과에 대한 직관적인 이해가 힘들고, 의학 전문가들은 이러한 비선형 SVM의 사용을 기피하고 있는 실정이다. Nomogram은 SVM을 시각화하기 위해 제안된 기법이다. 하지만 이는 선형 SVM의 경우에만 사용이 가능하고. 이 문제를 해결하기 위해서 LRBF 커널이 제안된 바 있다. LRBF 커널은 기존의 RBF 커널을 사용한 SVM과 대등한 결과를 보이면서도 예측결과의 선형적 분석도 가능하게 한다. 본 논문에서는 노모그램(Nomogram)과 LRBF 커널을 사용한 SVM이 통합되어 있는 예측 툴 VRIFA를 제안한다. 이 툴은 사용자와 상호작용하며 비선형 SVM 모델의 내부구조를 데이타의 각 속성별로 보여주는 방법으로 사용자가 예측결과를 직관적으로 이해하도록 도와준다. VRIFA는 Nomogram기반의 피쳐선택(feature selection) 기능도 포함하고 있는데, 이 기능은 예측결과에 부정적인 영향을 끼치거나 중복된 연관성을 보이는 속성을 제거함으로써 모델의 정확도를 높이는 데 기여한다. 그리고 데이터에 포함된 클래스의 비율이 한 쪽으로 치우쳐져 있는 경우에는 ROC 곡선 넓이(AUC)를 예측결과를 평가하기 위한 측도로 사용할 수 있다. 이 툴은 컴퓨터-기반의 질병 예측 혹은 질병의 위험 요소 분석에 대해 연구하는 연구자들에게 유용하게 사용될 것으로 전망하는 바이다.

출생성비의 최근 변화와 시뮬레이션을 통한 성선별 출산행위의 추정: 영남 지역을 중심으로 (Recent Changes in Sex Ratio at Birth and Simulations on Sex-Selective Reproductive Behavior: With a Special Focus on Youngnam Region)

  • 김두섭
    • 한국인구학
    • /
    • 제34권1호
    • /
    • pp.159-178
    • /
    • 2011
  • 한국은 합계출산율이 대체수준 이하로 떨어진 1980년대 중반부터 1990년대 중반에 이르기까지 출생성비가 급격하게 상승하는 현상을 경험하였다. 출생성비의 상승은 대구, 부산과 경상북도 및 경상남도를 포함하는 영남 지역에서 두드러졌다. 한국의 출생성비는 1993년과 1994년 정점에 도달한 이후 지속적으로 저하하였으며, 2007년에 이르면 정상수준으로 낮아진 것으로 판단된다. 국제사회에서 한국은 짧은 기간에 출생성비의 저하를 성공적으로 달성한 국가로 널리 인정된다. 그러나 출산순위 및 부모의 사회경제적 지위에 따른 출생성비를 살펴보면 아직도 비정상적으로 높은 출생성비가 관찰된다. 이러한 현상은 영남 지역에서 가장 두드러지게 나타난다. 아직도 일부 지역과 집단에서는 성선별 출산행위가 광범하게 이루어지고 있는 것으로 판단된다. 이 연구의 주된 목적은 2009년 출생신고 원자료를 활용하여 어머니의 연령, 출산순위, 부모의 교육수준과 직업 등에 따른 출생성비의 편차를 영남 지역을 대상으로 파악하는 것이다. 이 연구에서는 출생성비의 불균형을 초래하는 성선별 출산행위의 설명틀을 적용하여 영남 지역에서 나타나는 출생성비의 집단간 편차를 설명하고자 시도한다. 마지막으로, 이 연구에서는 인공유산에 대하여 가용한 자료가 없다는 점을 감안하여, 1994년, 2005년, 2009년의 세 시점에서 성선별 출산행위에 관한 시뮬레이션 작업이 이루어졌다. 이 시뮬레이션 작업의 결과들은 성감별과 성선별 출산행위가 세 시점에서 얼마나 광범하게 이루어졌고, 아울러 출생성비에 미친 파급효과가 어떠하였는가를 확인해준다.

메타분석을 통한 개인정보보호법의 개선과제 (Improvement Issues of Personal Information Protection Laws through Meta-Analysis)

  • 조명근;이환수
    • 디지털융복합연구
    • /
    • 제15권9호
    • /
    • pp.1-14
    • /
    • 2017
  • 빅 데이터 시대에 접어듦에 따라 개인정보의 가치는 더욱 증가하고 있다. 그러나 우리나라의 개인정보보호 관련 법률들은 여러 가지 해결해야 할 문제점들을 가지고 있는 상황이다. 더욱이 기존 연구들은 제시되고 있는 문제들에 대해 개별적으로 접근하고 있어 개인정보보호법 개선방향에 대한 종합적 이해를 돕는데 한계가 있었다. 따라서 본 연구에서는 국내 개인정보보호법의 문제점들을 논의한 기존 연구들을 바탕으로 현행 개인정보보호법제의 개선과제들을 분석한다. 메타분석 기법을 적용하여 개인정보보호법제의 문제점들을 논의한 총 39개의 연구 논문을 선별하고 분석하였다. 분석 결과 개인정보의 의의 및 범위에 대한 논의, 이해관계자의 역할 및 의무에 대한 논의, 개인정보의 제3자 제공에 관한 논의, 각 분야별 특별법과의 중복규제 및 규제 불균형에 관한 논의 등 파편화 되어있는 현행 개인정보보호법이 가지고 있는 다양한 문제점들이 존재하고 있음을 확인하였다. 실무적 측면에서 본 연구는 개인정보보호법과 각 분야별 특별법들 사이의 부정합성을 개선하기 위한 기초 자료로 의미가 있으며. 학문적으로는 연구자들이 거시적 관점에서 개인정보보호법제의 문제점들을 파악하여 향후 개인정보보호법제의 통합적 정비 방안을 제시하는데 기여할 것이다.

초파리 장조직에서 Caudal 전사조절인자에 의한 matrix metalloproteinase-1 발현 조절 (Regulation of Matrix Metalloproteinase-1 Expression by the Homeodomain Transcription Factor Caudal in Drosophila Intestine)

  • 이신해;황미선;최윤정;김영신;유미애
    • 생명과학회지
    • /
    • 제22권12호
    • /
    • pp.1600-1607
    • /
    • 2012
  • Matrix metalloproteinase (MMP)는 세포외골격의 주요 조절효소로, 배아발생, 혈관생성, 상처치료 및 조직 재생과정에 중요한 인자로 알려져 있다. MMP의 조절 이상은 비정상적 세포외골격 분해로 인해 암 전이와 같은 질병을 일으킨다. 따라서, MMP의 발현과 활성은 엄격하게 조절되고 있다. 최근, 초파리 Mmp1이 소화기관에서 강하게 발현되며, 장줄기세포의 비정상적인 활성을 억제하여 장의 항상성 유지에 중요함을 밝혔다. 하지만, 장조직에서 Mmp1의 발현 조절 기전은 아직 밝혀지지 않았다. 본 연구에서는, 장조직에서 Mmp1의 발현이 장 발생과 항상성 유지에 중요한 Caudal homeobox 유전자에 의해 조절되는지를 연구하였다. GAL4/UAS 조절계를 이용하여 장조직 특이적으로 Caudal의 발현을 감소시켰을 때, Mmp1의 발현이 감소함을 확인하였으며, Caudal을 과발현 시켰을 때, Mmp1의 발현이 증가함을 in vitro와 in vivo 실험 모두에서 확인하였다. 또한, Mmp1 promoter에 Caudal 전사인자 결합 부위가 존재하며, 이 부위가 Mmp1 발현에 중요한 역할을 함을 확인하였다. 이상의 본 연구는, 정상적 혹은 암화 과정에서 Mmp1이 Caudal의 표적 유전자일 수 있음을 의미한다.

수도권지역에서의 권역간 대기오염물질 상호영향 연구 (A Regional Source-Receptor Analysis for Air Pollutants in Seoul Metropolitan Area)

  • 이용미;홍성철;유철;김정수;홍지형;박일수
    • 한국환경과학회지
    • /
    • 제19권5호
    • /
    • pp.591-605
    • /
    • 2010
  • This study were to simulate major criteria air pollutants and estimate regional source-receptor relationship using air quality prediction model (TAPM ; The Air Pollution Model) in the Seoul Metropolitan area. Source-receptor relationship was estimated by contribution of each region to other regions and region itself through dividing the Seoul metropolitan area into five regions. According to administrative boundary, region I and region II were Seoul and Incheon in order. Gyeonggi was divided into three regions by directions like southern(region III), northern(IV) and eastern(V) area. Gridded emissions ($1km{\times}1km$) by Clean Air Pollicy Support System (CAPSS) of National Institute of Environmental Research (NIER) was prepared for TAPM simulation. The operational weather prediction system, Regional Data Assimilation and Prediction System (RDAPS) operated by the Korean Meteorology Administration (KMA) was used for the regional weather forecasting with 30km grid resolution. Modeling period was 5 continuous days for each season with non-precipitation. The results showed that region I was the most air-polluted area and it was 3~4 times more polluted region than other regions for $NO_2$, $SO_2$ and PM10. Contributions of $SO_2$ $NO_2$ and PM10 to region I, II and III were more than 50 percent for their own sources. However region IV and V were mostly affected by sources of region I, II and III. When emissions of all regions were assumed to reduce 10 and 20 percent separately, air pollution of each region was reduced linearly and the contributions of reduction scenario were similar to those of base case. As input emissions were reduced according to different ratio - region I 40 percent, region II and III 20 percent, region IV and V 10 percent, air pollutions of region I and III were decreased remarkably. The contributions to region I, II, III were also reduced for their own sources. However, region I, II and III affected more regions IV and V. Shortly, graded reduction of emission could be more effective to control air pollution in emission imbalanced area.

균형 랜덤 포레스트를 이용한 이륜차 보험사기 적발 모형 개발 (Bike Insurance Fraud Detection Model Using Balanced Randomforest Algorithm)

  • 김승훈;이수일;김태호
    • 디지털융복합연구
    • /
    • 제20권2호
    • /
    • pp.241-250
    • /
    • 2022
  • COVID-19 여파로 인한 비대면 서비스와 가정 재정 불안정성의 증가로 이륜차 보험사기 발생이 예상되고 있다. 이와 함께 보험사기 수법도 갈수록 교묘해지고 있다. 하지만 비대면 배달 수요와 연관된 이륜차 교통사고와 보험사기 적발 모형 관련 연구는 매우 미흡한 실정이다. 이에 본 연구는 보험사기의 표본 편중문제를 해결하기 위해 균형 랜덤포레스트 알고리즘을 이용하고 보험사기 조사 전문가의 정성적인 판단 기준을 반영한 변수를 모델에 포함하여 적용성을 향상시키며 적발력 높은 이륜차 보험사기 모형을 개발하고자 한다. 보험사기 적발 모형 개발 결과, 기존의 비균형 랜덤 포레스트 모형에 비해 균형 랜덤 포레스트가 보험 사기혐의자를 분류하는 데 있어 통계적으로 우수한 점을 확인할 수 있었다. 특히, 총 26개의 변수를 토대로 탐색적 변수 조합을 적용한 모형의 예측 성능이 가장 높았지만 일부 변수만을 사용한 확인적 모형의 예측 성능도 크게 떨어지지 않은 와중에, 정성적인 보험사기 전문가가 선정한 변수만을 사용한 확인적 모형은 예측력이 떨어지는 것을 확인하였다. 또한, 총 26개의 변수 중 운전자 성별, 연령, 운전자 피보험자 일치 여부, 미수선 청구금액, 대인보험금 등이 중요한 변수로 확인되어 이를 활용해 이륜차 보험사기 혐의자 선별을 위한 적극적인 대처가 필요해 보인다.

지역웹툰 생태계 조성을 위한 방안 연구 (A Study on Measures to Create Local Webtoon Ecosystem)

  • 최승춘;윤기헌
    • 만화애니메이션 연구
    • /
    • 통권51호
    • /
    • pp.181-201
    • /
    • 2018
  • 한국 만화산업은 출판만화시장의 축소와 만화대여점의 몰락 등으로 꾸준히 쇠퇴를 거듭하다 2000년대 이후 웹툰의 등장으로 급격한 질적 변화와 폭발적인 양적 성장을 가져왔다. 만화라는 단어는 웹툰의 광의적 의미로 해석되고 있으며, 웹툰은 만화의 포괄적인 개념까지 승계 받고 있다. 웹툰은 디지털기기를 사용하고 데이터화된 원고를 생산, 제공함으로서 콘텐츠의 지역적, 공간적, 물리적 한계를 뛰어 넘고 있다. 더구나 지역별 인적인프라가 꾸준히 성장하고 있는 상황 속에서 정부의 만화산업 지원정책과 맞물려 웹툰체험관, 웹툰캠퍼스, 웹툰창작센터 등의 창작인프라가 지역에 구축되어 활발한 움직임과 성과를 보여주고 있으며, 이에 웹툰은 지역 성장론과 지역분권에 맞는 산업적 모델로 인식받기 시작했다. 그럼에도 불구하고 여전히 수도권과 부천 중심으로 만화인프라가 심각하게 편중되어 불균형한 구조로 놓여있는 현실이다. 만화산업을 견인하고 있는 웹툰은 인터넷의 발달과 함께 성장한 짧은 만화역사를 가지고 있다. 지역웹툰 역시 성장의 초기단계에 진입했을 뿐이다. 만화의 인적인프라와 웹툰의 창작인프라로 활성화된 지역웹툰은 창작시설의 구축완료 이후 향후 성장 동력의 연구와 대안이 절실한 상태이며, 지속적 발전을 위해 새로운 패러다임이 필요한 시점이다. 결국, 웹툰이 지역발전의 새로운 방향인 '문화'로 지정되어 이와 더불어 지역 특성에 맞는 만화콘텐츠를 개발, 지역의 관광, 문화, 예술 산업과 연계하는 모델이 꾸준히 개발되어야 연착륙에 성공할 수 있을 것이다. 이로서 지역 웹툰이 지방분권과 지역산업 부흥의 작은 모멘텀으로 작용되길 바란다.

우리나라 청소년들의 아침식사 여부에 따른 식생활 상태 평가 : 2013~2015 국민 건강영양조사 자료를 이용하여 (Evaluation of dietary habits according to breakfast consumption in Korean adolescents: based on the 6th Korea National Health and Nutrition Examination Survey, 2013~2015)

  • 김현숙;이의숙;김선형;차연수
    • Journal of Nutrition and Health
    • /
    • 제52권2호
    • /
    • pp.217-226
    • /
    • 2019
  • 본 연구는 제 6기 2013 ~ 2015 국민건강영양조사 자료 중 12 ~ 18세 청소년을 대상으로 아침식사 여부에 따른 영양소 및 식품 섭취 상태와 식사의 질을 분석하였다. 총 1,281명이 본 연구의 대상자였으며, 그 결과를 요약하면 다음과 같다. 본 연구대상자의 평균 연령은 아침식사섭취군 (EBF)과 아침식사결식군 (SBF)이 각각 14.90세와 15.45세로 아침식사결식군의 연령이 아침식사섭취군에 비해 유의적으로 높았고 (p < 0.0001), 가구 소득수준도 군간 유의적인 차이를 나타냈다 (p < 0.002). 하지만 신체계측치인 키, 체중, 체질량지수, 허리둘레는 군간 유의적인 차이는 없었다. 본 연구대상자의 식습관 조사 결과, 외식 빈도는 전체 연구대상자에서 주 5~6회가 가장 높았고 (46.1%), 그 다음 하루에 1회 (30.6%), 하루에 2회 이상 (17.7%) 순이었다. 저녁 결식 여부는 아침식사섭취군이 5.9%, 아침식사결식군이 12.1%로 아침식사결식군이 아침식사섭취군에 비해 저녁 결식 비율이 높았다. 본 연구에서 식품군별 섭취량에 대한 분석 결과, 전체 식품 섭취량은 아침식사섭취군이 아침식사결식군에 비해 유의적으로 높았다 (p < 0.0001). 또한 곡류 및 그 제품과 당류 및 그 제품 섭취량은 아침식사섭취군이 아침식사결식군보다 유의적으로 높았다. 또한, 채소류 및 난류도 아침식사섭취군이 아침식사결식군에 비해 그 섭취량이 유의적으로 높았다. 본 연구대상자의 1일 열량 섭취량은 아침식사섭취군이 아침식사결식군에 비해 유의적으로 높았고 (p < 0.0001), 1일 단백질 섭취량도 아침식사섭취군과 아침식사결식군이 각각 84.17 g, 68.46 g으로 아침식사섭취군에서 유의적으로 높았다 (p < 0.0001). 또한, 지방과 탄수화물 섭취량도 아침식사섭취군이 아침식사결식군에 유의적으로 높았으나, 에너지 대비 다량 영양소 섭취 비율에서는 지방 섭취 비율이 아침식사결식군에서 유의적으로 높았고 (p < 0.0001), 탄수화물 섭취 비율은 아침식사섭취군에서 유의적으로 높았다 (p < 0.002). 전체 연구대상자의 INQ 값 중 1 미만인 영양소는 비타민 C와 칼슘으로 나타났고, 본 연구 대상자의 평균 영양소 섭취 비율 (MAR)도 아침식사섭취군이 아침식사결식군에 비해 유의적으로 높았으며 (p < 0.0001), 영양 질적 지수(INQ) 결과 인이 아침식사섭취군이 아침식사결식군에 비해 유의적으로 높았다 (p < 0.0001). 본 연구결과를 통해 향후 청소년기의 아침결식률을 제고하기 위한 다양한 방안모색이 필요하며, 이를 과학적으로 뒷받침할 수 있는 임상연구가 시행되어야 할 것으로 사료된다.