• 제목/요약/키워드: imbalanced data

검색결과 162건 처리시간 0.026초

Attention layer를 활용한 이미지 기반 피부암 분류 시스템 (Image-Based Skin Cancer Classification System Using Attention Layer)

  • 이규원;우성희
    • 실천공학교육논문지
    • /
    • 제16권1_spc호
    • /
    • pp.59-64
    • /
    • 2024
  • 고령화가 심화되면서 암 발병률이 증가하고 있다. 피부 암은 외적으로 보이지만 사람들이 알아채지 못하거나 가볍게 간과하는 경우가 많다. 이에 초기 발견 시기를 놓쳐 말기의 경우 생존율이 7.5~11%로 사망에 이를 수 있다. 하지만 피부 암을 진단함에 있어 육안으로 진단하는 것이 아닌 정밀검사, 세포 검사 등 시간과 비용이 많이 든다는 단점이 있다. 따라서 본 연구에서는 이러한 단점을 해결하기 위해 Attention CNN 모델 기반 피부암 분류 시스템을 제안한다. 이 시스템은 전문의로 하여금 피부 암을 초기에 발견하여 신속한 조치를 취할 수 있도록 하는데 큰 도움을 줄 수 있다. 피부암 종류에 따른 이미지 데이터 불균형 문제에서 분포 비율이 낮은 데이터에는 Over Sampling 기법을, 분포 비율이 높은 데이터에는 Under Sampling 기법을 적용하여 완화하고 Attention layer가 없는 모델과 있는 모델을 비교하여 Attention layer가 없는 사전학습 모델에 추가한 피부암 분류 모델을 제안한다. 또한, 특정 클래스에 대하여 데이터 증강 기법을 강화하여 데이터 불균형 문제를 해결할 계획이다.

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.

메탄 가스 기반 가스 누출 위험 예측을 위한 다변량 특이치 제거 (Multivariate Outlier Removing for the Risk Prediction of Gas Leakage based Methane Gas)

  • 홍고르출;김미혜
    • 한국융합학회논문지
    • /
    • 제11권12호
    • /
    • pp.23-30
    • /
    • 2020
  • 본 연구에서는, 천연가스(NG) 데이터와 가스 관련 환경 요소 간의 관계를 기계학습 알고리즘을 사용하여 가스 누출 데이터를 직접 측정하지 않고 가스 누출 위험 수준을 예측하였다. 이번 연구는 서버가 제공하는 오픈 데이터인 IoT 기반 원격 제어 피카로(Picarro) 가스 센서 사양을 기반으로 사용했다. 천연 가스는 공기 중으로 누출이 되며, 대기 오염, 환경, 그리고 건강에 큰 문제가 된다. 본 연구에서 제안하는 방법은 천연 가스의 누출 위험 예측을 위한 랜덤 포레스트(Random Forest) 분류 기반 다변량 특이치 제거 방법이다. 비지도 k-평균 클러스터링 후에 실험 데이터 집합은 불균형 데이터이다. 따라서 우리는 제안된 모델이 중간과 높은 위험 수준을 가장 잘 예측할 수 있다는 점에 초점을 맞춘다. 이 경우 각 분류 모델에 대한 수신자 조작 특성(ROC) 곡선, 정확도, 평균 표준 오차(MSE)를 비교했다. 실험 결과로 정확도, 수신자 조작 특성의 곡선 아래 영역(AUC, Area Under the ROC Curve), MSE가 각각 MOL_RF의 경우 99.71%, 99.57%, 및 0.0016의 결과 값을 얻었다.

BERT 기반 의미론적 검색을 활용한 관광지 순위 시스템 개발 (Development of a Ranking System for Tourist Destination Using BERT-based Semantic Search)

  • 이강우;김명선;홍순구;노수경
    • 한국산업정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.91-103
    • /
    • 2024
  • 본 연구의 목적은 시맨틱 검색 기법을 활용하여 사용자 쿼리 기반의 타당한 정확도를 가진 관광지 랭킹시스템을 설계하는 것이다. 이를 위해 관광지에 대한 텍스트 리뷰 데이터 수집, 데이터 전처리 및 SBERT를 활용한 임베딩 과정을 거쳤다. 이후 유사도를 측정하고 임계값을 충족하는 데이터를 필터링한 후 카운트 기반 랭킹 알고리즘을 적용하여 쿼리와 의미적으로 유사한 순서로 관광지 순위를 도출하였다. 제안된 랭킹 알고리즘의 평가를 위해 4개의 쿼리로 실험을 진행하여 연관성이 높은 상위 5개 관광지를 도출하였다. 도출된 결과값의 비교를 위해 58,175개의 문장에 직접 라벨을 붙여 세 번째 쿼리인 혼잡도와 의미적으로 연관성이 있는지를 확인하였다. 두 결과값이 유사하여 본 연구에서 제시된 랭킹 알고리즘의 효율성이 검증되었다. 임계값 최적화, 데이터 불균형 등의 문제에도 불구하고 이 연구는 시맨틱 검색 기법을 이용하여 적은 비용과 시간으로도 사용자의 의도를 파악하여 관광지를 추천하는 것이 가능하다는 것을 보여주었다.

Improving BMI Classification Accuracy with Oversampling and 3-D Gait Analysis on Imbalanced Class Data

  • Beom Kwon
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권9호
    • /
    • pp.9-23
    • /
    • 2024
  • 본 연구에서는 3차원 보행 데이터 기반 체질량지수(Body Mass Index, BMI) 추정 기술의 분류 정확도를 향상시킬 수 있는 방법을 제안한다. BMI 추정 기술에 관해 기존 연구에서는 BMI 분류 정확도가 약 60%에 불과했다. 이에 본 연구에서는 먼저 BMI 분류 정확도가 낮았던 원인을 규명한다. 본 연구의 분석 결과에 따르면, 그 원인은 보행 데이터 세트의 클래스 불균형(Class Imbalance) 문제를 해결하기 위해 언더샘플링(Undersampling) 기법을 사용한 것에 있었다. 이에 본 연구에서는 언더샘플링 기법 대신 오버샘플링(Oversampling) 기법을 적용해 클래스 불균형 문제를 해결하는 것을 제안한다. 또한, 보행 데이터 기반 BMI 추정 기술에서 인체 측정학(Anthropometric) 특징과 시공간적(Spatiotemporal) 특징의 유용성을 재입증한다. 기존 연구에서는 언더샘플링 기법이 적용된 상태에서 인체 측정학 특징과 시공간적 특징의 유용성이 평가됐고, 두 특징을 함께 사용하면 단독으로 사용했을 때보다 BMI 추정 성능이 낮아진다고 보고됐다. 하지만 본 연구 결과에 따르면, 두 특징을 함께 사용하고 오버샘플링 기법을 적용했을 때 BMI 추정 문제에서 92.92%의 정확도로 SOTA(State-Of-The-Art) 성능을 달성하는 것을 보인다.

선별적 인공유산의 결정인자에 관한 비교연구 : 대구지역과 미국 캘리포니아 베이지역 (Determinants of Sex-Selective Induced Abortion Among Married Women : A Comparative Study between Taegu & Bay Area in California, USA)

  • 김한곤
    • 한국인구학
    • /
    • 제20권1호
    • /
    • pp.65-96
    • /
    • 1997
  • 본 연구의 목적은 1980년대 중반 이후부터 지속되고 있는 한국사회 전반에 걸친 출생시 성비불균형현상 가운데 특히 다른 지역에 비해 불균형 정도가 심각한 대구지역의 출생시 성비불균형의 원인을 경험적으로 규명하는 데 있다. 이러한 목적에서 한국에서 태어났지만 사회적,문화적,환경적 여건이 서로 다른 미국으로 이민하여 캘리포이아의 베이지역에 거주하고 있는 한국동포 기혼여성들의 성차별의식, 아들선호도, 태아성감별, 인공유산 등 출생시성비에 영향을 미친다고 알려진 요인들을 대구지역의 기혼여성들과 비교 분석하였다. 본 연구에는 대구지역과 미국 캘리포니아 베이지역에서 거주하는 25-44세 사이의 기혼여성들을 대상으로 조사한 설문조사 내용을 자료로 사용하였다. 연구결과 대구지역의 기혼여성들이 미국 베이지역의 한국동포 기혼여성보다 성차별을 더 많이 느끼고 있으며 아들선호도 역시 높은 것으로 밝혀졌다. 특히 아들을 낳기 위한 노력의 일환으로 임신 전부터 아들을 낳기 위한 시도는 대구지역 기혼여성들이 베이지역 한국동포 기혼여성들보다 2배 정도 더 높으며 태아의 성감별 후 여아로 판명되어 인공중절수술을 실시한 비율은 무려 여섯 배를 능가하는 것으로 밝혀졌다. 출생시 성비불균형에 결정적인 영향을 미치는 변수들을 경험적으로 규명하기하기 위하여 도입한 로지스틱회귀분석 결과에 의하면 대구지역의 경우 성차별 정도, 아들선호도, 성감별 등은 통계적으로 유의미한 영향을 미치는 것으로 나타났으나 베이지역의 경우 연령만이 통계적으로 유의미한 영향을 미치는 것으로 밝혀졌다. 그러므로 본 연구결과를 통하여 우리는 대구지역의 출생시 성비불균형의 가장 큰 원인은 무엇보다도 타지역에 비해 지나치게 강하게 남아있는 유교적 전통에서 비롯되는 아들선호의식에서 출발하고 있음을 알 수 있으며, 이러한 아들선호는 사회계층, 연령, 교육수준의 차이를 막론하고 존재하고 있는 것으로 보인다.

  • PDF

최대 엔트로피 부스팅 모델을 이용한 영어 전치사구 접속과 품사 결정 모호성 해소 ((Resolving Prepositional Phrase Attachment and POS Tagging Ambiguities using a Maximum Entropy Boosting Model))

  • 박성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.570-578
    • /
    • 2003
  • 최대 엔트로피 모델은 자연언어를 모델링하기 위한 좋은 방법이다. 하지만, 최대 엔트로피 모델을 전치사구 접속과 같은 실제 언어 문제에 적용할 때, 자질 선택과 계산 복잡도의 두 가지 문제가 발생한다. 본 논문에서는, 이런 문제와 자연언어 자원에 존재하는 불균형 데이터 문제를 해결하기 위한 최대 엔트로피 부스팅 모델(maximum entropy boosting model)을 제시하고, 이를 영어의 전치사구 접속과 품사 결정 모호성 해소에 적용한다. Wall Street Journal 말뭉치에 대한 실험 결과, 문제의 모델링에 아주 작은 노력을 들였음에도 불구하고, 전치사구 접속 문제에 대해 84.3%의 정확도와 품사 결정 문제에 대해 96.78%의 정확도를 보여 지금까지 알려진 최고의 성능과 비슷한 결과를 보였다.

Investigation of the effect of SRSF9 overexpression on HIV-1 production

  • Ga-Na, Kim;Kyung-Lee, Yu;Hae-In, Kim;Ji Chang, You
    • BMB Reports
    • /
    • 제55권12호
    • /
    • pp.639-644
    • /
    • 2022
  • Serine-arginine-rich splicing factors (SRSFs) are members of RNA processing proteins in the serine-arginine-rich (SR) family that could regulate the alternative splicing of the human immunodeficiency virus-1 (HIV-1). Whether SRSF9 has any effect on HIV-1 regulation requires elucidation. Here, we report for the first time the effects and mechanisms of SRSF9 on HIV-1 regulation. The overexpression of SRSF9 inhibits viral production and infectivity in both HEK293T and MT-4 cells. Deletion analysis of SRSF9 determined that the RNA regulation motif domain of SRSF9 is important for anti-HIV-1 effects. Furthermore, overexpression of SRSF9 increases multiple spliced forms of viral mRNA, such as Vpr mRNA. These data suggest that SRSF9 overexpression inhibits HIV-1 production by inducing the imbalanced HIV-1 mRNA splicing that could be exploited further for a novel HIV-1 therapeutic molecule.

불균형 데이터 집합에 대한 스마트 분류방법과 특허 평가에의 응용 (Smarter Classification for Imbalanced Data Set and Its Application to Patent Evaluation)

  • 권오병;이상연
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.15-34
    • /
    • 2014
  • 성과 지표로서의 전방적 정확도는 정답인 경우 1, 오답인 경우 0으로 계사하는 이른바 모듈화된 정확도를 충분히 고려하지 못한다. 이에 문제의 특징에 따라 모듈화 정확도에 맞는 판별 규칙을 최적화 하는 보다 스마트한 판별 알고리즘이 필요하다고 볼 수 있다. 이에 따라, 스마트한 알고리즘은 문제 유형에 따라 보다 일반화되고 실제 성능의 왜곡을 야기할 수 있는 이산화에 제약되지 않아야 한다. 따라서 본 논문의 목적인 모듈화 정확도를 개선하는 새로운 부스팅 알고리즘을 제안하는 것이다. 이에 일반화를 도모하고 문제 영역의 특성에 맞게 판별화 모형을 선정하기 위해 스마트함을 고려한 모형 선정 알고리즘을 개발하였다. 제안된 방법의 성능을 검증하기 위해 실제로 47,000여건의 특허건을 가지고 실제 실용화 가능성을 판별하는 실험을 수행하였다.

기계학습 기반 유전자 발현 데이터를 이용한 치주질환 예측 (Prediction for Periodontal Disease using Gene Expression Profile Data based on Machine Learning)

  • 이제근
    • 한국정보통신학회논문지
    • /
    • 제23권8호
    • /
    • pp.903-909
    • /
    • 2019
  • 치주질환은 상당수의 성인들이 가지고 있는 질환이지만 아직 분자적인 수준에서의 발생 기작과 치료 방법에 대해서는 많은 것이 밝혀져 있지 않다. 본 연구에서는 치주질환 조직과 정상 조직에서 얻어진 유전자 발현 데이터를 이용하여 치주질환 조직과 정상 조직 사이에 분자적 차이가 있는지를 확인한다. 특히 기계학습 알고리즘을 이용하여 유전자 발현양 기반 치주질환 조직과 정상 조직의 분류가 가능한지를 확인하고, 각 조직에서 발현양 차이가 나는 유전자들이 주로 어떤 기능을 하는 것인지 살펴본다. t-SNE를 이용한 분석 결과 정상 조직과 치주질환 조직 샘플이 명확히 구분되어 군집화 될 수 있음이 확인되었다. 또한, 결정 트리, 랜덤 포레스트, 서포트 벡터 머신을 이용한 분류 알고리즘을 적용한 결과 불균형 데이터임에도 높은 정확도와 민감도, 특이도를 보였으며, 염증 반응 및 면역 반응 관련 유전자들이 주로 두 집단 간에 차이를 보임이 확인되었다.