• 제목/요약/키워드: 데이터 평가 모델

검색결과 2,514건 처리시간 0.027초

단백질 기능 예측 모델의 주요 딥러닝 모델 비교 실험 (Comparison of Deep Learning Models Using Protein Sequence Data)

  • 이정민;이현
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권6호
    • /
    • pp.245-254
    • /
    • 2022
  • 단백질은 모든 생명 활동의 기본 단위이며, 이를 이해하는 것은 생명 현상을 연구하는 데 필수적이다. 인공신경망을 이용한 기계학습 방법론이 대두된 이후로 많은 연구자들이 단백질 서열만을 사용하여 단백질의 기능을 예측하고자 하였다. 많은 조합의 딥러닝 모델이 학계에 보고되었으나 그 방법은 제각각이며 정형화된 방법론이 없고, 각기 다른 데이터에 맞춰져있어 어떤 알고리즘이 더 단백질 데이터를 다루는 데 적합한지 직접 비교분석 된 적이 없다. 본 논문에서는 단백질의 기능을 예측하는 융합 분야에서 가장 많이 사용되는 대표 알고리즘인 CNN, LSTM, GRU 모델과 이를 이용한 두가지 결합 모델에 동일 데이터를 적용하여 각 알고리즘의 단일 모델 성능과 결합 모델의 성능을 정확도와 속도를 기준으로 비교 평가하였으며 최종 평가 척도를 마이크로 정밀도, 재현율, F1 점수로 나타내었다. 본 연구를 통해 단순 분류 문제에서 단일 모델로 LSTM의 성능이 준수하고, 복잡한 분류 문제에서는 단일 모델로 중첩 CNN이 더 적합하며, 결합 모델로 CNN-LSTM의 연계 모델이 상대적으로 더 우수함을 확인하였다.

시설물 상태평가를 위한 파운데이션 모델 기반 2-Step 시설물 손상 분석 (2-Step Structural Damage Analysis Based on Foundation Model for Structural Condition Assessment)

  • 박현수;김휘영;정동기
    • 대한원격탐사학회지
    • /
    • 제39권5_1호
    • /
    • pp.621-635
    • /
    • 2023
  • 시설물 상태평가는 시설물의 사용성을 평가하고, 진단 주기를 결정하는 중요한 과정이다. 현재 수행되고 있는 인력 기반 방법은 안전, 효율, 객관성에 대한 문제를 안고 있어 이를 개선하기 위해 영상을 이용한 딥러닝(deep learning) 기반의 연구가 수행되고 있다. 그러나 시설물 손상 데이터는 발견하기 어려워 다량의 시설물 손상 학습 데이터를 구축하기 어렵고, 이는 딥러닝 기반 상태평가에 한계로 작용한다. 본 연구에서는 영상 기반 시설물 상태평가의 학습 데이터 부족으로 인한 어려움을 개선하기 위해 파운데이션 모델(foundation model) 기반 2-step 시설물 손상 분석을 제시한다. 시설물 상태평가의 요소를 객체화와 정량화로 세분화하고, 정량화 단계에서 영상 분할(segmentation) 파운데이션 모델을 적용하였다. 본 연구의 방법은 기존 영상 분할 방법 대비 10% 포인트 이상 높은 mean intersection over union을 나타냈고, 특히 철근 노출의 경우에는 40% 포인트 이상의 성능 개선을 보였다. 본 연구의 방법이 학습 데이터 구축이 어려운 도메인에 성능 개선을 가져올 것이라 기대한다.

트리 기법을 사용하는 세미감독형 결함 예측 모델 (Semi-supervised Model for Fault Prediction using Tree Methods)

  • 홍의석
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.107-113
    • /
    • 2020
  • 매우 많은 소프트웨어 결함 예측에 관한 연구들이 수행되어왔지만 대부분은 라벨 데이터를 훈련 데이터로 사용하는 감독형 모델들이었다. 언라벨 데이터만을 사용하는 비감독형 모델이나 언라벨 데이터와 매우 적은 라벨 데이터 정보를 함께 사용하는 세미감독형 모델에 관한 연구는 극소수에 불과하다. 본 논문은 Self-training 기법에 트리 알고리즘들을 사용하여 새로운 세미감독형 모델들을 제작하였다. 세미감독형 기법인 Self-training 모델에 트리 기법들을 사용하는 새로운 세미감독형 모델들을 제작하였다. 모델 평가 실험 결과 새롭게 제작한 트리 모델들이 기존 모델들보다 더 나은 성능을 보였으며, 특히 CollectiveWoods는 타 모델들에 비해 압도적으로 우월한 성능을 보였다. 또한 매우 적은 라벨 데이터 보유 상황에서도 매우 안정적인 성능을 보였다.

암 유전체 데이터를 효과적으로 학습하기 위한 Node2Vec 기반의 새로운 2 차원 이미지 표현기법 (A novel Node2Vec-based 2-D image representation method for effective learning of cancer genomic data)

  • 최종환;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.383-386
    • /
    • 2019
  • 4 차산업혁명의 발달은 전 세계가 건강한 삶에 관련된 스마트시티 및 맞춤형 치료에 큰 관심을 갖게 하였고, 특히 기계학습 기술은 암을 극복하기 위한 유전체 기반의 정밀 의학 연구에 널리 활용되고 있어 암환자의 예후 예측 및 예후에 따른 맞춤형 치료 전략 수립 등을 가능케하였다. 하지만 암 예후 예측 연구에 주로 사용되는 유전자 발현량 데이터는 약 17,000 개의 유전자를 갖는 반면에 샘플의 수가 200 여개 밖에 없는 문제를 안고 있어, 예후 예측을 위한 신경망 모델의 일반화를 어렵게 한다. 이러한 문제를 해결하기 위해 본 연구에서는 고차원의 유전자 발현량 데이터를 신경망 모델이 효과적으로 학습할 수 있도록 2D 이미지로 표현하는 기법을 제안한다. 길이 17,000 인 1 차원 유전자 벡터를 64×64 크기의 2 차원 이미지로 사상하여 입력크기를 압축하였다. 2 차원 평면 상의 유전자 좌표를 구하기 위해 유전자 네트워크 데이터와 Node2Vec 이 활용되었고, 이미지 기반의 암 예후 예측을 수행하기 위해 합성곱 신경망 모델을 사용하였다. 제안하는 기법을 정확하게 평가하기 위해 이중 교차 검증 및 무작위 탐색 기법으로 모델 선택 및 평가 작업을 수행하였고, 그 결과로 베이스라인 모델인 고차원의 유전자 벡터를 입력 받는 다층 퍼셉트론 모델보다 더 높은 예측 정확도를 보여주는 것을 확인하였다.

데이터 입자 기반 퍼지 집합 퍼지 모델의 최적 동정 (Optimal Identification of Data Granules-based Fuzzy Set Fuzzy Model)

  • 박건준;김완수;오성권;김현기
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.317-320
    • /
    • 2005
  • 본 논문은 비선형 시스템의 퍼지모델을 설계하기 위해 데이터 입자 기반 퍼지 집합 퍼지 모델의 최적 동정을 제안한다. 퍼지모델은 주로 경험적 방법에 의해 추출되기 때문에 보다 구체적이고 체계적인 방법에 의한 동정 및 최적화 될 필요성이 요구된다. HCM 클러스터링을 통한 데이터 입자는 입력 변수의 개별적인 퍼지 규칙을 형성하고, 퍼지 공간 분할 및 삼각형 멤버쉽 함수의 초기 정점을 정의한다. 또한, 데이터 입자의 중심을 이용하여 후반부의 구조를 결정한다. 초기 퍼지 모델을 동정하기 위해 유전자 알고리즘을 이용하여 입력 변수의 수, 선택될 입력 변수, 멤버쉽 함수의 수, 그리고 후반부 형태를 결정한다. 데이터 입자에 의한 전반부 멤버쉽 파라미터는 유전자 알고리즘을 이용하여 최적으로 동정한다 제안된 모델을 평가하기 위해 수치적인 예를 사용한다.

  • PDF

화재 탐지 인공지능 모델 성능 개선 연구 (Research on Improving Fire Detection Artificial Intelligence Model Performance)

  • 이정록;이대웅;정서현;정상
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2023년 정기학술대회 논문집
    • /
    • pp.202-203
    • /
    • 2023
  • 최근 화재 탐지 분야는 불꽃 연기의 특징과 인공지능 인식(Detection) 모델을 활용하여 탐지율을 높이려는 연구가 많이 진행되어 왔다. 기존 화재 탐지 정확도를 높이기 위한 모델 연구 이외에도 불꽃·연기의 특징을 다양한 방법으로 데이터 가공한 학습 데이터셋을 활용하는 연구들이 진행되고 있다. 본 논문에서는 화재 탐지시 불꽃/연기의 오탐지율이 높은 것을 확인하고 오탐지율을 낮추기 위해 화재 상황을 인식하여 분류하는 방법과 데이터셋을 제안한다. 제안한 모델은 동영상을 학습데이터로 활용하여 화재 상황의 특징을 추출하여 분류모델에 적용하였다. 평가는 한국정보화진흥원(NIA)에서 진행하는 화재 데이터셋을 이용하여 Yolov8, Slowfast의 모델 성능을 비교 및 분석하였다.

  • PDF

데이터 분포 통계를 이용한 CSV 형식의 공공데이터 도메인 판별 모델에 관한 연구 (A Study on Domain Discrimination Model for CSV Format Public Data Using Data Distribution Statistics)

  • 정하나;김재웅;이윤열;채의근;정영석
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.79-80
    • /
    • 2023
  • 정부는 공공데이터의 품질 관리를 위하여 공공데이터 품질관리 수준평가를 진행하여 공공데이터 품질을 관리하고 있다. 파일 형식의 공공데이터를 진단 시 품질진단 담당자가 대량의 파일데이터를 필드명과 필드 내 데이터에 의존하여 수작업으로 도메인을 판단하여 진단한다. 때문에 품질진단의 정확성을 신뢰하기 어렵고 진단에 많은 시간이 소요된다. 본 논문은 파일형식의 공공데이터 품질진단의 정확성을 확보하고 진단 소요시간을 단축하기 위해 데이터 분포 통계를 이용한 CSV 형식의 공공데이터 도메인 판별 모델을 제안하였다. 제안된 모델을 적용하면 공공데이터 품질의 정확성을 향상하고 진단 소비 시간을 단축시킬 것으로 기대된다.

  • PDF

현장계측데이터를 활용한 공용 중 강교량의 피로 신뢰도평가 (Fatigue Reliability Evaluation of an In-service Steel Bridge Using Field Measurement Data)

  • 이상현;안이삭;박연철;김호경
    • 대한토목학회논문집
    • /
    • 제42권5호
    • /
    • pp.599-606
    • /
    • 2022
  • 공용 중 강교량의 피로 평가에 활용할 수 있는 현장계측 데이터에는 대표적으로 변형률 계측과 Brigde Weight-In-motion (BWIM)이 있다. AASHTO The Manual For Bridge Evaluation에 따라, 대상 교량에서 계측된 데이터로부터 피로 상세에 가해지는 유효응력범위 및 반복응력 횟수를 추정할 수 있다. 추정된 유효응력범위와 반복응력 횟수를 통해 피로 손상 누적에 의한 신뢰도분석을 수행할 수 있다. 하지만 현장계측 데이터로부터 유효응력범위 및 응력범위 반복횟수를 추정하는 절차가 평가규정에 구체적으로 제시되어 있지 않고, 계측 데이터의 종류 또는 처리방법에 따른 피로 평가결과의 차이를 정량적으로 비교한 연구는 아직 미비한 실정이다. 본 연구에서는 공용 중 교량에서 동시에 계측한 변형률계 및 BWIM 데이터를 활용하여 피로 신뢰도평가를 수행하여, 활용되는 현장계측 데이터의 종류에 따른 평가결과의 차이에 대해 정량적으로 검토하였다. 이때, BWIM 데이터를 활용한 피로 신뢰도평가 시 구조해석모델의 정밀성이 평가결과에 미치는 영향을 검토하기 위해 평가 대상 교량의 뼈대요소 해석모델과 Shell-Solid 해석모델을 구축하였다. 또한, BWIM 데이터로부터 유효응력범위와 반복응력 횟수를 추정하기 위한 두 종류의 데이터 처리 방법을 정의하였으며, 이로 인한 피로 신뢰도 차이 역시 검토하였다.

학습데이터를 이용하여 생성한 규칙과 사전을 이용한 명사 추출기 (A Noun Extractor based on Dictionaries and Heuristic Rules Obtained from Training Data)

  • 장동현;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.151-156
    • /
    • 1999
  • 텍스트로부터 명사를 추출하기 위해서 다양한 기법이 이용될 수 있는데, 본 논문에서는 학습 데이터를 이용하여 생성한 규칙과 사전을 이용하는 단순한 모델을 통해 명사를 효과적으로 추출할 수 있는 기법에 대하여 기술한다. 사용한 모델은 기본적으로 명사, 어미, 술어 사전을 사용하고 있으며 명사 추정은 학습 데이터를 통해 생성한 규칙을 통해 이루어진다. 제안한 방법은 복잡한 언어학적 분석 없이 명사 추정이 가능하며, 복합명사 사전을 이용하지 않고 복합 명사를 추정할 수 있는 장점을 지니고 있다. 또한, 명사추정의 주 요소인 규칙이나 사전 등록어의 추가, 갱신 등이 용이하며, 필요한 경우에는 특정 분야의 텍스트 분석을 위한 새로운 사전의 추가가 가능하다. 제안한 방법을 이용해 "제1회 형태소 분석기 및 품사 태거 평가대회(MATEC '99')"의 명사 추출기 분야에 참가하였으며, 본 논문에서는 성능평가 결과를 제시하고 평가결과에 대한 분석을 기술하고 있다. 또한, 현재의 평가기준 중에서 적합하지 않은 부분을 규정하고 이를 기준으로 삼아 자체적으로 재평가한 평가결과를 제시하였다.

  • PDF

한국어 Sentence-BERT 임베딩을 활용한 자동 쓰기 평가 계층적 구조 모델 (Hierarchical Automated Essay Evaluation Model Using Korean Sentence-Bert Embedding)

  • 조민수;권오욱;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.526-530
    • /
    • 2022
  • 자동 쓰기 평가 연구는 쓰기 답안지를 채점하는데 드는 시간과 비용을 절감할 수 있어, 교육 분야에서 큰 관심을 가지고 있다. 본 연구의 목적은 쓰기 답안지의 문서 구조를 효과적으로 학습하여 평가하고, 문장단위의 피드백을 제공하는데 있다. 그 방법으로는 문장 레벨에서 한국어 Sentence-BERT 모델을 활용하여 각 문장을 임베딩하고, LSTM 어텐션 모델을 활용하여 문서 레벨에서 임베딩 문장을 모델링한다. '한국어 쓰기 텍스트-점수 구간 데이터'를 활용하여 해당 모델의 성능 평가를 진행하였으며, 다양한 KoBERT 기반 모델과 비교 평가를 통해 제안하는 모델의 방법론이 효과적임을 입증하였다.

  • PDF