• Title/Summary/Keyword: 기계학습법

검색결과 170건 처리시간 0.035초

기계학습을 통한 디스크립터 자동부여에 관한 연구 (A Study on automatic assignment of descriptors using machine learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제23권1호
    • /
    • pp.279-299
    • /
    • 2006
  • 학술지 논문에 디스크립터를 자동부여하기 위하여 기계학습 기반의 접근법을 적용하였다. 정보학 분야의 핵심 학술지를 선정하여 지난 11년간 수록된 논문들을 대상으로 문헌집단을 구성하였고, 자질 선정과 학습집합의 크기에 따른 성능을 살펴보았다. 그 결과, 자질 선정에서는 카이제곱 통계량(CHI)과 고빈도 선호 자질 선정 기준들(COS, GSS, JAC)을 사용하여 자질을 축소한 다음, 지지벡터기계(SVM)로 학습한 결과가 가장 좋은 성능을 보였다. 학습집합의 크기에서는 지지벡터기계(SVM)와 투표형 퍼셉트론(VPT)의 경우에는 상당한 영향을 받지만 나이브 베이즈(NB)의 경우에는 거의 영향을 받지 않는 것으로 나타났다.

기계학습 접근법에 기반한 유전자 선택 방법들에 대한 리뷰 (A review of gene selection methods based on machine learning approaches)

  • 이하정;김재직
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.667-684
    • /
    • 2022
  • 유전자 발현 데이터는 각 유전자에 대해 mRNA 양의 정도를 나타내고, 그러한 유전자 발현량에 대한 분석은 질병 발생에 대한 메커니즘을 이해하고 새로운 치료제와 치료 방법을 개발하는데 중요한 아이디어를 제공해오고 있다. 오늘날 DNA 마이크로어레이와 RNA-시퀀싱과 같은 고출력 기술은 수천 개의 유전자 발현량을 동시에 측정하는 것을 가능하게 하여 고차원성이라는 유전자 발현 데이터의 특징을 발생시켰다. 이러한 고차원성으로 인해 유전자 발현 데이터를 분석하기 위한 학습 모형들은 과적합 문제에 부딪히기 쉽고, 이를 해결하기 위해 차원 축소 또는 변수 선택 기술들이 사전 분석 단계로써 보통 사용된다. 특히, 사전 분석 단계에서 우리는 유전자 선택법을 이용하여 부적절하거나 중복된 유전자를 제거할 수 있고 중요한 유전자를 찾아낼 수도 있다. 현재까지 다양한 유전자 선택 방법들이 기계학습의 맥락에서 개발되어왔다. 본 논문에서는 기계학습 접근법을 사용하는 최근의 유전자 선택 방법들을 집중적으로 살펴보고자 한다. 또한, 현재까지 개발된 유전자 선택 방법들의 근본적인 문제점과 앞으로의 연구 방향에 대해 논의하고자 한다.

자동 판례분류를 위한 기계학습기법 (Machine Learning Technique for Automatic Precedent Categorization)

  • 장균탁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.574-576
    • /
    • 2007
  • 판례 자동분류 시스템은 일반적인 문서 자동분류 시스템과 기본적인 동작방법은 동일하다. 본 논문에서는 노동법에 관련된 판례를 대상으로 지지벡터기계(SVM), 단일 의사결정나무, 복수 의사결정나무, 신경망 기법 등을 사용하여 문서의 자동 분류 실험을 수행하고, 판례분류에 가장 적합한 기계학습기법이 무엇인지를 실험해 보았다. 실험 결과 복수 의사결정나무가 93%로 가장 높은 정확도를 나타내었다.

  • PDF

한글 저자명 중의성 해소를 위한 기계학습기법의 적용 (Application of Machine Learning Techniques for Resolving Korean Author Names)

  • 강인수
    • 정보관리학회지
    • /
    • 제25권3호
    • /
    • pp.27-39
    • /
    • 2008
  • 동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자진들을 결합하는 최저의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

하천에 유입된 유해화학물질의 역추적을 위한 기계학습 프레임워크 개발 (Development of machine learning framework to inverse-track a contaminant source of hazardous chemicals in rivers)

  • 권시윤;서일원
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.112-112
    • /
    • 2020
  • 하천에서 유해화학물질 유입 사고 발생 시 수환경 피해를 최소화하기 위해 신속한 초기 대응이 필요하다. 따라서, 본 연구에서는 수환경 화학사고 대응 시스템 구축을 위해 하천 실시간 모니터링 지점에서 관측된 유해화학물질의 농도 자료를 이용하여 발생원의 유입 지점과 유입량을 역추적하는 프레임워크를 개발하였다. 본 연구에서 제시하는 프레임워크는 첫 번째로 하천 저장대 모형(Transient Storage Zone Model; TSM)과 HEC-RAS 모형을 이용하여 다양한 유량의 수리 조건에서 화학사고 시나리오를 생성하는 단계, 두번째로 생성된 시나리오의 유입 지점과 유입량에 대한 시간-농도 곡선 (BreakThrough Curve; BTC)을 21개의 곡선특징 (BTC feature)으로 추출하는 단계, 최종적으로 재귀적 특징 선택법(Recursive Feature Elimination; RFE)을 이용하여 의사결정나무 모형, 랜덤포레스트 모형, Xgboost 모형, 선형 서포트 벡터 머신, 커널 서포트 벡터 머신 그리고 Ridge 모형에 대한 모형별 주요 특징을 학습하고 성능을 비교하여 각각 유입 위치와 유입 질량 예측에 대한 최적 모형 및 특징 조합을 제시하는 단계로 구축하였다. 또한, 현장 적용성 제고를 위해 시간-농도 곡선을 2가지 경우 (Whole BTC와 Fractured BTC)로 가정하여 기계학습 모형을 학습시켜 모의결과를 비교하였다. 제시된 프레임워크의 검증을 위해서 낙동강 지류인 감천에 적용하여 모형을 구축하고 시나리오 자료 기반 검증과 Rhodamine WT를 이용한 추적자 실험자료를 이용한 검증을 수행하였다. 기계학습 모형들의 비교 검증 결과, 각 모형은 가중항 기반과 불순도 감소량 기반 특징 중요도 산출 방식에 따라 주요 특징이 상이하게 산출되었으며, 전체 시간-농도 곡선 (WBTC)과 부분 시간-농도 곡선 (FBTC)별 최적 모형도 다르게 산출되었다. 유입 위치 정확도 및 유입 질량 예측에 대한 R2는 대부분의 모형이 90% 이상의 우수한 결과를 나타냈다.

  • PDF

기계학습과 사전을 이용한 개체명 세분화 (Fine Grained Classification of Named Entities Using Machine Learning and Dictionary)

  • 이기중;이도길;임해창;임수종
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.519-521
    • /
    • 2003
  • 개체명 인식은 효과적인 정보추출 시스템을 구축하기 위해 반드시 선행되어야 하는 작업이다. 지금까지의 개체명 인식에 관한 연구는 인명이나 조직, 장소와 같은 일반적인 개체명 인식 작업이 대부분이었다. 그러나, 효과적인 정보추출을 위해서는 이런 일반적인 개체명들을 더욱 세분화할 필요가 있다. 본 논문에서는 SVM기반 기계학습법과 기구축된 사전과의 편집거리 비교법을 이용하여 개체명을 세분화하는 방법을 제시한다. 실험은 개체명과 세분화된 범주가 부착된 공연 관련 문서 100개 중 80개는 학습집합, 20개는 실험집합으로 사용하였고 성능 평가 척도는 정확도(accuracy)를 이용해 개별적으로 평가하였다. 실험 결과 기계학습법과 사전을 이용한 방법을 결합한 모델이 가장 좋은 성능(정확도 72.91%)을 보였다.

  • PDF

배깅 및 스태킹 기반 앙상블 기계학습법을 이용한 고성능 콘크리트 압축강도 예측모델 개발 (Development of a High-Performance Concrete Compressive-Strength Prediction Model Using an Ensemble Machine-Learning Method Based on Bagging and Stacking)

  • 곽윤지;고채연;곽신영;임승현
    • 한국전산구조공학회논문집
    • /
    • 제36권1호
    • /
    • pp.9-18
    • /
    • 2023
  • 고성능 콘크리트(HPC) 압축강도는 추가적인 시멘트질 재료의 사용으로 인해 예측하기 어렵고, 개선된 예측 모델의 개발이 필수적이다. 따라서, 본 연구의 목적은 배깅과 스태킹을 결합한 앙상블 기법을 사용하여 HPC 압축강도 예측 모델을 개발하는 것이다. 이 논문의 핵심적 기여는 기존 앙상블 기법인 배깅과 스태킹을 통합하여 새로운 앙상블 기법을 제시하고, 단일 기계학습 모델의 문제점을 해결하여 모델 예측 성능을 높이고자 한다. 단일 기계학습법으로 비선형 회귀분석, 서포트 벡터 머신, 인공신경망, 가우시안 프로세스 회귀를 사용하고, 앙상블 기법으로 배깅, 스태킹을 이용하였다. 결과적으로 본 연구에서 제안된 모델이 단일 기계학습 모델, 배깅 및 스태킹 모델보다 높은 정확도를 보였다. 이는 대표적인 4가지 성능 지표 비교를 통해 확인하였고, 제안된 방법의 유효성을 검증하였다.

수리계획법을 이용한 서포트 벡터 기계 방법에 관한 연구 (Study on Support Vector Machines Using Mathematical Programming)

  • 윤민;이학배
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.421-434
    • /
    • 2005
  • 기계학습은 패턴분류의 한 도구로써 광범위하게 연구되고 있다. 기계학습 방법들 중에서 서포트 벡터 기계(Support Vector Machines)는 많은 분야에서 연구되어지는 것으로 이진 패턴 분류문제에서 고차원의 특징공간에서 두 집합들 사이에 가장 큰 분리를 제공하는 최대 여유도(margin)를 가지는 분리 초평면을 찾는 것이다. 최대 여유도의 분리의 개념에 기초하여 Mangasarian(1968)은 다중-표면 방법(multi-surface method)을 제안하였고, 1980년대에 목적 계획법을 이용한 방법들이 광범위하게 개발되었다. 본 논문에서는 다목적 계획법과 목적 계획법을 이용한 수리계획법인 서포트 벡터 기계의 두가지 방법들을 제안하고 수치 예제들을 통하여 효용성에 대하여 논의하고자 한다.

2007년 개정 교육과정에 의한 '기계 공작법' 교과서 편찬 방안 연구 (A Study on Compilation Strategy of 『Manufacturing Processes』 Textbook for Technical High School based on the 2007 Revised National Curriculum)

  • 김기수;우연재
    • 대한공업교육학회지
    • /
    • 제34권2호
    • /
    • pp.87-102
    • /
    • 2009
  • 본 연구에서는 2007년 개정 교육과정 공업계열 고등학교 전문교과 교육과정에 근거하여 '기계 공작법' 교과의 단원 내용을 선정하고, '기계 공작법' 교과의 편찬 방안을 제시하고자 첫째, 현행 7차 교육과정의 '기계 공작법' 교과서를 분석하여 2007년 개정 교육 정의'기계 공작법' 교과서 집필을 위한 면담지를 작성하였다. 둘째, 면담 조사를 통하여 '기계 공작법' 교과서의 개선안을 도출하고 교과내용을 선정하였다. 셋째, 선정된 교과내용은 집필진 및 심의진으로 구성된 전문가 협의회를 통하여 소단원 내용 구성을 수정 보완 하였다. 이 연구를 통하여 2007년 개정 교육과정과 7차 교육과정에 제시된 '기계 공작법' 교과서의 대단원 및 중단원 내용 구성에서 변화된 단원 내용을 확인하였다. 둘째, 현행 '기계 공작법' 교과서의 단원 내용 구성에서 개선되어야 할 내용을 추출하여 2007년 개정 교육과정의 '기계 공작법' 교과서의 소단원 학습 주제를 수정 보완하였다. 셋째, 2007년 개정 교육과정의 '기계 공작법'교과서의 대단원, 중단원, 소단원에 대한 내용 구성을 제시하였다.

선적분에 의한 위상차 영상의 줄무늬 아티팩트 감소를 위한 기계학습법에 대한 평가 (Evaluation of Machine Learning Methods to Reduce Stripe Artifacts in the Phase Contrast Image due to Line-Integration Process)

  • 김명근;오오성;이세호;이승욱
    • 한국방사선학회논문지
    • /
    • 제14권7호
    • /
    • pp.937-946
    • /
    • 2020
  • 격자간섭계는 한 위상 물체에 의한 파두의 굴절변화로 인해 그 물체에 대한 미분 위상 영상을 제공하며, 이 미분 위상 영상은 위상 영상으로 전환되어야 할 필요가 있다. 미분 위상차 영상으로부터 위상차 영상을 얻기 위한 선적분 과정은 노이즈를 축적하고 줄무늬 아티팩트를 생성한다. 줄무늬 아티팩트는 선적분이 수행된 위상차 영상에서 적분 방향으로 노이즈와 왜곡이 증가한다. 이 연구에서는 이러한 아티팩트를 줄이기 위해 몇 가지 기계 학습 방법들을 구성하고 비교하였다. 기계 학습 방법들은 상호비교를 위하여 시뮬레이션 된 수치 팬텀과 엑스선 및 중성자 격자 간섭계로부터 얻어진 실험 데이터에 적용되었다. 그 결과 웨이블릿 전처리와 기계 학습 방법(WCNN)의 조합이 가장 효과적인 것으로 나타났다.