• 제목/요약/키워드: Machine learning algorithm

검색결과 1,480건 처리시간 0.026초

MaxEnt 모형 분석을 통한 남북한 접경지역의 금강초롱꽃 자생가능지 예측 (Predicting Potential Habitat for Hanabusaya Asiatica in the North and South Korean Border Region Using MaxEnt)

  • 성찬용;신현탁;최송현;송홍선
    • 한국환경생태학회지
    • /
    • 제32권5호
    • /
    • pp.469-477
    • /
    • 2018
  • 금강초롱꽃(Hanabusaya asiatica)은 한반도 중동부에서만 제한적으로 분포하는 고유종으로, 분포범위가 좁고 개체수가 적어 서식지를 세계자연보전연맹(IUCN, International Union for Conservation of Nature) 중요 생물다양성 보호지역(key biodiversity areas: KBAs)으로 지정하여 보호할 필요가 있다. 본 연구에서는 maximum entropy(MaxEnt) 모형을 통해 남북한 접경지역 내 금강초롱꽃 자생가능지를 추정하고 이를 바탕으로 KBAs 후보지를 설정하였다. 기계학습(machine learning) 알고리즘의 하나인 MaxEnt 모형은 생물종의 출현지점만 기록한 데이터(presence-only data)로도 생물종 분포를 편향되지 않게 예측할 수 있는 생물종 분포 모형으로, 본 연구의 연구대상지처럼 현장 조사가 어려운 경우 유용한 방법이다. 본 연구에서는 현장 조사를 통해 수집한 38개 금강초롱꽃 출현 위치와 기후, 지형, 식생 등을 측정한 11개 환경변수를 이용하여 MaxEnt 모형을 학습하여 남북한 접경지역의 모든 지점에 대해 금강초롱꽃 출현확률을 추정하였다. MaxEnt 모형 분석 결과, 금강초롱꽃 출현확률이 0.5를 넘어 금강초롱꽃 분포가능지로 분류된 지역은 $778km^2$이었고, 추정된 서식가능지와 기지정된 보호지역 경계를 고려하여 설정한 최종 KBA 후보지는 $1,321km^2$이었다. 또한 11개 환경변수 중 표고와 연평균 강수량, 생장기 평균 강수량, 최한월 평균 기온이 금강초롱꽃 출현확률에 영향을 미쳐, 금강초롱꽃은 고도가 높은 서늘한 지역을 선호하는 것으로 분석되었다. 이와 같은 금강초롱꽃의 분포지 선호도 분석 결과는 KBA 후보지 설정 뿐 아니라 남북한 통일이나 기후변화와 같은 시나리오에 대비한 금강초롱꽃 보존 계획 수립의 기초자료로 활용될 수 있을 것으로 기대된다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

다기관 임상연구를 위한 인공지능 학습 플랫폼 구축 (Construction of Artificial Intelligence Training Platform for Multi-Center Clinical Research)

  • 이충섭;김지언;노시형;김태훈;윤권하;정창원
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권10호
    • /
    • pp.239-246
    • /
    • 2020
  • 인공지능 기술을 도입한 의료분야에서 진단 및 예측과 연계한 임상의사결정지원 시스템(CDSS)에 관련된 연구가 활발하게 진행되고 있다. 특히, 인공지능 기술 적용에 가장 많은 이슈를 일으키고 있는 의료영상기반의 질환진단연구가 다양한 제품으로 출시되고 있는 실정이다. 그러나 의료영상 데이터는 일관되지 않은 데이터들로 이루어져 있으며, 그것을 정제하여 연구에 사용하기 위해서는 상당한 시간이 필요한 것이 현실이다. 본 논문은 의료영상 표준인 R_CDM(Radiology Common Data Model)으로 변환하고, 그 데이터를 기반으로 인공지능 알고리즘 개발 연구를 지원하기위한 원스톱 인공지능학습 플랫폼에 대하여 기술한다. 이를 위해 기존 공통데이터모델(CDM : Common Data Model)과 연계에 중점을 두어 DICOM(Digital Imaging and Communications in Medicine) 태그정보를 기반으로 의료영상 표준 모델의 스키마와 다기관 연구를 위한 Report 정보를 포함하여 시스템을 모델링하였다. 이렇게 변환된 데이터 집합을 기반으로 인공지능 학습 플랫폼에서 수행 과정을 결과로 보인다. 제안한 플랫폼을 통해 다양한 영상기반 인공지능 연구에 활용될 것으로 기대하고 있다.

냉동시스템 고장 진단 및 고장유형 분석을 위한 3단계 분류 알고리즘에 관한 연구 (A study on the 3-step classification algorithm for the diagnosis and classification of refrigeration system failures and their types)

  • 이강배;박성호;이희원;이승재;이승현
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.31-37
    • /
    • 2021
  • 산업의 발전으로 도시화로 인해 건물의 규모가 커지면서, 건물의 공기 정화 및 쾌적한 실내 환경을 유지의 필요성 또한 증가하고 있다. 냉동 시스템의 모니터링 기술의 발전으로 건물 내에 발생하는 전력 소모량을 관리할 수 있게 되었다. 특히 상업용 건물에서 발생하는 전력 소모량 중 약 40%가 냉동 시스템에서 일어난다. 따라서 본 연구 냉동시스템 고장진단 알고리즘을 개발하기 위해서 냉동시스템의 구조를 이해하고, 냉동 시스템의 운영과정에서 발생하는 데이터를 수집 분석하여 다양한 유형과 심각도를 가지는 고장 상황을 조기에 신속하게 탐지 분류하고자 하였다. 특히 분류가 어려운 고장 유형들의 분류 정확도를 향상시키기 위하여 3단계 진단 및 분류 알고리즘을 개발하여 제안하였다. 다수의 실험과 초모수 (hyper parameter) 최적화 과정을 거쳐 각 단계에 적합한 분류 모형으로 SVM과 LGBM에 기반 한 모형을 제시하였다. 본 연구에서는 고장에 영향을 미치는 특성을 최대한 보존하면서, 선행연구에서 어려움을 겪었던 냉매 관련 고장을 포함한 모든 고장 유형을 우수한 결과로 도출하였다.

CNN 강우여부 분류기를 적용한 ANN 기반 X-Band 레이다 유의파고 보정 (Estimation of Significant Wave Heights from X-Band Radar Based on ANN Using CNN Rainfall Classifier)

  • 김희연;안경모;오찬영
    • 한국해안·해양공학회논문집
    • /
    • 제33권3호
    • /
    • pp.101-109
    • /
    • 2021
  • 항해용 X-band 레이다를 이용한 파랑관측은 해수면에 후방산란 된 전자기파 이미지를 분석하여 이루어진다. 1분당 42개의 해수면 시계열 이미지로부터 3차원 FFT를 계산하고 변조전달함수(Modulation Transfer Function)를 구하여 파랑정보를 추출한다. 따라서 레이다 파고계로 계측한 유의파고의 정확도는 X-band 레이다 영상의 상태에 따라 결정된다. 2020년 여름 태풍 마이삭과 하이선 내습 시 강릉 안인 해안에 설치된 X-band 레이다 파고계로 관측한 유의파고의 오차가 크게 발생하였다. 이는 태풍 내습 시 급격히 유의파고가 증가하는 한편 강한 강우가 동반되어 X-band 레이다 영상의 품질이 저하되었기 때문이다. 최대 오차 발생 이전까지 많은 강우가 있었음이 확인된다. 본 연구에서는 convolution neural network(CNN)을 이용하여 레이다 이미지로부터 강우 여부를 분류하고 강우여부에 따라 강우시 인공신경망 모델을 적용하여 태풍 시 유의파고 관측 정확도를 향상시켰다. 폭우를 동반한 태풍 시 레이다 자료 특성에 기반하여 인공신경망 유의파고 산출 알고리즘을 개선하고 이를 통해 X-band 레이다 파고계의 정확도를 향상시키는 방법을 제시하였다.

유전자 알고리즘 및 국소 적응 오퍼레이션 기반의 의료 진단 문제 자동화 기법 연구 (Medical Diagnosis Problem Solving Based on the Combination of Genetic Algorithms and Local Adaptive Operations)

  • 이기광;한창희
    • 지능정보연구
    • /
    • 제14권2호
    • /
    • pp.193-206
    • /
    • 2008
  • 의료 진단 문제는 기정의된 특성치들로 표현되는 환자의 상태 데이터로부터 병의 유무를 판단하는 일종의 분류 문제로 간주할 수 있다. 본 연구는 혼용 유전자 알고리즘 기반의 분류방법을 도입함으로써 의료 진단 문제와 같은 다차원의 패턴 분류 문제를 해결할 수 있는 방안을 제안하고 있다. 일반적으로 분류 문제는 데이터 패턴에 존재하는 여러 클래스 간 구분경계를 생성하는 접근방법을 사용하는데, 이를 위해 본 연구에서는 일단의 영역 에이전트들을 도입하여 이들을 유전자 알고리즘 및 국소 적응조작을 혼용함으로써 데이터 패턴에 적응하도록 유도하고 있다. 일반적인 유전자 알고리즘의 진화단계를 거친 에이전트들에 적용되는 국소 적응조작은 영역 에이전트의 확장, 회피 및 재배치로 이루어지며, 각 에이전트의 적합도에 따라 이들 중 하나가 선택되어 해당 에이전트에 적용된다. 제안된 의료 진단용 분류 방법은 UCI 데이터베이스에 있는 잘 알려진 의료 데이터, 즉 간, 당뇨, 유방암 관련 진단 문제에 적용하여 검증하였다. 그 결과, 기존의 대표적인 분류기법인 최단거리이웃방법(the nearest neighbor), C4.5 알고리즘에 의한 의사 결정트리(decision tree) 및 신경망보다 우수한 진단 수행도를 나타내었다.

  • PDF

건강행위정보기반 고혈압 위험인자 및 예측을 위한 통계분석 (Statistical Analysis for Risk Factors and Prediction of Hypertension based on Health Behavior Information)

  • 허병문;김상엽;류근호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권4호
    • /
    • pp.685-692
    • /
    • 2018
  • 본 연구는 통계분석을 이용한 중년 성인의 고혈압 예측모델 개발이 목적이다. 국민건강영양조사자료(2013년-2016년)를 사용하여 통계분석과 예측모델을 개발하였다. 이진 로지스틱 회귀분석으로 통계적 유의한 고혈압 위험인자를 제시하였으며, Wrapper 변수선택기법을 적용한 로지스틱회귀와 나이브베이즈 알고리즘을 이용하여 예측모델을 개발하였다. 통계분석에서 고혈압에 가장 높은 연관성을 갖는 인자는 남성에서 WHtR (p<0.0001, OR = 2.0242), 여성에서 AGE(p<0.0001, OR = 3.9185)로 나타났다. 예측모델의 성능평가에서, 로지스틱 회귀 모델이 남성(AUC = 0.782)과 여성(AUC = 0.858)에서 가장 좋은 예측력을 보였다. 우리의 연구 결과는 고혈압에 대한 대규모 스크리링 도구를 개발하는데 중요한 정보를 제공하며, 고혈압 연구에 대한 기반정보로 활용할 수 있다.

신뢰 값 기반의 대용량 OWL Horst 온톨로지 추론 (Confidence Value based Large Scale OWL Horst Ontology Reasoning)

  • 이완곤;박현규;바트셀렘;박영택
    • 정보과학회 논문지
    • /
    • 제43권5호
    • /
    • pp.553-561
    • /
    • 2016
  • 웹으로부터 얻어진 데이터를 통해 자동적으로 온톨로지를 확장하는 많은 기계학습 방법들이 존재한다. 또한 대용량 온톨로지 추론에 대한 관심이 증가하고 있다. 하지만 웹으로부터 얻어진 다양한 데이터의 신뢰성 문제를 고려하지 않으면, 불확실성을 내포하는 추론결과를 초래하는 문제점이 있다. 현재 대용량 온톨로지의 신뢰도를 반영하는 추론에 대한 연구가 부족하기 때문에 신뢰 값 기반의 대용량 온톨로지 추론 방법론이 요구되고 있다. 본 논문에서는 인메모리 기반의 분산 클러스터 프레임워크인 스파크 환경에서 신뢰 값 기반의 대용량 OWL Horst 추론 방법에 대해서 설명한다. 기존의 연구들의 문제점인 중복 추론된 데이터의 신뢰 값을 통합하는 방법을 제안한다. 또한 추론의 성능을 저하시키는 문제를 해결할 수 있는 분산 병렬 추론 알고리즘을 설명한다. 본 논문에서 제안하는 신뢰 값 기반의 추론 방법의 성능을 평가하기 위해 LUBM3000을 대상으로 실험을 진행했고, 기존의 추론엔진인 WebPIE에 비해 약 2배 이상의 성능을 얻었다.

서울 데이터 기반 필지별 용도전환 발생 예측 (Data-driven Analysis for Future Land-use Change Prediction : Case Study on Seoul)

  • 윤성범;문성철;박순용;김태현
    • 방송공학회논문지
    • /
    • 제25권2호
    • /
    • pp.176-184
    • /
    • 2020
  • 지속적인 서울시의 발전과 쇠퇴에 따라 서울시는 정책 차원에서 도시재생을 진행하기 위해 지역별 용도전환 등의 정책을 진행하고 있지만, 이는 다양한 결과를 야기한다. 본 연구는 이런 용도전환이 발생하는 원인을 도출하고자 다양한 공공데이터를 활용하여 서울지역에서 지난 2011~2015년에 발생한 용도전환에 대한 예측 모델을 구축하고 용도전환을 야기하는 요인을 도출하고자 한다. 이를 구현하기 위해 서울시 및 국가 공공기관에서 취득한 서울시 필지에 대한 다양한 데이터를 의사결정 나무 기반 머신러닝 기법인 Random Forest에 적용하고 높은 정확도를 가지는 예측 모델을 구축하였으며, 용도전환을 야기하는 중요 요인들을 도출하였다. 해당 연구의 결과는 나아가 서울시의 당면 과제인 젠트리피케이션이 발생하는 요인연구와 예측 연구에 활용될 수 있을 것으로 판단되며, 공공의 정책 의사결정을 지원할 것으로 판단된다.