• 제목/요약/키워드: learning algorithms

검색결과 2,317건 처리시간 0.027초

단일 카테고리 문서의 다중 카테고리 자동확장 방법론 (A Methodology for Automatic Multi-Categorization of Single-Categorized Documents)

  • 홍진성;김남규;이상원
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.77-92
    • /
    • 2014
  • 텍스트에 대한 사용자의 접근성을 향상시키기 위해, 이들 문서는 정해진 기준에 따라 카테고리로 분류되어 제공되고 있다. 과거에는 카테고리 분류 작업이 수작업으로 수행되었지만, 문서 작성자에게 분류를 맡기는 경우 분류 정확성을 보장할 수 없고 관리자가 모든 분류를 담당하는 경우 많은 시간과 비용이 소요된다는 어려움이 있었다. 이러한 한계를 극복하기 위해 카테고리를 자동으로 식별할 수 있는 문서 분류 기법에 대한 연구가 활발하게 수행되었다. 하지만 대부분의 문서 분류 기법은 각 문서가 하나의 카테고리에만 속하는 경우를 가정하고 있기 때문에, 하나의 문서가 다양한 주제를 갖는 실제 상황과 부합하지 않는다는 한계를 갖는다. 이를 보완하기 위해 최근 문서의 다중 카테고리 식별을 위한 연구가 일부 수행되었으나, 이들 연구는 대부분 이미 다중 카테고리가 부여되어 있는 문서에 대한 학습을 통해 분류 규칙을 생성하므로 단일 카테고리만 부여되어 있는 기존 문서의 다중 카테고리 식별에는 적용할 수 없다는 제약을 갖는다. 따라서 본 연구에서는 이러한 제약을 극복하기 위해, 카테고리, 토픽, 문서간 관계 분석을 통해 단일 카테고리를 갖는 문서로부터 추가 주제를 발굴하여 이를 다중 카테고리로 자동 확장시킬 수 있는 방법론을 제안하였다. 실험 결과 원 카테고리가 식별된 총 24,000건의 문서 중 23,089건에 대해 카테고리를 확장시킬 수 있었다. 또한 정확도 분석에서 카테고리의 특성에 따라 카테고리 분류 정확도가 상이하게 나타나는 현상을 발견하였다. 본 연구는 단일 카테고리로 분류된 문서에 대해 다중 카테고리를 추가로 식별하여 부여함으로써, 규칙 학습 과정에서 다중 카테고리가 부여된 문서를 필요로 하는 기존 다중 카테고리 문서 분류 알고리즘의 활용성을 매우 향상시킬 수 있을 것으로 기대한다.

인공신경망을 이용한 N치 예측 (A Prediction of N-value Using Artificial Neural Network)

  • 김광명;박형준;구태훈;김형찬
    • 지질공학
    • /
    • 제30권4호
    • /
    • pp.457-468
    • /
    • 2020
  • 플랜트, 토목 및 건축 사업에서 말뚝(Pile) 설계 시 어려움을 겪는 주된 요인은 지반 특성의 불확실성이다. 특히 표준관입시험(Standard Penetration Test, SPT)을 통해 측정되는 N치를 얻는 것이 가장 중요한 자료이나 광범위한 모든 지역에서 구하는 것은 어려운 현실이다. 짧은 해외사업 입찰기간 내에 시추조사를 할 경우 인허가, 시간, 비용, 장비접근, 민원 등 많은 제약요건이 존재하여 전체적인 시추조사가 어렵다. 미시추 지점에서 지반 특성은 엔지니어의 경험적 판단에 의존하여 파악되고 있고, 이는 말뚝의 설계 및 물량산출 오류로 이어져서, 공기 지연 및 원가 증가의 원인이 되고 있다. 이를 극복하기 위해서, 한정된 최소한의 지반 실측 자료를 활용하여 미시추 지점에서도 N치를 예측 할 수 있는 기술이 요구되며, 본 연구에서는 AI기법 중 하나인 인공신경망을 적용하여 N치를 예측하는 연구를 수행하였다. 인공신경망은 제한된 양의 지반정보와 생물학적인 로직화 과정을 통하여 입력변수에 대한 보다 신뢰성 있는 결과를 제공하여 준다. 본 연구에서는 최소한의 시추자료의 지반정보를 입력항목으로 하여 다층퍼셉트론과 오류역전파 알고리즘에 의하여 학습된 패턴을 가지고 미시추 지점에서 N치를 예측하는데 그 목적을 두고 있다. 이를 위하여 2개 현장(필리핀, 인도네시아)에 AI기법 적용시 실측값과 예측값에 대한 적정성을 검토하였고, 그 결과 예측값에 대한 신뢰도가 높은 것으로 연구 검토되었다.

매장 문화재 공간 분포 결정을 위한 지하투과레이더 영상 분석 자동화 기법 탐색 (Automated Analyses of Ground-Penetrating Radar Images to Determine Spatial Distribution of Buried Cultural Heritage)

  • 권문희;김승섭
    • 자원환경지질
    • /
    • 제55권5호
    • /
    • pp.551-561
    • /
    • 2022
  • 지구물리탐사기법은 매장 문화재 조사에 필요한 높은 해상도의 지하 구조 영상 생성과 매장 유구의 정확한 위치 결정하는 데 매우 유용하다. 이 연구에서는 경주 신라왕경 중심방의 고해상도 지하투과레이더 영상에서 유구의 규칙적인 배열이나 선형 구조를 자동적으로 구분하기 위하여 영상처리 기법인 영상 특징 추출과 영상분할 기법을 적용하였다. 영상 특징 추출의 대상은 유구의 원형 적심과 선형의 도로 및 담장으로 캐니 윤곽선 검출(Canny edge detection)과 허프 변환(Hough Transform) 알고리듬을 적용하였다. 캐니 윤곽선 검출 알고리듬으로 검출된 윤곽선 이미지에 허프 변환을 적용하여 유구의 위치를 탐사 영상에서 자동 결정하고자 하였으나, 탐사 지역별로 매개변수를 달리해서 적용해야 한다는 제약이 있었다. 영상 분할 기법의 경우 연결요소 분석 알고리듬과 QGIS에서 제공하는 Orfeo Toolbox (OTB)를 이용한 객체기반 영상분석을 적용하였다. 연결 요소 분석 결과에서, 유구에 의한 신호들이 연결된 요소들로 효과적으로 인식되었지만 하나의 유구가 여러 요소로 분할되어 인식되는 경우도 발생함을 확인하였다. 객체기반 영상분석에서는 평균이동(Large-Scale Mean-Shift, LSMS) 영상 분할을 적용하여 각 분할 영역에 대한 화소 정보가 포함된 벡터 레이어를 우선 생성하였고, 유구를 포함하는 영역과 포함하지 않는 영역을 선별하여 훈련 모델을 생성하였다. 이 훈련모델에 기반한 랜덤포레스트 분류기를 이용해 LSMS 영상분할 벡터 레이어에서 유구를 포함하는 영역과 그렇지 않은 영역이 자동 분류 될 수 있음을 확인하였다. 이러한 자동 분류방법을 매장 문화재 지하투과레이더 영상에 적용한다면 유구 발굴 계획에 활용가능한 일관성 있는 결과를 얻을 것으로 기대한다.

기침 소리의 다양한 변환을 통한 코로나19 진단 모델 (A COVID-19 Diagnosis Model based on Various Transformations of Cough Sounds)

  • 김민경;김건우;최근호
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.57-78
    • /
    • 2023
  • 2019년 11월 중국 우한시에서 발병한 코로나19는 2020년 중국을 넘어 세계로 퍼져나가 2020년 3월에는 전 세계적으로 확산되었다. 코로나19와 같이 전염성이 강한 바이러스는 예방과 확진시 적극적인 치료도 중요하지만 우선 전파 속도가 빠른 바이러스인 점을 감안할 때, 확진 사실을 재빠르게 파악하여 전파를 차단하는 것이 더욱 중요하다. 그러나 감염여부를 확인하기 위한 PCR검사는 비용과 시간이 많이 소요되고, 자가키트검사 또한 접근성은 쉽지만 매번 수시로 받기에는 키트의 가격이 부담이 될 수밖에 없는 실정이다. 이러한 상황에서 기침 소리를 기반으로 코로나19 양성 여부를 판단할 수 있게 된다면 누구나 쉽게 언제, 어디서든 확진 여부를 체크할 수 있어 신속성과 경제성 측면에서 큰 장점을 가질 수 있을 것이다. 따라서 본 연구는 기침 소리를 기반으로 코로나19 확진 여부를 식별할 수 있는 분류 모델을 개발하는 것을 목적으로 하였다. 이를 위해, 본 연구에서는 먼저 MFCC, Mel-Spectrogram, Spectral contrast, Spectrogram 등을 통해 기침 소리를 벡터화 하였다. 이 때, 기침 소리의 품질을 위해 SNR을 통해 잡음이 많은 데이터는 삭제하였고, chunk를 통해 음성 파일에서 기침 소리만 추출하였다. 이후, 추출된 기침 소리의 feature를 이용하여 코로나 양성과 음성을 분류하기 위한 모델을 구축하였으며, XGBoost, LightGBM, FCNN 알고리즘을 통해 모델 학습을 수행하고 각 알고리즘별 성능을 비교하였다. 또한, 기침 소리를 다차원 벡터로 변환한 경우와, 이미지로 변환한 경우에 대해 모델 성능에 대한 비교 실험을 수행하였다. 실험 결과, 건강상태에 대한 기본정보와 기침 소리를 MFCC, Mel-Spectogram, Spectral contrast, 그리고 Spectrogram을 통해 다차원 벡터로 변환한 feature를 모두 활용한 LightGBM 모델이 0.74의 가장 높은 정확도를 보였다.

하천 관리를 위한 원격탐사 자료 기반 식생 분류 기법 (Vegetation classification based on remote sensing data for river management)

  • Lee, Chanjoo;Rogers, Christine;Geerling, Gertjan;Pennin, Ellis
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.6-7
    • /
    • 2021
  • 하천에서의 식생 활착은 지형, 생태, 수리학 등의 학문 분야 뿐만 아니라 하천 관리 실무에서도 중요한 이슈 중에 하나로서 하천 식생 문제는 홍수 관리와 생태계 보전이라는 상반되는 가치의 조화에 직결된다. 국내에서는 2000년대 이후 댐 하류 조절하천, 부영화된 소규모 지류하천, 4대강 사업 대상지 고수부지 등 다양한 조건에서 하천 식생 활착과 육역화 문제가 지속적으로 제기되어 왔다. 이러한 배경에서 본 연구에서는 하천 내의 식생 분포를 원격탐사 자료를 기반으로 분류하는 기법을 제안하고 이를 내성천에 적용한 결과를 제시하였다. 내성천은 2014년부터 최근까지 지속적으로 식생 활착이 발생하여 하천 경관이 변화한 대표적인 사례 하천이다. 원격탐사 자료는 유럽항공우주국(ESA)에서 운영 중이며, Google Earth Engine에서 제공하는 Sentinel 1, 2 위성 영상을 사용하였다. 지상 참값(ground truth)으로는 수역, 사주, 초본, 목본 등을 포함한 8가지 유형으로 구분되어 있는 2016년 내성천 지표 피복 자료를 사용하였다. 분류를 위한 방법은 머신러닝 알고리듬의 하나인 랜덤 포레스트 분류 기법을 사용하였으며, 미리 선정된 10개 폴리곤 영역으로부터 1,000개의 표본을 추출하여 1/2씩 나누어 훈련 및 검증 자료로 사용하였다. 검증 자료 기반의 정확도는 82~85 %로 나타났다. 훈련을 통해 수립한 모형을 2016~2020년 자료에도 적용하여 연도에 따른 식생역의 변화 과정을 제시하였다. 본 논문의 기술적 한계와 개선 방안을 고찰하였다. 이 기법은 정량적인 식생 분포를 제공함으로써 하천에서의 홍수위 계산, 식생-수리모델링 등의 기술 분야 뿐만 아니라 간벌이나 하천 식생 회춘 유도(rejuvenation)과 같은 식생의 실무적 관리 측면에서도 활용도가 클 것으로 판단된다.

  • PDF

S-MTS를 이용한 강판의 표면 결함 진단 (Steel Plate Faults Diagnosis with S-MTS)

  • 김준영;차재민;신중욱;염충섭
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.47-67
    • /
    • 2017
  • 강판 표면 결함은 강판의 품질과 가격을 결정하는 중요한 요인 중 하나로, 많은 철강 업체는 그동안 검사자의 육안으로 강판 표면 결함을 확인해왔다. 그러나 시각에 의존한 검사는 통상 30% 이상의 판단 오류가 발생함에 따라 검사 신뢰도가 낮은 문제점을 갖고 있다. 따라서 본 연구는 Simultaneous MTS (S-MTS) 알고리즘을 적용하여 보다 지능적이고 높은 정확도를 갖는 새로운 강판 표면 결함 진단 시스템을 제안하였다. S-MTS 알고리즘은 단일 클래스 분류에는 효과적이지만 다중 클래스 분류에서 정확도가 떨어지는 기존 마할라노비스 다구찌시스템 알고리즘(Mahalanobis Taguchi System; MTS)의 문제점을 해결한 새로운 알고리즘이다. 강판 표면 결함 진단은 대표적인 다중 클래스 분류 문제에 해당하므로, 강판 표면 결함 진단 시스템 구축을 위해 본 연구에서는 S-MTS 알고리즘을 채택하였다. 강판 표면 결함 진단 시스템 개발은 S-MTS 알고리즘에 따라 다음과 같이 진행하였다. 첫째, 각 강판 표면 결함 별로 개별적인 참조 그룹 마할라노비스 공간(Mahalanobis Space; MS)을 구축하였다. 둘째, 구축된 참조 그룹 MS를 기반으로 비교 그룹 마할라노비스 거리(Mahalanobis Distance; MD)를 계산한 후 최소 MD를 갖는 강판 표면 결함을 비교 그룹의 강판 표면 결함으로 판단하였다. 셋째, 강판 표면 결함을 분류하는 데 있어 결함 간의 차이점을 명확하게 해주는 예측 능력이 높은 변수를 파악하였다. 넷째, 예측 능력이 높은 변수만을 이용해 강판 표면 결함 분류를 재수행함으로써 최종적인 강판 표면 결함 진단 시스템을 구축한다. 이와 같은 과정을 통해 구축한 S-MTS 기반 강판 표면 결함 진단 시스템의 정확도는 90.79%로, 이는 기존 검사 방법에 비해 매우 높은 정확도를 갖는 유용한 방법임을 보여준다. 추후 연구에서는 본 연구를 통해 개발된 시스템을 현장 적용하여, 실제 효과성을 검증할 필요가 있다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.