• 제목/요약/키워드: 비지도학습

검색결과 221건 처리시간 0.029초

퍼지추론과 코호넨 신경망을 사용한 유즈넷 뉴스 필터링 (Usenet News Filtering using Fuzzy Inference and Kohonen Network)

  • 김종완;조규철;김병익
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2003년도 춘계학술대회
    • /
    • pp.47-51
    • /
    • 2003
  • 인터넷을 통해 제공되는 맡은 양의 뉴스 정보 중에서 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것이 필요하다. 먼저, 인터넷에 접속된 뉴스서버들의 뉴스 문서를 각 그룹별로 수집한다. 수집된 뉴스 문서를 대상으로 퍼지추론을 통하여 문서를 대표하는 키워드를 추출하여 데이터베이스에 저장한다. 각 뉴스그룹의 문서에서 단어들을 분석하여 입력된 단어들의 개수를 이용하여 정규화 시켜서 대표적인 비지도학습 신경망인 코호넨 신경망을 사용하여 학습시킨다. 코호넨 신경망으로 추출된 단어들의 연관성을 활용하여 뉴스그룹을 클러스터링한다. 최종적으로 사용자가 관심 있는 키워드를 입력하면, 학습된 신경망이 유사한 뉴스그룹들을 사용자에게 제시해준다.

  • PDF

베이지안 모형 기반 한국어 의미역 유도 (Bayesian Model based Korean Semantic Role Induction)

  • 원유성;이우철;김형준;이연수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.111-116
    • /
    • 2016
  • 의미역은 자연어 문장의 서술어와 관련된 논항의 역할을 설명하는 것으로, 주어진 서술어에 대한 논항 인식(Argument Identification) 및 분류(Argument Labeling)의 과정을 거쳐 의미역 결정(Semantic Role Labeling)이 이루어진다. 이를 위해서는 격틀 사전을 이용한 방법이나 말뭉치를 이용한 지도 학습(Supervised Learning) 방법이 주를 이루고 있다. 이때, 격틀 사전 또는 의미역 주석 정보가 부착된 말뭉치를 구축하는 것은 필수적이지만, 이러한 노력을 최소화하기 위해 본 논문에서는 비모수적 베이지안 모델(Nonparametric Bayesian Model)을 기반으로 서술어에 가능한 의미역을 추론하는 비지도 학습(Unsupervised Learning)을 수행한다.

  • PDF

해양 이상 자료 탐지를 위한 오토인코더 활용 기법 최적화 연구 (An Outlier Detection Using Autoencoder for Ocean Observation Data)

  • 김현재;김동훈;임채욱;신용탁;이상철;최영진;우승범
    • 한국해안·해양공학회논문집
    • /
    • 제33권6호
    • /
    • pp.265-274
    • /
    • 2021
  • 해양 이상 자료 탐지의 연구는 이전부터 활발하게 이루어지고 있으며, 통계 및 거리 기반의 기계 학습 알고리즘을 활용하는 기법들이 개발되었다. 최근에는 AI 기반의 해양 자료 이상 탐지 기법이 많은 관심을 받고 있으며, AI를 활용한 해양 이상 자료 탐지 기법은 정답이 주어지는 지도학습 기법이 주를 이루고 있다. 이러한 방법은 학습에 필요한 모든 자료에 수작업으로 분류 정보(라벨)를 지정해야 한다는 점에서 많은 시간과 비용이 요구된다. 본 연구에서는 이러한 문제를 극복하기 위해 비지도학습 기반의 오토인코더를 이상 자료 탐지 기법에 사용하였다. 실험으로는 오토인코더의 평가를 위해 단변수·다변수학습 두가지 실험을 구성하였고, 단변수 학습은 기상청에서 제공하는 덕적도 부이 정점 관측 자료 중 수온만 사용하였으며, 다변수 학습은 수온과 기온, 풍향, 풍속, 기압, 습도 등을 사용하였다. 사용기간은 1996~2020년의 25년간이며 학습 자료에 해양-기상 자료의 특성을 고려한 전처리 기법을 적용하였다. 학습된 다변수와 단변수 오토인코더를 활용하여 실제 표층 수온에 대한 이상 탐지를 시도하였다. 모델성능 비교를 위해 오차를 삽입한 합성 자료에 다변수와 단변수 오토인코더를 포함한 여러 이상 탐지 기법을 적용하여 정량적으로 평가하였으며, 다변수/단변수의 정확도가 각각 약 96%/91%로써 다변수 오토인코더가 더 나은 이상자료 탐지 성능을 보였다. 오토인코더를 이용한 비지도학습 기반 이상 탐지 기법은 주관적 판단에 의한 오류와 자료 라벨링에 필요한 시간과 비용을 줄일 수 있다는 점에서 다양하게 활용될 것으로 판단된다.

The Unsupervised Learning-based Language Modeling of Word Comprehension in Korean

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권11호
    • /
    • pp.41-49
    • /
    • 2019
  • 본 연구는 비지도 기계학습 기술과 코퍼스의 각 단어를 이용하여 한국어 단어를 형태소 분석하는 언어 모델을 구축하는데 목적을 둔다. 그리고 이 언어 모델의 단어 형태소 분석의 결과와 언어 심리 실험결과에서 얻은 한국어 언어사용자의 단어 이해/판단 시간이 상관관계을 갖는지를 규명하고자 한다. 논문에서는 한국어 세종코퍼스를 언어 모델로 학습하여 형태소 분리 규칙을 통해 한국어 단어를 자동 분리하는데 발생하는 단어 정보량(즉, surprisal(놀라움) 정도)을 측정하여 실제 단어를 읽는데 걸리는 반응 시간과 상관이 있는지 분석하였다. 이를 위해 코퍼스에서 단어에 대한 형태 구조 정보를 파악하기 위해 Morfessor 알고리즘을 적용하여 단어의 하위 단위 분리와 관련한 문법/패턴을 추출하고 형태소를 분석하는 언어 모델이 예측하는 정보량과 반응 시간 사이의 상관관계를 알아보기 위하여 선형 혼합 회귀(linear mixed regression) 모형을 설계하였다. 제안된 비지도 기계학습의 언어 모델은 파생단어를 d-형태소로 분석해서 파생단어의 음절의 형태로 처리를 하였다. 파생단어를 처리하는 데 필요한 사람의 인지 노력의 양 즉, 판독 시간 효과가 실제로 형태소 분류하는 기계학습 모델에 의한 단어 처리/이해로부터 초래될 수 있는 놀라움과 상관함을 보여 주었다. 본 연구는 놀라움의 가설 즉, 놀라움 효과는 단어 읽기 또는 처리 인지 노력과 관련이 있다는 가설을 뒷받침함을 확인하였다.

적대적 생성 신경망을 활용한 비지도 학습 기반의 대기 자료 이상 탐지 알고리즘 연구 (A Study on Atmospheric Data Anomaly Detection Algorithm based on Unsupervised Learning Using Adversarial Generative Neural Network)

  • 양호준;이선우;이문형;김종구;최정무;신유미;이석채;권장우;박지훈;정동희;신혜정
    • 융합정보논문지
    • /
    • 제12권4호
    • /
    • pp.260-269
    • /
    • 2022
  • 본 논문에서는 기존에 전문가에 의해서 이루어지던 국가 대기오염 측정망 데이터들의 이상 탐지 작업을 인공지능을 통해 자동화하고자 심층 신경망을 이용한 이상 탐지 모델을 제안하였다. 환경과학원에서 제공받은 기상자료 데이터의 결측치 및 이상치를 분석하여 학습데이터를 생성하였으며 비지도 학습 방식의 BeatGAN 모델에 기반하여 커널 구조 변경과 합성곱 필터층 및 전치 합성곱 필터층의 추가를 통해 새로운 모델을 제안하여 이상 탐지 성능을 높이고자 하였다. 또한 제안하는 모델의 생성적 특징을 활용하여 새로운 데이터를 생성하고 이를 학습에 사용하는 재학습 알고리즘을 구현 및 적용하여 기존 BeatGAN 모델뿐 아니라 다른 비지도 학습 모델인 Iforest, One Class SVM과 비교하였을 때 제안모델의 성능이 가장 높았음을 확인할 수 있었다. 본 연구를 통해 실제 산업현장에서 센서의 이상, 점검 등의 여러 요인으로 인해 학습 데이터가 부족한 상황에서 추가적인 비용없이 과적합을 피하며 제안하는 모델의 이상탐지 성능을 올릴 수 있는 방법을 제시할 수 있었다.

시간정보에 기반한 핸드폰 문자의 대화 구분 (Temporal Segmentation of Mobile Text Message)

  • 정헌영;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.306-308
    • /
    • 2012
  • 핸드폰 사용이 보편화되고 핸드폰의 문자 사용량이 늘어감에 따라 대량의 핸드폰 문자 메시지를 구축하는 건이 가능해졌다. 이러한 문자 데이터를 처리에 기반이 되는 대화 구분 방법을 제안하였다. 이 방법론은 기존 문서분류 방식을 적용하는데 발생하는 문제를 피하기 위해 시간정보를 사용하는 비지도학습 방법론이다. 해당 방법을 실제 핸드폰 메시지 데이터에 적용한 결과 정확율과 재현율에서 0.9를 넘는 높은 성능을 보였다.

A Study on the Gen Expression Data Analysis Using Fuzzy Clustering

  • Choi, Hang-Suk;Cha, Kyung-Joon;Park, Hong-Goo
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 춘계 학술발표회 논문집
    • /
    • pp.25-29
    • /
    • 2005
  • Microarry 기술의 발전은 유전자의 기능과 상호 관련성 그리고 특성을 파악 가능하게 하였으며, 이를 위한 다양한 분석 기법들이 소개되고 있다. 본 연구에서 소개하는 fuzzy clustering 기법은 genome 영역의 expression 분석에 가장 널리 사용되는 기법중 비지도학습(unsupervized) 분석 기법이다. Fuzzy clustering 기법을 효모(yeast) expression 데이터를 이용하여 분류하여 hard k-means와 비교 하였다.

  • PDF

LSTM Autoencoder를 활용한 전동기 이상 탐지 (Motor Anomaly Detection Using LSTM Autoencoder)

  • 박준석;하유진;유재천
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.307-309
    • /
    • 2023
  • 본 논문에서는 LSTM Autoencoder를 활용한 전동기의 Anomaly Detection을 제안한다. 전동기의 Anomaly Detection를 통해 전동킥보드의 고장을 예방하여 이용자의 안전을 보장한다. 전동기로부터 얻은 시계열 진동 데이터와 시계열 데이터 분석에 유의미한 LSTM을 활용한 Autoencoder를 통해 Anomaly Detection을 구현했다. 그 결과 99.9%의 정확도를 기록하였다.

  • PDF

비지도학습 오토 엔코더를 활용한 네트워크 이상 검출 기술 (Network Anomaly Detection Technologies Using Unsupervised Learning AutoEncoders)

  • 강구홍
    • 정보보호학회논문지
    • /
    • 제30권4호
    • /
    • pp.617-629
    • /
    • 2020
  • 인터넷 컴퓨팅 환경의 변화, 새로운 서비스 출현, 그리고 지능화되어 가는 해커들의 다양한 공격으로 인한 규칙 기반 침입탐지시스템의 한계점을 극복하기 위해 기계학습 및 딥러닝 기술을 활용한 네트워크 이상 검출(NAD: Network Anomaly Detection)에 대한 관심이 집중되고 있다. NAD를 위한 대부분의 기존 기계학습 및 딥러닝 기술은 '정상'과 '공격'으로 레이블링된 훈련용 데이터 셋을 학습하는 지도학습 방법을 사용한다. 본 논문에서는 공격의 징후가 없는 일상의 네트워크에서 수집할 수 있는 레이블링이 필요 없는 데이터 셋을 이용하는 비지도학습 오토 엔코더(AE: AutoEncoder)를 활용한 NAD 적용 가능성을 제시한다. AE 성능을 검증하기 위해 NSL-KDD 훈련 및 시험 데이터 셋을 사용해 정확도, 정밀도, 재현율, f1-점수, 그리고 ROC AUC (Receiver Operating Characteristic Area Under Curve) 값을 보인다. 특히 이들 성능지표를 대상으로 AE의 층수, 규제 강도, 그리고 디노이징 효과 등을 분석하여 레퍼런스 모델을 제시하였다. AE의 훈련 데이터 셋에 대한 재생오류 82-th 백분위수를 기준 값으로 KDDTest+와 KDDTest-21 시험 데이터 셋에 대해 90.4%와 89% f1-점수를 각각 보였다.