• 제목/요약/키워드: machine learning

검색결과 5,204건 처리시간 0.04초

대화 시스템을 위한 사용자 발화 문장의 감정 분류 (Emotion Classification of User's Utterance for a Dialogue System)

  • 강상우;박홍민;서정연
    • 인지과학
    • /
    • 제21권4호
    • /
    • pp.459-480
    • /
    • 2010
  • 대화 시스템은 사용자의 의도를 파악하기 위해 발화 문장으로부터 다양한 형태론적 분석을 시도한다. 하지만 사용자는 발화 문장에 포함된 사전적 의미를 통해 의도를 전달할 뿐만 아니라 현재 감정 상태에 따라서 사전적 의미와는 다른 의도를 표현하거나 동일한 의미를 갖는 발화에서 다양한 의도를 표현한다. 따라서 대화에서 사용자의 감정을 파악하는 것은 사용자의 의도를 다양한 방향으로 분석할 수 있게 한다. 본 연구는 기계 학습 방법을 사용하여 사용자 발화 문장에 자동으로 감정 범주를 할당하는 방법을 제안한다. 일반적 감정 범주를 정의하기 위해 세부적인 감정 모델로 인정받고 있는 Plutchick의 감정 모델을 사용하여 9개 감정 범주를 재 정의하고 감정 분류를 위한 자질 집합을 문장 자질과 선험적 자질 그리고 문맥 자질로 구분하였다. 실험을 통하여 3가지 자질들의 최적 조합을 구성하고 감정의 자동 분류를 위해 SVM 분류기를 사용하였다. 실험 결과에서 제안 시스템은 비교 시스템에 비해 15% 높은 62.8%의 F1-평가치 성능을 나타냄으로서 제안된 방법이 감정 분류에 효과적임을 증명한다.

  • PDF

k-익명화 알고리즘에서 기계학습 기반의 k값 예측 기법 실험 및 구현 (Experiment and Implementation of a Machine-Learning Based k-Value Prediction Scheme in a k-Anonymity Algorithm)

  • ;장성봉
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권1호
    • /
    • pp.9-16
    • /
    • 2020
  • 빅 데이터를 연구 목적으로 제3자에게 배포할 때 프라이버시 정보를 보호하기 위해서 k-익명화 기법이 널리 사용되어 왔다. k-익명화 기법을 적용할 때, 해결 해야할 어려운 문제 중의 하나는 최적의 k값을 결정하는 것이다. 현재는 대부분 전문가의 직관에 근거하여 수동으로 결정되고 있다. 이러한 방식은 익명화의 성능을 떨어뜨리고 시간과 비용을 많이 낭비하게 만든다. 이러한 문제점을 해결하기 위해서 기계학습 기반의 k값 결정방식을 제안한다. 본 논문에서는 제안된 아이디어를 실제로 적용한 구현 및 실험 내용에 대해서 서술 한다. 실험에서는 심층 신경망을 구현하여 훈련하고 테스트를 수행 하였다. 실험결과 훈련 에러는 전형적인 신경망에서 보여지는 패턴을 나타냈으며, 테스트 실험에서는 훈련에러에서 나타나는 패턴과는 다른 패턴을 보여주고 있다. 제안된 방식의 장점은 k값 결정시 시간과 비용을 줄일 수 있다는 장점이 있다.

어휘 자질 기반 기계 학습을 사용한 한국어 암묵 인용문 인식 (Recognition of Korean Implicit Citation Sentences Using Machine Learning with Lexical Features)

  • 강인수
    • 한국산학기술학회논문지
    • /
    • 제16권8호
    • /
    • pp.5565-5570
    • /
    • 2015
  • 암묵인용문 인식은 학술문헌의 본문 텍스트 내에서 명시적 인용표지가 누락된 인용문장을 자동 인식하는 것으로 인용 기반 논문 검색 및 요약의 핵심 기술이다. 기존 암묵인용문 인식의 최신 연구들은 단어 ngram, 단서어구, 명시인용문과의 거리, 기존 연구자의 성, 기존 방법의 명칭 등 다양한 자질을 활용하여 50% 이상 인식 수준을 보고하고 있다. 그러나 대부분의 기존 연구들은 영어에 대해 수행되었으며 한국어의 경우 최근 긍정/부정 단서어구 패턴을 활용한 규칙 기반 시도에서 42% 성능 수준이 보고되어 있어 추가 성능 향상이 요구되는 상황이다. 이 연구에서는 한국어 어휘 자질을 사용하여 한국어 암묵인용문의 기계학습 기반 인식을 시도하였다. 이를 위해 어절, 형태소, 음절 단위에 기반한 다양한 크기의 어휘 ngram 자질들의 인식 성능을 비교 평가하고 한국어 암묵인용문 인식에 적합한 어휘 자질로 형태소 1gram 및 음절 2gram 단위를 결정하였다. 또한 이들 어휘 자질들을 전후 명시인용문들과의 인접성을 표현한 위치 자질들과 결합하여 한국어 암묵인용문 인식 성능을 50% 이상 수준으로 대폭 향상시켰다.

주기 패턴을 이용한 센서 네트워크 데이터의 이상치 예측 (Outlier prediction in sensor network data using periodic pattern)

  • 김형일
    • 센서학회지
    • /
    • 제15권6호
    • /
    • pp.433-441
    • /
    • 2006
  • Because of the low power and low rate of a sensor network, outlier is frequently occurred in the time series data of sensor network. In this paper, we suggest periodic pattern analysis that is applied to the time series data of sensor network and predict outlier that exist in the time series data of sensor network. A periodic pattern is minimum period of time in which trend of values in data is appeared continuous and repeated. In this paper, a quantization and smoothing is applied to the time series data in order to analyze the periodic pattern and the fluctuation of each adjacent value in the smoothed data is measured to be modified to a simple data. Then, the periodic pattern is abstracted from the modified simple data, and the time series data is restructured according to the periods to produce periodic pattern data. In the experiment, the machine learning is applied to the periodic pattern data to predict outlier to see the results. The characteristics of analysis of the periodic pattern in this paper is not analyzing the periods according to the size of value of data but to analyze time periods according to the fluctuation of the value of data. Therefore analysis of periodic pattern is robust to outlier. Also it is possible to express values of time attribute as values in time period by restructuring the time series data into periodic pattern. Thus, it is possible to use time attribute even in the general machine learning algorithm in which the time series data is not possible to be learned.

비선형 시계열 하천생태모형 개발과정 중 시간지연단계와 입력변수, 모형 예측성 간 관계평가 (Relationship among Degree of Time-delay, Input Variables, and Model Predictability in the Development Process of Non-linear Ecological Model in a River Ecosystem)

  • 정광석;김동균;윤주덕;라긍환;김현우;주기재
    • 생태와환경
    • /
    • 제43권1호
    • /
    • pp.161-167
    • /
    • 2010
  • In this study, we implemented an experimental approach of ecological model development in order to emphasize the importance of input variable selection with respect to time-delayed arrangement between input and output variables. Time-series modeling requires relevant input variable selection for the prediction of a specific output variable (e.g. density of a species). Inadequate variable utility for input often causes increase of model construction time and low efficiency of developed model when applied to real world representation. Therefore, for future prediction, researchers have to decide number of time-delay (e.g. months, weeks or days; t-n) to predict a certain phenomenon at current time t. We prepared a total of 3,900 equation models produced by Time-Series Optimized Genetic Programming (TSOGP) algorithm, for the prediction of monthly averaged density of a potamic phytoplankton species Stephanodiscus hantzschii, considering future prediction from 0- (no future prediction) to 12-months ahead (interval by 1 month; 300 equations per each month-delay). From the investigation of model structure, input variable selectivity was obviously affected by the time-delay arrangement, and the model predictability was related with the type of input variables. From the results, we can conclude that, although Machine Learning (ML) algorithms which have popularly been used in Ecological Informatics (EI) provide high performance in future prediction of ecological entities, the efficiency of models would be lowered unless relevant input variables are selectively used.

실시간 탐지를 위한 인공신경망 기반의 네트워크 침입탐지 시스템 (An Intrusion Detection System based on the Artificial Neural Network for Real Time Detection)

  • 김태희;강승호
    • 융합보안논문지
    • /
    • 제17권1호
    • /
    • pp.31-38
    • /
    • 2017
  • 네트워크를 통한 사이버 공격 기법들이 다양화, 고급화 되면서 간단한 규칙 기반의 침입 탐지/방지 시스템으로는 지능형 지속 위협(Advanced Persistent Threat: APT) 공격과 같은 새로운 형태의 공격을 찾아내기가 어렵다. 기존에 알려지지 않은 형태의 공격 방식을 탐지하는 이상행위 탐지(anomaly detection)를 위한 해결책으로 최근 기계학습 기법을 침입탐지 시스템에 도입한 연구들이 많다. 기계학습을 이용하는 경우, 사용하는 특징 집합에 침입탐지 시스템의 효율성과 성능이 크게 좌우된다. 일반적으로, 사용하는 특징이 많을수록 침입탐지 시스템의 정확성은 높아지는 반면 탐지를 위해 소요되는 시간이 많아져 긴급성을 요하는 경우 문제가 된다. 논문은 이러한 두 가지 조건을 동시에 충족하는 특징 집합을 찾고자 다목적 유전자 알고리즘을 제안하고 인공신경망에 기반한 네트워크 침입탐지 시스템을 설계한다. 제안한 방법의 성능 평가를 위해 NSL_KDD 데이터를 대상으로 이전에 제안된 방법들과 비교한다.

SVM을 활용한 악성 웹 페이지 분류 (Classification of Malicious Web Pages by Using SVM)

  • 황영섭;문재찬;조성제
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권3호
    • /
    • pp.77-83
    • /
    • 2012
  • 웹 페이지에서 다양한 서비스를 제공하면서 악성코드가 웹 페이지를 통해 배포되는 것도 늘어났다. 악성코드는 개인정보 유출, 시스템의 성능저하, 시스템의 좀비 피씨화 등의 피해를 입힌다. 이런 피해를 막으려면 악성코드가 있는 웹 페이지의 접근을 막아야 한다. 그런데 웹 페이지에 있는 악성코드는 난독화나 변형기법으로 위장하고 있어 기존 안티바이러스 소프트웨어가 사용하는 시그니처 방식의 접근법으로 찾아내기 어렵다. 이를 해결하기 위하여, 웹 페이지를 분석하여 악성 웹 페이지와 양성 웹 페이지를 구별하기 위한 특징을 추출하고, 기계 학습법으로 널리 사용되는 SVM을 통하여 악성 웹 페이지를 분류하는 방법을 제안한다. 제안하는 방법이 우수함을 실험을 통하여 보인다. 제안한 방법으로 악성 웹 페이지를 정확히 분류하면 웹 페이지를 통한악성코드의 배포를 막는데 이바지할 것이다.

안드로이드 OS에서 앱 설치 의사결정 지원을 위한 악성 앱 분류 시스템 (Malware Classification System to Support Decision Making of App Installation on Android OS)

  • 유홍렬;장윤;권태경
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1611-1622
    • /
    • 2015
  • 안드로이드 시스템은 권한 기반의 접근제어 기능을 제공하고, 사용자로 하여금 앱 설치시 앱이 가진 권한을 통해 설치여부를 판단하도록 요구하고 있지만, 대부분의 사용자는 이것을 무시하거나 모르고 지나치는 경향이 있다. 따라서 사용자가 이와 같은 중요한 단계에 주어진 역할을 직관적으로 수행할 수 있도록 하기 위한 개선된 방법이 필요하다. 본 논문에서는 퍼미션 기반 접근제어 시스템을 위해 사용자의 의사결정을 즉각 지원할 수 있는 새로운 기법을 기계학습에 기반하여 연구하고 제안한다. 구체적으로 K-최근접 이웃 알고리즘을 목적에 맞게 수정하여 악성앱 가능성 판단에 대한 연구를 진행하였으며, 특성으로 안드로이드의 권한 152개를 사용했다. 실험 결과 약 93.5%의 정확도를 보였으며 유사한 알고리즘, 혹은 특성으로 권한만을 사용한 기존의 연구결과에 비해 우수한 분류 결과를 보였다. 이는 K-최근접 이웃 알고리즘의 범주 선택시 가중합을 반영했기 때문이다. 본 연구결과는 사용자가 권한을 검토하고 설치할 때 의사결정에 도움을 줄 수 있을 것으로 기대된다.

긍정 데이터 분포를 반영한 다중 인스턴스 지지 벡터 기계 학습 (Learning Multiple Instance Support Vector Machine through Positive Data Distribution)

  • 황중원;박성배;이상조
    • 정보과학회 논문지
    • /
    • 제42권2호
    • /
    • pp.227-234
    • /
    • 2015
  • 본 논문에서는 데이터 분포를 고려한 다중 인스턴스 지지 벡터 기계 학습 알고리즘을 제안한다. 기존의 방법은 긍정 가방 안에서 "가장 긍정"인 인스턴스만 고려하여 마진을 찾는다. 일반적으로 다중 인스턴스로 표현된 데이터에서, 긍정 가방에 포함된 인스턴스들 중 실제로 긍정을 나타내는 인스턴스들은 자질 공간 상에서 서로 유사한 곳에 위치해 있다. 제안한 방법은 기존의 다중 인스턴스 지지 벡터 기계 학습 알고리즘 중에서 긍정 인스턴스들의 교차점을 찾아 이 교차점과 거리를 계산하여 "가장 긍정"인 인스턴스를 선택한다. 긍정 인스턴스들의 교차점인 피벗 포인트를 구하는 방식은 두 가지이다. 먼저, 학습과정 중 추정된 긍정 인스턴스들의 중심점을 사용하는 방법과 학습 시작 시에 가장 긍정일 것으로 예상되는 긍정 인스턴스들의 중심점을 찾는 방법으로 나뉜다. 총 12개의 벤치마크 다중 인스턴스 데이터 셋을 통해 제안한 방법이 기존의 학습 알고리즘에 비해 더 좋은 성능을 보임을 보인다.

학계와 산업계의 정보 대중성 변동과 인용 정보에 기반한 최신 기술 동향 식별 시스템 (An Emerging Technology Trend Identifier Based on the Citation and the Change of Academic and Industrial Popularity)

  • 김선호;이준규;와카스 라시드;여운동
    • 기술혁신학회지
    • /
    • 제14권spc호
    • /
    • pp.1171-1186
    • /
    • 2011
  • 본 연구는 대용량 학술 및 특허 데이터 분석을 기본으로하여 중소 기업이 필요로 하는 유망기술을 도출하는 모형을 제시하고자 하였다. 유망기술 발굴은 국가와 기관의 주요 결정권자가 시간이나 돈과 같은 제한된 자원을 효과적으로 사용할 수 있게 하기 위한 중요한 연구이다. 많은 연구자들이 유망기술 발굴 방법에 대한 연구를 수행하고 있고 모델을 제시하고 있지만 아직까지 더 향상된 방법론의 개발이 필요하다. 이 논문은 학계와 산업계의 데이터를 동시에 이용하여 주어진 기술의 유망 기술 여부를 판단하는 모델을 제안한다. 대부분의 다른 유망기술 발굴 모델과는 다르게 이 논문에서 제안하는 모델은 완전자동 학습 방식이 아닌, 전문가가 개입하는 준-자동 학습 방식의 기계 학습 방법을 이용한다. 이는 학습 속도을 양보하고 대신 정확성을 높이기 위한 방법으로 유망기술 발굴 시스템의 원래 목적에 적당하다. 또한 이 모델은 유망기술 초기 신호를 감지하기 위해 학술 데이터의 인용정보를 분석하여 학습하도록 하였다.

  • PDF