• Title/Summary/Keyword: 규칙기반 기계학습

Search Result 92, Processing Time 0.03 seconds

Hypernetwork-based Natural Language Sentence Generation by Word Relation Pattern Learning (단어 간 관계 패턴 학습을 통한 하이퍼네트워크 기반 자연 언어 문장 생성)

  • Seok, Ho-Sik;Bootkrajang, Jakramate;Zhang, Byoung-Tak
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.3
    • /
    • pp.205-213
    • /
    • 2010
  • We introduce a natural language sentence generation (NLG) method based on learning of word-association patterns. Existing NLG methods assume the inherent grammar rules or use template based method. Contrary to the existing NLG methods, the presented method learns the words-association patterns using only the co-occurrence of words without additional information such as tagging. We employ the hypernetwork method to analyze and represent the words-association patterns. As training going on, the model complexity is increased. After completing each training phase, natural language sentences are generated using the learned hyperedges. The number of grammatically plausible sentences increases after each training phase. We confirm that the proposed method has a potential for learning grammatical properties of training corpuses by comparing the diversity of grammatical rules of training corpuses and the generated sentences.

A English Composition Level Assessment System Using Machine Learning Techniques (기계학습기법을 이용한 영어작문 문장 수준평가 시스템)

  • Eom, Jin-Hee;Kwak, Dong-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1290-1293
    • /
    • 2013
  • 본 논문은 문장 내에서 나타나는 어휘간의 관계를 통해 표현 수준을 자동으로 평가할 수 있는 시스템을 제안한다. 제안하는 방법은 영어에세이 코퍼스 내의 문장에서 발생하는 철자 및 문법의 오류와 함께 어휘와 문법 패턴에 따른 표현난이도를 평가할 수 있는 자질을 생성하고 다양한 기계학습기법을 사용하여 문장의 수준을 평가하고자 하였다. 또한 기존에 연구되어온 규칙기반의 문장 평가시스템을 구현하고 기계학습기법을 이용한 문장 평가시스템과 비교하였다. 이를 통해 철자 및 문법의 오류율뿐만 아니라 표현난이도를 평가할 수 있는 자질들이 유용함을 확인할 수 있었다. 영어작문 문장의 수준평가를 위해서 국내 학생들의 토플 에세이 코퍼스를 수집하여 2,000문장을 추출하였고, 4명의 전문평가자들을 통해 6단계로 평가하여 학습 및 테스트 세트를 구성하였다. 성능척도로는 정확률과 재현율을 사용하였으며, 제안하는 방법으로 67.3%의 정확률과 67.1%의 재현율을 보였다.

Rule-Based Temporal Information Extraction for Korean (규칙 기반 한국어 시간 정보 추출)

  • Jeong, Young-Seob;Do, Hyo-Jin;Lim, Joon-Ho;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.242-246
    • /
    • 2014
  • 웹을 비롯한 다양한 곳에서 기하급수적으로 증가하고 있는 문서들로 인해, 자연어 텍스트로부터의 지식추출의 중요성이 점차 커지고 있다. 이 연구에서는 한국어로 작성된 자연어 텍스트로부터의 시간 정보 추출을 위해 개발된 시스템을 소개하고, 직접 구축한 한국어 데이터셋에 대한 성능 분석을 제공한다. 이 시스템은 사람이 직접 작성한 규칙들에 기반하여 작동하지만, 질의응답시스템 등에 적용될 수 있는 수준의 성능으로 향상시키기 위해 기계학습 기반의 시스템으로 업그레이드하는 등의 작업을 계속할 것이다.

  • PDF

Bayesian Learning based Fuzzy Rule Extraction for Clustering (군집화를 위한 베이지안 학습 기반의 퍼지 규칙 추출)

  • 한진우;전성해;오경환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.389-391
    • /
    • 2003
  • 컴퓨터 학습의 군집화는 주어진 데이터를 서로 유사한 몇 개의 집단으로 묶는 작업을 수행한다. 군집화를 위한 유사도 결정을 위한 측도는 많은 기법들에서 매우 다양한 측도들이 사용되고 또한 연구되어 왔다. 하지만 군집화의 결과에 대한 성능측정에 대한 객관적인 기준 설정이 어렵기 때문에 군집화 결과에 대한 해석은 매우 주관적이고 애매한 경우가 많다. 퍼지 군집화는 이러한 애매한 군집화 문제에 있어서 융통성 있는 군집 결정 방안을 제시해 준다. 각 개체들이 특정 군집에 속하게 될 퍼지 멤버 함수값을 원소로 하는 유사도 행렬을 통하여 군집화를 수행한다. 본 논문에서는 베이지안 학습을 통하여 군집화를 위한 퍼지 멤버 함수값을 구하였다. 본 연구에서는 최적의 퍼지 군집화 수행을 위하여 베이지안 학습 기반의 퍼지 규칙을 추출하였다. 인공적으로 만든 데이터와 기존의 기계 학습 데이터를 이용한 실험을 통하여 제안 방법의 성능을 확인하였다.

  • PDF

Design of knowledge search algorithm for PHR based personalized health information system (PHR 기반 개인 맞춤형 건강정보 탐사 알고리즘 설계)

  • SHIN, Moon-Sun
    • Journal of Digital Convergence
    • /
    • v.15 no.4
    • /
    • pp.191-198
    • /
    • 2017
  • It is needed to support intelligent customized health information service for user convenience in PHR based Personal Health Care Service Platform. In this paper, we specify an ontology-based health data model for Personal Health Care Service Platform. We also design a knowledge search algorithm that can be used to figure out similar health record by applying machine learning and data mining techniques. Axis-based mining algorithm, which we proposed, can be performed based on axis-attributes in order to improve relevance of knowledge exploration and to provide efficient search time by reducing the size of candidate item set. And K-Nearest Neighbor algorithm is used to perform to do grouping users byaccording to the similarity of the user profile. These algorithms improves the efficiency of customized information exploration according to the user 's disease and health condition. It can be useful to apply the proposed algorithm to a process of inference in the Personal Health Care Service Platform and makes it possible to recommend customized health information to the user. It is useful for people to manage smart health care in aging society.

Machine Learning-based Multiple Fault Localization with Bayesian Probability (베이지안 확률을 적용한 기계학습 기반 다중 결함 위치 식별 기법)

  • Song, Jihyoun;Kim, Jeongho;Lee, Eunseok
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2017.01a
    • /
    • pp.151-154
    • /
    • 2017
  • 소프트웨어의 개발과정 중 결함을 제거하는 작업인 디버깅을 위해서는 가장 먼저 그 결함의 정확한 위치를 찾아야한다. 이 작업은 많은 시간이 소요되며, 이 시간을 단축시키기 위한 결함 위치 식별 기법들이 소개되었다. 많은 기법들 중 프로그램 커버리지 정보를 학습하여 규칙을 분석하는 인공신경망 기반 선행 연구가 있다. 이를 기반으로 본 논문에서는 문장들 간의 관계를 추가적으로 파악하여 학습 데이터로 사용하는 기법을 제안한다. 특정 문장이 항상 지나는 테스트케이스들 중 나머지 다른 문장들이 지나는 테스트케이스의 비율을 통해 문장들 간의 관계를 나타낸다. 해당 비율을 계산하기 위해 조건부 확률인 베이지안 확률을 사용한다. 베이지안 확률을 통해 얻은 문장들의 관계에 따라 인공신경망 내에서 의심도를 결정하는 웨이트(weight)가 기존 기법과는 다르게 학습된다. 이 차이는 문장들의 의심도를 조정하며, 결과적으로 다중 결함 위치 식별의 정확도를 향상시킨다. 본 논문에서 제안한 기법을 이용하여 실험한 결과, Tarantula 대비 평균 39.8%, 기존 역전파 인공신경망(BPNN) 기반 기법 대비 평균 60.5%의 정확도 향상이 있었음을 확인할 수 있다.

  • PDF

Information Extraction Using Context and Position (문맥과 위치정보를 사용한 정보추출)

  • Min Kyungkoo;Sun Choong-Nyoung;Seo Jungyun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.490-492
    • /
    • 2005
  • 인터넷의 발달로 전자문서가 증가함에 따라 정보추출기술의 중요성도 함께 증가하게 되었다. 정보추출 (IE)은 다양한 형태의 문서로부터 필요한 내용만을 추출하여 정형화된 형태로 저장하는 문서 처리기술이다. SIES (Sogang Information Extraction System)는 기계학습 방법과 고정밀의 수동작성 된 규칙기반의 방법론을 함께 사용하는 정보 추출시스템으로 문법에 맞지 않는 문장 등의 입력에 대해 견고한 문장분석을 위해 Lexico-Semantic Pattern (LSP)과 개체명사전(Named Entity Dictionary)를 사용하였으며, SIES의 기계학습의 성능향상을 위친 기존에 널리 사용되는 문맥점보 외에 후보단어들의 위치정보를 고려한 특성자질과 스코어링 방법을 사용하였다.

  • PDF

A Simultaneous Recognition Technology of Named Entities and Objects for a Dialogue Based Private Secretary Software (대화형 개인 비서 시스템을 위한 하이브리드 방식의 개체명 및 문장목적 동시 인식기술)

  • Lee, ChangSu;Ko, YoungJoong
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.18-23
    • /
    • 2013
  • 기존 대화시스템과 달리 대화형 개인 비서 시스템은 사용자에게 정보를 제공하기 위해 앱(APP)을 구동하는 방법을 사용한다. 사용자가 앱을 통해 정보를 얻고자 할 때, 사용자가 필요로 하는 정보를 제공해주기 위해서는 사용자의 목적을 정확하게 인식하는 작업이 필요하다. 그 작업 중 중요한 두 요소는 개체명 인식과 문장목적 인식이다. 문장목적 인식이란, 사용자의 문장을 분석해 하나의 앱에 존재하는 여러 정보 중 사용자가 원하는 정보(문장의 목적)가 무엇인지 찾아주는 인식작업이다. 이러한 인식시스템을 구축하는 방법 중 대표적인 방법은 사전규칙방법과 기계학습방법이다. 사전규칙은 사전정보와 규칙을 적용하는 방법으로, 시간이 지남에 따라 새로운 규칙을 추가해야하는 문제가 있으며, 규칙이 일반화되지 않을 경우 오류가 증가하는 문제가 있다. 또 두 인식작업을 파이프라인 방식으로 적용 할 경우, 개체명 인식단계에서의 오류를 가지고 문장목적 인식단계로 넘어가기 때문에 두 단계에 걸친 성능저하와 속도저하를 초래할 수 있다. 이러한 문제점을 해결하기 위해 우리는 통계기반의 기계학습방법인 Conditional Random Fields(CRF)를 사용한다. 또한 사전정보를 CRF와 결합함으로써, 단독으로 수행하는 CRF방식의 성능을 개선시킨다. 개체명과 문장목적인식의 구조를 분석한 결과, 비슷한 자질을 사용할 수 있다고 판단하여, 두 작업을 동시에 수행하는 방법을 제안한다. 실험결과, 사전규칙방법보다 제안한 방법이 문장단위 2.67% 성능개선을 보였다.

  • PDF

Performance Comparison of Machine Learning Algorithms for Malware Detection (악성코드 탐지를 위한 기계학습 알고리즘의 성능 비교)

  • Lee, Hyun-Jong;Heo, Jae Hyeok;Hwang, Doosung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.01a
    • /
    • pp.143-146
    • /
    • 2018
  • 서명기반 악성코드 탐지는 악성 파일의 고유 해싱 값을 사용하거나 패턴화된 공격 규칙을 이용하므로, 변형된 악성코드 탐지에 취약한 단점이 있다. 기계 학습을 적용한 악성코드 탐지는 이러한 취약점을 극복할 수 있는 방안으로 인식되고 있다. 본 논문은 정적 분석으로 n-gram과 API 특징점을 추출해 특징 벡터로 구성하여 XGBoost, k-최근접 이웃 알고리즘, 지지 벡터 기기, 신경망 알고리즘, 심층 학습 알고리즘의 일반화 성능을 비교한다. 실험 결과로 XGBoost가 일반화 성능이 99%로 가장 우수했으며 k-최근접 이웃 알고리즘이 학습 시간이 가장 적게 소요됐다. 일반화 성능과 시간 복잡도 측면에서 XGBoost가 비교 대상 알고리즘에 비해 우수한 성능을 보였다.

  • PDF

Development of the Cloud Monitoring Program using Machine Learning-based Python Module from the MAAO All-sky Camera Images (기계학습 기반의 파이썬 모듈을 이용한 밀양아리랑우주천문대 전천 영상의 운량 모니터링 프로그램 개발)

  • Gu Lim;Dohyeong Kim;Donghyun Kim;Keun-Hong Park
    • Journal of the Korean earth science society
    • /
    • v.45 no.2
    • /
    • pp.111-120
    • /
    • 2024
  • Cloud coverage is a key factor in determining whether to proceed with observations. In the past, human judgment played an important role in weather evaluation for observations. However, the development of remote and robotic observation has diminished the role of human judgment. Moreover, it is not easy to evaluate weather conditions automatically because of the diverse cloud shapes and their rapid movement. In this paper, we present the development of a cloud monitoring program by applying a machine learning-based Python module "cloudynight" on all-sky camera images obtained at Miryang Arirang Astronomical Observatory (MAAO). The machine learning model was built by training 39,996 subregions divided from 1,212 images with altitude/azimuth angles and extracting 16 feature spaces. For our training model, the F1-score from the validation samples was 0.97, indicating good performance in identifying clouds in the all-sky image. As a result, this program calculates "Cloudiness" as the ratio of the number of total subregions to the number of subregions predicted to be covered by clouds. In the robotic observation, we set a policy that allows the telescope system to halt the observation when the "Cloudiness" exceeds 0.6 during the last 30 minutes. Following this policy, we found that there were no improper halts in the telescope system due to incorrect program decisions. We expect that robotic observation with the 0.7 m telescope at MAAO can be successfully operated using the cloud monitoring program.