• Title/Summary/Keyword: 규칙 기반 모델

Search Result 610, Processing Time 0.029 seconds

Mention Detection using Pointer Networks (포인터 네트워크를 이용한 멘션탐지)

  • Park, Cheoneum;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.152-156
    • /
    • 2016
  • 멘션(mention)은 명사 또는 명사구를 중심어로 가지며, 수식어를 포함하여 어떤 의미를 정의하는 구(chunk)를 구성한다. 문장 내에서 멘션을 추출하는 것을 멘션탐지라 한다. 멘션들 중에서 서로 같은 의미의 멘션들을 찾아내는 것을 상호참조해결이라 한다. 포인터 네트워크는 RNN encoder-decoder 모델을 기반으로, 주어진 입력 열에 대응되는 위치를 출력 결과로 갖는 모델이다. 본 논문에서는 멘션탐지에 포인터 네트워크를 이용할 것을 제안한다. 멘션탐지에 포인터 네트워크를 적용하면 기존의 sequence labeling 문제로는 해결할 수 없었던 중첩된 멘션탐지 문제를 해결할 수 있다. 실험 결과, 본 논문에서 제안한 멘션탐지의 성능이 규칙기반 보다 8%이상 높은 F1 80.75%를 보였으며, 이를 이용한 상호참조해결 성능이 CoNLL F1 52.69%로 규칙기반 멘션탐지를 이용한 상호참조해결에 비하여 2.29% 더 좋은 성능을 보였다.

  • PDF

A Study of RTLS Application using Active RFID (액티브 RFID를 활용한 RTLS 응용에 관한 연구)

  • Ahn, yoon-ae;Cho, han-jin
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2011.05a
    • /
    • pp.555-556
    • /
    • 2011
  • 액티브 RFID를 기반으로 실시간 위치정보 서비스를 구현하는 모델인 RTLS는 보안, 의료, 건설, 항공, 항만, 운송, 국방, 교통, 레저 등 실시간 위치정보가 필요한 분야에 효과적으로 활용되고 있다. 이 논문에서는 RTLS 응용 시스템을 위한 지능형 위치정보 관리시스템을 제안한다. 제안 시스템은 일반적인 데이터 관리의 기능 이외에도 상황인식 시스템에서 사용되는 규칙기반 미들웨어 Jess(Java expert system shell)를 활용하는 구조를 가진다. 규칙을 이용한 추론 기능을 도입함으로써 응용 시스템의 정확성을 높일 수 있는 특징을 가진다.

  • PDF

Advanced detection of sentence boundaries based on hybrid method (하이브리드 방법을 이용한 개선된 문장경계인식)

  • Lee, Chung-Hee;Jang, Myung-Gil;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.61-66
    • /
    • 2009
  • 본 논문은 다양한 형태의 웹 문서에 적용하기 위해서, 언어의 통계정보 및 후처리 규칙에 기반 하여 개선된 문장경계 인식 기술을 제안한다. 제안한 방법은 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 문서에 적용하기 위해서 문장경계로 사용될 수 있는 모든 음절을 대상으로 학습하여 문장경계 인식을 수행하였고, 문장경계인식 성능을 최대화 하기 위해서 다양한 실험을 통해 최적의 자질 및 학습데이터를 선정하였고, 다양한 기계학습 기반 분류 모델을 비교하여 최적의 분류모델을 선택하였으며, 학습데이터에 의존적인 통계모델의 오류를 규칙에 기반 해서 보정하였다. 성능 실험은 다양한 형태의 문서별 성능 측정을 위해서 문어체와 구어체가 복합적으로 사용된 신문기사와 블로그 문서(평가셋1), 문어체 위주로 구성된 세종말뭉치와 백과사전 본문(평가셋2), 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 사이트의 게시판 글(평가셋3)을 대상으로 성능 측정을 하였다. 성능척도로는 F-measure를 사용하였으며, 구두점만을 대상으로 문장경계 인식 성능을 평가한 결과, 평가셋1에서는 96.5%, 평가셋2에서는 99.4%를 보였는데, 구어체의 문장경계인식이 더 어려움을 알 수 있었다. 평가셋1의 경우에도 규칙으로 후처리한 경우 정확률이 92.1%에서 99.4%로 올라갔으며, 이를 통해 후처리 규칙의 필요성을 알 수 있었다. 최종 성능평가로는 구두점만을 대상으로 학습된 기본 엔진과 모든 문장경계후보를 인식하도록 개선된 엔진을 평가셋3을 사용하여 비교 평가하였고, 기본 엔진(61.1%)에 비해서 개선된 엔진이 32.0% 성능 향상이 있음을 확인함으로써 제안한 방법이 웹 문서에 효과적임을 입증하였다.

  • PDF

Korean Morphological Analyzer and POS Tagger Just Using Finite-State Transducers (유한상태변환기만을 이용한 한국어 형태소 분석 및 품사 태깅)

  • Park, Won-Byeong;Kim, Jae-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.165-168
    • /
    • 2006
  • 이 논문은 유한상태변환기만을 이용하여 한국어 형태소 분석 및 품사 태깅 시스템을 제안한다. 기존의 한국어 형태소 분석 시스템들은 규칙기반 형태소 분석기가 주를 이루고 한국어 품사 태깅 시스템은 은닉마르코프 모델 기반 품사 태깅이 주를 이루었다. 한국어 형태소 분석의 경우 유한상태변환기를 이용한 경우도 있었으나, 이 방법은 변환기를 작성하기 위한 규칙을 수작업으로 구축해야 하며, 그 규칙에 따라서 사전이 작성되어야 한다. 이 논문에서는 품사 태깅 말뭉치를 이용해서 유한상태변환기에서 필요한 모든 변환 규칙을 자동으로 추출한다. 이런 방법으로 네 종류의 변환기, 즉, 자소분리변환기, 단어분리변환기, 단어형성변환기, 품사결정변환기를 자동으로 구축한다. 구축된 변환기들은 결합연산(composition operation)을 이용하여 하나의 유한상태변환기를 구성하여 한국어 형태소 분석과 동시에 한국어 품사 태깅을 수행한다. 이 방법은 하나의 유한상태변환기만을 이용하기 때문에 복잡도는 선형시간(linear complexity)을 가지면, 형태소 분석기와 품사 태깅 시스템을 매우 짧은 시간 내에 개발 할 수 있었다.

  • PDF

Advanced Rule Pattern Generation Method for False Positive Reduction on Intrusion Detection System (침입탐지시스템에서 False Positive 감소를 위한 탐지규칙 패턴 생성 기법)

  • Lee, Suk-Won;Lee, Taek-Kyu;Choi, Myeong-Ryeol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.380-383
    • /
    • 2015
  • 오용 탐지모델 기반의 침입탐지시스템은 새로운 사이버 공격을 탐지하기 위해 지속적으로 탐지규칙을 생성해야 한다. 공격에 대한 특징을 정확히 식별하지 못하고 탐지규칙을 생성할 경우 많은 false positive를 발생시키며, 이로 인해 침해사고 대응시간이 늦어진다. 본 논문에서는 침입탐지시스템에서 탐지된 이벤트의 true positive와 false positive 데이터를 Keyword Tree의 node에 경로를 지나가는 횟수를 누적하는 값을 포함시킨 자료구조를 기반으로 비교분석하여 false positive를 감소시킬 수 있는 탐지규칙 패턴 생성 기법을 제안한다.

EM Algorithm based Neuro-Fuzzy Modeling (EM알고리즘을 기반으로 한 뉴로-퍼지 모델링)

  • Kim, Seoung-Suk;Jun, Beung-Suk;Kim, Ju-Sik;Ryu, Jeoung-Woong
    • Proceedings of the KIEE Conference
    • /
    • 2002.07d
    • /
    • pp.2846-2849
    • /
    • 2002
  • 본 논문은 뉴로-퍼지 시스템에서의 규칙 선택 및 모델 학술에 대하여 EM 알고리즘을 기반으로 하는 구조 동정을 제안한다. 뉴로-퍼지 모델링에서의 초기 파라미터가 학습과정에서의 모델 성능에 큰 영향을 주고 있다. 주어진 데이터에 근거한 파라미터 추정에는 다양한 방법들이 소개되고 응용되어져 왔는데 이전 연구들에서 볼 수 있는 HCM, FCM 등은 데이터와의 유클리디언 거리를 최소화하는 중심점을 파라미터로 선택하는 등의 방법과 퍼지 균등화 등은 데이터의 확률 밀도함수를 이용하여 파라미터를 추정하였다. 제안된 방법에서는 데이터에서의 Maximum Likelihood Estimator를 기반으로 하는 방법으로 EM 알고리즘을 이용하였다. 초기 파라미터의 결정에서 EM 알고리즘을 이용하여 뉴로-퍼지 모델의 전제부 소속함수 파라미터 추정을 실시한다. EM 알고리즘을 이용한 퍼지 모델의 특징으로는 전제부가 클러스터링에 의하여 생성되므로 입력의 차원이나 소속함수의 수가 증가하여도 규칙의 수는 증가하지 않는다. 이를 자동차 MPG 예제를 통하여 제안된 방법의 유용성을 보이고자 한다.

  • PDF

Enhancing Korean Alphabet Unit Speech Recognition with Neural Network-Based Alphabet Merging Methodology (한국어 자모단위 음성인식 결과 후보정을 위한 신경망 기반 자모 병합 방법론)

  • Solee Im;Wonjun Lee;Gary Geunbae Lee;Yunsu Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.659-663
    • /
    • 2023
  • 이 논문은 한국어 음성인식 성능을 개선하고자 기존 음성인식 과정을 자모단위 음성인식 모델과 신경망 기반 자모 병합 모델 총 두 단계로 구성하였다. 한국어는 조합어 특성상 음성 인식에 필요한 음절 단위가 약 2900자에 이른다. 이는 학습 데이터셋에 자주 등장하지 않는 음절에 대해서 음성인식 성능을 저하시키고, 학습 비용을 높이는 단점이 있다. 이를 개선하고자 음절 단위의 인식이 아닌 51가지 자모 단위(ㄱ-ㅎ, ㅏ-ㅞ)의 음성인식을 수행한 후 자모 단위 인식 결과를 음절단위의 한글로 병합하는 과정을 수행할 수 있다[1]. 자모단위 인식결과는 초성, 중성, 종성을 고려하면 규칙 기반의 병합이 가능하다. 하지만 음성인식 결과에 잘못인식된 자모가 포함되어 있다면 최종 병합 결과에 오류를 생성하고 만다. 이를 해결하고자 신경망 기반의 자모 병합 모델을 제시한다. 자모 병합 모델은 분리되어 있는 자모단위의 입력을 완성된 한글 문장으로 변환하는 작업을 수행하고, 이 과정에서 음성인식 결과로 잘못인식된 자모에 대해서도 올바른 한글 문장으로 변환하는 오류 수정이 가능하다. 본 연구는 한국어 음성인식 말뭉치 KsponSpeech를 활용하여 실험을 진행하였고, 음성인식 모델로 Wav2Vec2.0 모델을 활용하였다. 기존 규칙 기반의 자모 병합 방법에 비해 제시하는 자모 병합 모델이 상대적 음절단위오류율(Character Error Rate, CER) 17.2% 와 단어단위오류율(Word Error Rate, WER) 13.1% 향상을 확인할 수 있었다.

  • PDF

An Automatic Korean Word Spacing System for Devices with Low Computing Power (저사양 기기를 위한 한국어 자동 띄어쓰기 시스템)

  • Song, Yeong-Kil;Kim, Hark-Soo
    • The KIPS Transactions:PartB
    • /
    • v.16B no.4
    • /
    • pp.333-340
    • /
    • 2009
  • Most of the previous automatic word spacing systems are not suitable to use for mobile devices with relatively low computing powers because they require many system resources. We propose an automatic word spacing system that requires reasonable memory usage and simple numerical computations for mobile devices with low computing powers. The proposed system is a two step model that consists of a statistical system and a rule-based system. To reduce the memory usage, the statistical system first corrects word spacing errors by using a modified hidden Markov model based on character unigrams. Then, to increase the accuracy, the rule-based system re-corrects miscorrected word spaces by using lexical rules based on character bigrams or more. In the experiments, the proposed system showed relatively high accuracy of 94.14% in spite of small memory usage of about 1MB.

Real-time Data Mining application Model In Electronic Commerce (전자상거래 상에서의 실시간 데이터 마이닝 활용 모델)

  • Kim, Ko-Eun;Ok, Jee-Woong;Kim, Ung-Mo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10c
    • /
    • pp.155-158
    • /
    • 2007
  • 현재 전자상거래는 우리의 생활과 밀접히 연관되어 있다. 최근 인터넷을 기반으로 전자조달, 수출입 브로커 등과 같은 유형의 B2B 전자상거래가 활발히 이루어지고 있으며, 소비자를 대상으로 하는 전자상거래 또한 점차 확산되는 시장을 형성하고 있다. 국제적으로도 전자상거래 시장 규모가 급속도로 증가할 것이라는 전망은 자명한 사실이다. 전자상거래에 대한 의존도가 높아지면서 관리해야 하는 데이터의 양 또한 급속도로 증가하고 있다. 본 논문에서는 실시간으로 유입되는 데이터를 효율적으로 활용하기 위챈 실시간 데이터 마이닝 활용 모델을 제안한다. 이 실시간 데이터 마이닝 모델은 지속적으로 유입되는 데이터의 규칙화를 통해 저장 공간의 효율성을 극대화하고 중요도 분석을 통한 총체적인 접근 방법을 시도함으로써 전자상거래 상에서 유용하게 쓰일 수 있는 활용 모델이다. 이 실시간 데이터 마이닝 모델의 바탕은 데이터 마이닝의 기법인 SEMMA를 따르며, 그 특징에 따라 규칙 추출과 의사 결정 나무 기법을 이용하여 전자상거래 상에서 유용하게 사용될 수 있는 모델을 제시하고자 한다.

  • PDF

A Transforming Method between Extended Entity-relationship Model and Object-relational Database using Triple graph grammer (트리플 그래프 문법을 사용한 확장 개체-관계 모델과 객체-관계 모델간의 변환 방법)

  • Nhung, Nguyen Thi;Song, Sang-Geun;Shin, Jung-Hoon;Lee, Sang-Jun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.78-80
    • /
    • 2012
  • 개체 관계(ER) 모델과 확장 개체 관계(EER) 모델은 개념적 데이터베이스 설계분야에서 가장 많이 사용되는 모델이다. 확장 개체 관계 모델은 여전히 객체지향 데이터베이스를 처리하는데 강력하나 최신 객체관계 데이터베이스와 UML과 같은 새로운 데이터베이스 모델링을 처리하기에는 부족함이 많다. 따라서 본 논문에서는 이러한 객체 관계 데이터베이스를 지원하기 위한 확장 개체 관계 기반의 변환 방법을 제안한다. 변환 규칙은 트리플 그래프 문법을 사용하여 정의하고 MOFRON TGG 에디터를 이용하여 표현한다. 트리플 그래프 문법 규칙에 따라 본 제안 방법은 자동 ORDB 개발 프레임워크에 적용할 수 있다.