• 제목/요약/키워드: 규칙언어

검색결과 681건 처리시간 0.04초

통계적 결정 그래프 학습 방법을 이용한 한국어 품사 부착 오류 수정 (Korean Part-of-Speech Tagging Error Correction Method Based on Statistical Decision Graph Learning)

  • 류원호;이상주;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.123-129
    • /
    • 2001
  • 지금까지 한국어 품사 부착을 위해 다양한 모델이 제안되었고 95% 이상의 높은 정확도를 보여주고 있다. 그러나 4-5%의 오류는 실제 응용 분야에서 많은 문제를 야기시킬 수 있다. 이러한 오류를 최소화하기 위해서는 오류를 분석하고 이를 수정할 수 있는 규칙들을 학습하여 재사용하는 방범이 효과적이다. 오류 수정 규칙을 학습하기 위한 기존의 방법들은 수동학습 방법과 자동 학습 방법으로 나눌 수 있다 수동 학습 방법은 많은 비용이 요구되는 단점이 있다. 자동 학습 방법의 경우 모두 변형규칙 기반 접근 방법을 사용하였는데 어휘 정보를 고려할 경우 탐색 공간과 규칙 적용 시간이 매우 크다는 단점이 있다. 따라서 본 논문에서는 초기 모델에 대한 오류 수정 규칙을 효율적으로 학습하기 위한 새로운 방법으로 결정 트리 학습 방법을 확장한 통계적 결정 그래프 학습 방법을 제안한다. 제안된 방법으로 두 가지 실험을 수행하였다. 초기 모델의 정확도가 높고 말뭉치의 크기가 작은 첫 번째 실험의 경우 초기 모델의 정확도 95.48%를 97.37%까지 향상시킬 수 있었다. 초기 모델의 정확도가 낮고 말뭉치 크기가 큰 두 번째 실험의 경우 초기 모델의 정확도 87.22%를 95.59%로 향상시켰다. 또한 실험을 통해 결정 트리 학습 방법에 비해 통계적 결정 그래프 학습 방법이 더욱 효과적임을 알 수 있었다.

  • PDF

융합제품의 범주화과정: 규칙기반? 외형적 유사성기반? (The categorization process of convergence products: rule-based? or similarity-based?)

  • 윤철혁;편소연;김귀곤
    • 디지털융복합연구
    • /
    • 제10권11호
    • /
    • pp.279-285
    • /
    • 2012
  • 본 연구는 융합제품의 범주화과정을 규칙 기반의 범주화 과정과 외형적 유사성 기반의 범주화과정으로 분류하였다. 그리고 이러한 범주화 과정이 융합 전 두 가지 원형(prototype)의 구성요소에 대한 정보제공방식(시각적 정보 vs. 시각적 정보+언어적 정보)과 소비자의 사고방식(종합적 사고 vs. 분석적 사고)에 따라 어떻게 달라지는 지를 확인하였다. 연구결과 (1) 원형의 구성요소에 대한 정보를 달리 제공하는 경우, 시각적 정보만 제공하는 경우보다 언어적 정보를 추가적으로 제공하는 경우에 규칙 기반의 범주화 과정을 거치는 것으로 나타났다. 즉, 융합제품의 범주화과정에서 외형적 유사성보다는 공통적인 특성을 기반으로 유사성 및 범주를 판단하는 것으로 나타났다. (2) 사고방식의 경우에는 종합적 사고자보다 분석적 사고자의 경우에 규칙 기반의 범주화 과정을 거치는 것으로 나타났다. 이러한 연구결과는 융합제품이 널리 확산되고 있는 현재의 시장상황에서 소비자의 범주화과정 및 고려상표군 판단에 있어 이론적 실무적 시사점을 제공할 것으로 판단된다.

음절 정보만 이용한 한국어 복합 명사 분해 (Korean Compound Noun Decomposition Only Using Syllabic Information)

  • 박성배;장병탁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.33-39
    • /
    • 2003
  • 한국어에서는 복합 명사 생성이 매우 자유스럽다. 즉, 독립된 명사를 연속으로 붙여 쓰는 것이 가능하다. 하지만, 기계번역이나 정보 검색과 같이 복합 명사를 처리하는 시스템에서 정확한 분석을 위해서는 복합 명사를 다시 단일 명사들로 분해하는 과정이 필요하다. 본 논문에서는 한국어 복합 명사 분해를 위해 GECORAM(GEneralized Combination of Rule-based learning And Memory-based learning) 알고리듬을 제시한다. 규칙 학습 알고리듬의 장점은 생성된 학습 결과를 사람이 쉽게 이해할 수 있다는 점이지만, 다른 지도학습 알고리듬에 비해 성능이 떨어진다는 단점이 있다. 본 논문에서는 이를 위해 규칙 학습 알고리듬과 기억기반 학습을 결합하는 방법을 제시한다. 실험 결과, GECORAM 알고리듬은 규칙 기반 학습이나 기억 기반 학습을 단독으로 쓰는 경우보다 높은 정확도를 보였다.

  • PDF

N-code를 이용한 규칙 기반 침입 탐지 시스템 (Rule-Base Intrusion Detection System Using N-code)

  • 빙영태;차병래;서재현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.919-922
    • /
    • 2001
  • 최근 인터넷의 확산에 따라 여러 가지 침해사고 발생이 증가하고 있어서 시스템을 안전하게 관리하기 위한 노력들이 행해지고 있다. 본 논문에서는 NFR의 N-code언어를 이용하여 Shieh 모델의 침입패턴을 탐지할 수 있는 규칙 기반 침입 탐지를 설계 및 구현한다. 제안하는 침입 탐지는 웹 기반에서 Shieh 침입 탐지 모델을 N-code 언어로 변환하여 침입 탐지여부를 쉽게 발견한다. 그리고 다양한 규칙들을 정의하고 이를 바탕으로 하여 취약점을 보완할 수 있도록 침입 탐지 시스템을 구현한다.

  • PDF

웹 데이터 마이닝을 위한 정보 추출패턴의 기계학습 (Machine Learning of Information Extract ion Patterns for Web Data Mining)

  • 김동석;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-122
    • /
    • 2001
  • 정보추출 기법을 논의할 때 핵심 역할을 차지하는 것이 추출 패턴(규칙)을 표현하는 종류와 규칙을 만들어 내는 기계학습의 방법이다. 본 논문에서는 mDTD(modified Document Type Definition)라는 새로운 추출패턴을 제안한다. mDTD는 SGML에서 사용되는 DTD를 구문과 해석 방식을 변형하여 일반적인 HTML에서의 정보추출에 활용되도록 설계하였다. 이러한 개념은 DTD가 문서에 나타나는 객체를 지정하는 역할을 하는 것을 역으로 mDTD를 이용하여 문서에 나타는 객체를 식별하는데 사용하는 것이다. mDTD 규칙을 순차기계학습으로 확장시켜서 한국어와 영어로된 인터넷 쇼핑몰 중에서 AV(Audio and Visual product) 도메인에 적용하여 실험하였다 실험 결과로 정보추출의 평균 정확도은 한국어와 영어에 대해서 각각 91.3%와 81.9%를 얻었다.

  • PDF

규칙 기반 한국어 시간 정보 추출 (Rule-Based Temporal Information Extraction for Korean)

  • 정영섭;도효진;임준호;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.242-246
    • /
    • 2014
  • 웹을 비롯한 다양한 곳에서 기하급수적으로 증가하고 있는 문서들로 인해, 자연어 텍스트로부터의 지식추출의 중요성이 점차 커지고 있다. 이 연구에서는 한국어로 작성된 자연어 텍스트로부터의 시간 정보 추출을 위해 개발된 시스템을 소개하고, 직접 구축한 한국어 데이터셋에 대한 성능 분석을 제공한다. 이 시스템은 사람이 직접 작성한 규칙들에 기반하여 작동하지만, 질의응답시스템 등에 적용될 수 있는 수준의 성능으로 향상시키기 위해 기계학습 기반의 시스템으로 업그레이드하는 등의 작업을 계속할 것이다.

  • PDF

A Sketch of an Optimality Theoretic Account of Anaphora Resolution in Korean

  • Hong, Minpyo
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 학술대회 발표논문집
    • /
    • pp.10-38
    • /
    • 2002
  • 본고는 한국어 영형 대명사의 적절한 해석을 위해 개념적으로 전혀 새로운 이론을 제안한다. 일련의 다양한 제약들이 서로 연관되어 있음을 보인 후, 그러한 규칙의 다양성을 적절히 포착하기 위해 적절성 이론 (Optimality Theory)을 도입할 것을 제안하고, 그 토대 위에 다양한 제약들을 형식화한 후, 그 규칙들의 위계관계를 설정한다. 가장 우선순위를 갖는 제약으로 인접 요소간 어휘의미자질들이 일치해야 한다는 어휘의미제약(*Feature Mismatch)과 통사적 결속규칙을 의미론적으로 재해석한 결속원리 B(Principle B)를 선정한다. 그 다음 순위를 갖는 제약으로, 가능한 한 선행명사를 지칭하도록 요구하는 대용존중제약(DOAP: Don't Overlook Anaphoric Possibilities)과, 센터링 이론의 전이방식 개념을 도입하여 정의한 계속선호제약 (CONTINUE)을 제안한다

  • PDF

영한 기계번역에서의 복합어구 인식 (Complex Phrase Recognition in English-to-Korean Machine Translation : MATES/EK)

  • 장두성;김덕봉;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.503-510
    • /
    • 1992
  • 복합어는 여러개의 단어가 하나의 의미론 나타내는 단어를 말한다. 이 논문에서는 번역시 구성단어들의 의미의 합이 아닌 다른 또 하나의 의미를 나타내는 단어를 대상으로 한다. 이러한 복합어는 구문해석 단계에서 많은 애매성의 원인이 되며, 유형에 따라 숙어 처럼 새로운 의미로 항상 같이 쓰이는 복합어와 복합어의 형성이 복잡하여 규칙으로서 단어를 이해할 필요가 있는 단어로 구분할 수 있다. 첫번째 유형은 단어의 형성이 단순하여 하나의 사전 엔트리로 등록될 수 있다. 이때 이들 복합어가 가지는 개별 어휘 규칙을 같이 사전에 등록하여 사전을 효과적 이용할 수 있다. 두번째 유형은 규칙에 의한 처리를 하여야 한다. 이러한 복합어에 대한 인식을 구문분석이전에 행함으로서 적은 노력으로 복합어로 인한 전체 문장의 애매성을 감소시키고, 문장내 단어의 수를 감소시킴으로서 전채 번역시스템의 효율을 증대하며, 복합어의 처리는 번역문을 자연스럽게 생성하는 데 큰 효과를 나타낸다.

  • PDF

두벌식 한글 입력 방식의 정형적인 기술과 분석 (A Formal Description and Analysis of 2-beolsik Hangul Input Methods)

  • 김용묵;김국
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.27-32
    • /
    • 2016
  • 한글 입력 방식은 글쇠배열과 더불어 추가적인 낱자들을 입력하기 위한 결합 규칙이라는 형태로 정의할 수 있다. 그런데 이 규칙을 토대로 입력 방식을 실제로 구현해 보면 겹낱자를 결합하거나 음절이 바뀌는 과정에서 모호성 같은 문제가 발생할 수 있다. 초성과 종성을 문맥에 따라 구분해야 하는 두벌식, 모바일 환경처럼 매우 적은 글쇠, 수십 종류의 낱자들을 조합해야 하는 옛한글이라는 조건이 더해지면 입력 방식을 기술하고 분석하는 난이도가 더욱 높아진다. 본 논문에서는 한글 낱자의 결합 규칙을 대결합과 소결합으로 구분해서 기술하는 체계를 제안하며, 이를 토대로 입력 방식의 예상 동작을 분석해 주는 프로그램을 소개하였다. 그리고 모바일용 삼성 천지인과 KT 나랏글 한글 입력 방식을 동일 프로그램으로 기술하고 분석한 결과를 제시하였다.

  • PDF

한국어 문서에서 개체명 인식에 관한 연구 (Study on Named Entity Recognition in Korean Text)

  • 이경희;이주호;최명석;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.292-299
    • /
    • 2000
  • 본 논문에서는 개체명 사전과 결합 단어 사전, 그리고 용언의 하위범주화 사전을 이용하는 규칙 기반의 한국어 개체명 인식 방법을 제안한다. 각 규칙은 네 단계로 나누어 적용되는데, 첫번째 단계에서는 어절 내의 단어 정보를, 두번째 단계에서는 제한된 주변 문맥 정보를, 그리고 세번째 단계에서는 용언의 하위범주화 정보와 개체명과의 관계를 이응하고, 마지막으로 네번째 단계에서는 개체명 간의 관계 정보를 고려한다. 본 논문에서 제안한 규칙 기반 개체명 인식기의 성능을 평가하기 위해 실험한 결과 90.4%의 정화률과 83.4%의 재현율을 얻었다.

  • PDF