• 제목/요약/키워드: 규칙 자동 구축

검색결과 132건 처리시간 0.037초

자동요약시스템 구축에 대한 연구 - 웹 상의 보도기사를 중심으로 - (A Study on the Construction of the Automatic Summaries - on the basis of Straight News in the Web -)

  • 이태영
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.41-67
    • /
    • 2006
  • 웹의 보도기사에 관한 자동요약시스템을 구축하기 위하여 담화구조와 지식기반 기법을 적용한 글구조 프레임과 제 규칙들을 작성하였다. 프레임에는 문단과 문장 및 절의 역할, 문단과 문장의 성질, 역할을 구분하는 판별규칙, 주요문장 발췌규칙, 그리고 요약문 작성규칙 슬롯이 포함되었다. 문맥정의, 고유명사 등을 안내하는 'if-needed'와 변화된 슬롯 값을 알려주는 if-changed 패싯도 구비되었다. 슬롯이나 패싯의 실제 값들을 추출 표현하는 과정에서 문구의 수사적 역할과 단어 최상위 범주 및 줄거리 단위를 참조하였다. 의미흐름의 연결성을 유지하면서 요약 문장들을 통합, 분리, 합성하는 재구성은 유사도공식, 구문정보, 담화구조와 지식기반 방법에서 도출한 제 규칙 및 문맥정의를 이용하였고 비평과 같은 새로운 문장을 생성하였다.

데이터 마이닝 기법을 이용한 XML 문서의 온톨로지 반자동 생성 (Semi-Automatic Ontology Generation about XML Documents using Data Mining Method)

  • 구미숙;황정희;류근호;홍장의
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.299-308
    • /
    • 2006
  • 최근 웹 문서를 비롯한 공공 문서 등에 대한 문서 교환을 위해 XML 데이터를 이용한 표준화 작업이 진행 중이므로 XML 문서가 증가하고 있다. 이와 같은 XML 문서에 대한 정보 검색의 효율을 높이기 위해 의미적 요소를 추가한 온톨로지를 기반으로 하는 시맨틱 웹이 등장하였다. 그러나 기존의 수동적인 온톨로지 구축 방식은 비용과 시간이 많이 소모되는 단점이 있으므로 이 논문에서는 유사한 도메인의 XML문서 집합으로부터 데이터 마이닝 기법의 연관규칙 알고리즘을 이용하여 반자동으로 온톨로지를 구축하는 방법을 제안한다. 제안한 방법은 특정한 도메인에 대한 온톨로지를 구축하기 위해서 필요한 데이터의 형태 및 개념 레벨, 그리고 얼마나 많은 개념을 사용할 것인가 하는 도메인 범위의 자동 설정을 온톨로지 자동 생성을 위한 온톨로지 도메인 레벨을 결정하기 위해서 데이터 마이닝 알고리즘을 이용한다. XML 문서의 태그에 대해 연관규칙을 적용하여 빈발하게 발생하는 빈발 패턴을 찾아내고, 서로 관련 있는 개념의 쌍을 추출하여 온톨로지 자동 생성을 위한 도메인 범위를 설정한다. 온톨로지 구축은 온톨로지 언어중의 하나인 XML Topic Maps와 공개 소스인 토픽법 엔진인 TM4J를 이용하여 온톨로지 기반의 시맨틱 웹 엔진을 구현하였다.

Chain-of-Thought와 Program-aided Language Models을 이용한 전제-가설-라벨 삼중항 자동 생성 (Generating Premise-Hypothesis-Label Triplet Using Chain-of-Thought and Program-aided Language Models)

  • 조희진;이창기;배경만
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.352-357
    • /
    • 2023
  • 자연어 추론은 두 문장(전제, 가설)간의 관계를 이해하고 추론하여 함의, 모순, 중립 세 가지 범주로 분류하며, 전제-가설-라벨(PHL) 데이터셋을 활용하여 자연어 추론 모델을 학습한다. 그러나, 새로운 도메인에 자연어 추론을 적용할 경우 학습 데이터가 존재하지 않거나 이를 구축하는 데 많은 시간과 자원이 필요하다는 문제가 있다. 본 논문에서는 자연어 추론을 위한 학습 데이터인 전제-가설-라벨 삼중항을 자동 생성하기 위해 [1]에서 제안한 문장 변환 규칙 대신에 거대 언어 모델과 Chain-of-Thought(CoT), Program-aided Language Models(PaL) 등의 프롬프팅(Prompting) 방법을 이용하여 전제-가설-라벨 삼중항을 자동으로 생성하는 방법을 제안한다. 실험 결과, CoT와 PaL 프롬프팅 방법으로 자동 생성된 데이터의 품질이 기존 규칙이나 기본 프롬프팅 방법보다 더 우수하였다.

  • PDF

예제기반 한국어 표준 산업/직업 코드 분류 (An Example-based Korean Standard Industrial and Occupational Code Classification)

  • 임희석
    • 한국산학기술학회논문지
    • /
    • 제7권4호
    • /
    • pp.594-601
    • /
    • 2006
  • 통계청에서 실시하는 통계 조사에는 한국 표준 산업/직업 분류 코드를 작성하는 작업이 많이 포함되는데, 현재 대부분의 코드 분류 작업은 수작업으로 이루어지고 있으며, 이로 인하여 막대한 노동력과 비용이 소모되고 작업결과의 일관성을 유지하기 어렵다는 문제점이 있다. 본 논문은 수동 코드 분류 규칙과 예제기반의 자동 학습을 이용하는 한국어 표준 산업/직업 코드 자동 분류 시스템을 제안한다. 제안된 시스템은 산업과 직업에 대하여 설명하는 자 연어를 입력받아 해당 산업/직업 분류 코드를 생성하는 시스템으로 수작업으로 구축된 규칙을 적용한 후 규칙이 적용되지 않는 레코드는 예제 기반의 학습을 이용한 자동 분류 시스템에 의해서 해당 코드를 할당한다. 수작업 규칙 260여개와 40만여개의 예제를 이용하여 학습한 시스템에 대하여 실험한 결과 제안한 시스템은 직업 코드 분류에서 76.69% 그리고 산업 코드 분류에서는 99.68%의 정확도를 보였다.

  • PDF

언어 유형론에 기반한 다국어 공용 번역지식의 구축 (A Construction of Multilingual Linguistic Translation Knowledge based on the Language Typology)

  • 최승권;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.243-248
    • /
    • 1997
  • 본 논문은 다국어 자동번역시스템에서 다국어의 번역지식(사전,규칙,정보)구축을 위해 언어유형론을 도입하는 방법론을 제안한다. 다국어 번역지식의 구축과 관련하여 기존 다국어 자동번역 시스템들에서 항상 문제가 되고 있는 것은 번역지식의 구축, 관리, 재활용의 문제이다. 번역지식의 구축은 다국어를 위한 번역지식의 크기, 다국어의 수용정도와 관련되며, 번역지식의 관리는 번역지식의 단순화 정도와 관련되며, 번역지식의 재활용은 기존에 구축된 번역지식을 새로운 언어들에 재사용 정도와 관련된다. 이러한 문제점들을 해결하기 위해 본 논문에서는 한국어를 포함한 다국어의 언어 친족성에 따라 번역지식을 공유하도록 하는 언어유형론에 기반한 다국어 공용 번역지식 구축 방법론을 제안하고자 한다.

  • PDF

품사태그부착 코퍼스 구축을 위한 한국어 품사태깅 워크벤치 (The Korean Part-of-speech Tagging Workbench for Tagged Corpus Construction)

  • 박영찬;김남일;허욱;남기춘;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.94-101
    • /
    • 1997
  • 한국어의 언어분석을 위한 가공코퍼스의 하나인 품사부착 코퍼스는 형태소 언어분석의 기초가 되는 자료로서 각종 언어분석 모델의 학습자료와 관측자료 또는 검증자료로서 중요한 역할을 한다. 품사부착 코퍼스의 구축은 많은 노력과 시간이 요구되는 어려운 작업이다. 기존의 구축방법은 자동 태거의 결과를 일일이 사람이 확인해 가면 오류를 발견하고 수정하는 단순 작업이었다. 이러한 단순 작업은 한번 수정된 자동태거의 반복적 오류, 미등록어에 의한 오류 들을 계속적으로 수정해야하는 비효율성을 내포하고 있었다. 본 논문에서는 HMM기반의 자동 태거를 사용하여 1차적으로 한국어 문서를 자동 태깅한다. 자동 태깅 결과로부터 규칙기반의 오류 수정을 추가적으로 행한다. 이렇게 구축된 결과를 사용자에게 제시하여 최종 오류를 수정하고 이를 앞으로의 태깅작업에 반영하는 품사부착 워크벤치에 대해 기술한다.

  • PDF

모바일 환경을 고려한 규칙기반 음성인식 오류교정 (Rule-based Speech Recognition Error Correction for Mobile Environment)

  • 김진형;박소영
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권10호
    • /
    • pp.25-33
    • /
    • 2012
  • 본 논문에서는 모바일 환경에서 음성인식한 결과에 포함된 오류를 교정하는 규칙기반 접근방법을 제안한다. 제안하는 방법은 처리시간이나 메모리에 제약을 받는 모바일 환경을 고려하여 다음과 같이 구성된다. 오류 교정 속도를 최소화하기 위해서, 음절 해체 및 조합 과정이나 형태소 분석 등의 처리를 줄이고, 최장일치 규칙 선택기준을 바탕으로 오류 발생 추정 지점에서 교정 후보도 하나만 생성한다. 제안하는 방법은 메모리를 효율적으로 사용하기 위해서, 어절사전이나 형태소분석기를 사용하지 않고, 규칙도 유형별로 따로 구분하지 않고 통합하여 저장한다. 제안하는 방법은 모델의 수정 및 유지보수가 용이하도록, 오류교정규칙을 학습말뭉치에서 자동으로 추출하여 구축한다. 실험결과 제안하는 방법은 음성인식 결과에 대하여 정확률을 5.27% 정도 재현율을 5.60% 정도 개선하였다.

조어 중심적 주제어간 관계 추출 및 분석 (Analyzing and Extracting Relations between Topic Keywords Based on Word Formation)

  • 정한민;이미경;성원경
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2008년도 정기학술대회
    • /
    • pp.166-171
    • /
    • 2008
  • 본 연구는 기존에 잘 알려지고 널리 사용되고 있는 어휘 의미망이나 시소러스를 활용하기 어려운 과학 기술 분야, 특히 IT 분야에서 대용량 용어간 관계를 빠른 시간 내에 구축하여 검색 브라우징, 내비게이션 용도로 활용하는 것을 목표로 한다. 시소러스 구축 절차를 따르는 경우에 분야 전문가에 의한 정교한 작업과 고비용을 필요로 하여 충분한 구축 크기를 확보하는 것에 현실적인 어려움이 있다. 시소러스 자동 구축 방법론을 사용하는 경우에도 해당 용어들이 출현하는 방대한 말뭉치를 확보해야 하며 관계 구축 결과에 대한 직관적 이해가 쉽지 않다는 단점이 있다. 본 연구는 해외 학술 논문 말뭉치와 메타데이터에서 획득한 37만 여 주제어들을 이용하여 상 하위 관계, 관련어, 형제 관계를 추출하기 위해 조어적 기준에 근거한 규칙들을 이용한다. 이들 규칙을 이용하여 추출한 관계 수는 상 하위 관계 60여 만 개, 관련어 640여 만 개, 형제 관계 2,000여 만 개 등이다. 또한, 추출 결과 중 일부를 수작업으로 분석하여 단순한 추출 규칙에서 발생하는 오류 유형을 찾아내고 향후 과제에서 해결할 수 있는 방안에 대해 논하자고 한다.

  • PDF

온톨로지 기반 재난 전조 정보 분석 기술 연구 (A Study of the Disaster Sign Data Analysis Technologies Based on Ontology)

  • 이창열;김태환
    • 한국재난정보학회 논문집
    • /
    • 제7권3호
    • /
    • pp.220-228
    • /
    • 2011
  • 재난전조정보란 웹으로부터 재난이 예상되는 정보를 자동으로 수집하거나, 관련자가 재난전조정보 사이트의 신고를 통하여 제공하는 데이터에 대하여 자동 또는 수동으로 확인을 거친 정보이다. 이렇게 수집된 데이터에 대하여 자동으로 분석 정보를 제공하는 기술에 연구의 초점을 맞추었다. 정보를 분석하기 위하여 가장 대표적인 재난 유형 4가지(교량, 공사장, 건축물, 축대 및 옹벽)에 대하여 온톨로지 구조를 정의하였다. 온톨로지 구조에 따라 과거 유사 사례 DB를 구축하였으며, 해당 사례로부터 재난 발생에 대한 규칙을 도출하고, 규칙 사이에 가중치 적용을 통하여 규칙 정보를 일반화하였다. 도출된 규칙은 재난 전조 정보에 적용하였으며, 규칙의 가중치를 통하여 해당 정보를 점수화 하였다. 본 연구에서 제시하는 방법에 대하여 실제적인 구현을 통하여 실용성을 검증하였다. 재난 전조정보에 대한 점수는 사건 사례의 품질에 의존적이기 때문에, 시스템의 성능은 데이터 업그레이드에 따라 계속 증가할 것이다. 또한 규칙에 대한 지속적인 품질 보정이 필요할 것이다.

문틀기반 영한 자동번역 시스템 (Sentence-Frame based English-to-Korean Machine Translation)

  • 최승권;서광준;김영길;서영애;노윤형;이현근
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.323-328
    • /
    • 2000
  • 국내에서 영한 자동번역 시스템을 1985 년부터 개발한 지 벌써 15년이 흐르고 있다. 15년의 영한 자동번역 기술개발에도 불구하고 아직도 영한 자동번역 시스템의 번역품질은 40%를 넘지 못하고 있다. 이렇게 번역품질이 낮은 이유는 다음과 같이 요약할 수 있을 것이다. $\textbullet$ 입력문에 대해 파싱할 때 오른쪽 경계를 잘못 인식함으로써 구조적 모호성의 발생문제: 예를 들어 등위 접속절에서 오른쪽 등위절이 등위 접속절에 포함되는 지의 모호성. $\textbullet$ 번역 단위로써 전체 문장을 대상으로 한 번역패턴이 아닌 구나 절과 같은 부분적인 번역패턴으로 인한 문장 전체의 번역 결과 발생. $\textbullet$ 점차 증가하는 대용량 번역지식의 구축과 관련해 새로 구축되는 번역 지식과 기구축된 대용량 번역지식들 간의 상호 충돌로 인한 번역 품질의 저하. 이러한 심각한 원인들을 극복하기 위해 본 논문에서는 문틀에 기반한 새로운 영한 자동번역 방법론을 소개하고자 한다. 이 문틀에 기반한 영한 자동번역 방법론은 현재 CNN 뉴스 방송 자막을 대상으로 한 영한 자동번역 시스템에서 실제 활용되고 있다. 이 방법론은 기본적으로 data-driven 방법론에 속한다. 문틀기반 자동번역 방법론은 규칙기반 자동번역 방법론보다는 낮은 단계에서 예제 기반 자동번역 방법론 보다는 높은 단계에서 번역을 하는 번역방법론이다. 이 방법론은 영한 자동번역에 뿐만 아니라 다른 언어쌍의 번역에서도 적용할 수 있을 것이다.

  • PDF