• 제목/요약/키워드: 규칙 선택

검색결과 483건 처리시간 0.029초

규칙의 일반화와 통계 방식을 결합한 한국어 문맥의존 철자오류 교정규칙의 재현율 향상 (Improving Recall for Context-Sensitive Spelling Correction Rules by Combining Rule-Generalization and Statistical Method)

  • 최현수;권혁철;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-23
    • /
    • 2014
  • 한국어 맞춤법 검사기는 전자화된 한국어 텍스트에 나타난 오류어를 검색하여 이를 교정할 대치어를 제시하는 시스템이다. 이때 오류어의 유형은 크게 단순 철자오류와 문맥의존 철자오류로 구분할 수 있다. 이중 문맥의존 철자오류는 어절(word)단위로 봤을 때는 정확하지만, 문맥을 고려하였을 때 오류가 되는 유형으로 교정 난도가 매우 높다. 문맥의존 철자오류의 교정 방법은 크게 규칙을 이용한 방법과 통계 정보에 기반을 둔 방법으로 나뉜다. 이때 규칙을 이용한 방법은 그 특성상 정확도가 매우 높지만, 반대로 재현율이 매우 낮다. 본 논문에서는 본 연구진이 기존에 연구하였던 규칙을 일반화하는 방식에 추가로 조건부 확률을 이용한 통계 방식을 결합하여 정확도를 유지하면서 재현율을 향상시키는 방법을 제안한다.

  • PDF

한국어 로마자 변환기 개발에 관한 연구 (Development of Romanization System of Korean)

  • 윤방원;정태충
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.378-380
    • /
    • 2000
  • 본 논문은 한국어 로마자의 표준안 확립을 위하 로마자 변환 테이블을 정리 및 종합하고 이를 실제 변환기로 개발하는데 필요한 과정에 대해 기술하였다. 테이블 구성을 위해 국어의 표준 발음의 전체 구성을 분석하고, 불필요한 규칙이 있거나 없을 경우의 규칙을 추가, 삭제하여, 상충이 있을 경우 우선 순위에 의해 규칙을 선택하여 규칙을 수정하여 적용하였다. 이렇게 생성된 표준 발음 테이블은 한글을 받아 적용한 수 표기별 자음과 모음의 테이블을 통해 로마자로 변환한다. 일관성 없는 규칙, 표준화의 설득력 및 홍보의 미숙등과 같은 과제로 활용의 예가 적었던 한국어 로마자 변환기는 공공기관의 지명 및 문화재 로마자의 표준화 등에 사용될 수 있으며, 인터넷을 통한 웹 로마자 사전 제작을 통하여 표준화의 문제에 가장 중요한 객관적인 지표로서 활용될 수 있다.[3]

  • PDF

클래스 영역의 다차원 구 생성에 의한 프로토타입 기반 분류 (Prototype based Classification by Generating Multidimensional Spheres per Class Area)

  • 심세용;황두성
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.21-28
    • /
    • 2015
  • 본 논문에서는 최근접 이웃 규칙을 이용한 프로토타입 선택 기반 분류 학습을 제안하였다. 각 훈련 데이터가 대표하는 클래스 영역을 구(sphere)로 분할하는데 최근접 이웃 규칙을 적용시키며, 구의 내부는 동일 클래스 데이터들만 포함하도록 한다. 프로토타입은 구의 중심점이며 프로토타입의 반지름은 가장 인접한 다른 클래스 데이터와 가장 먼 동일 클래스 데이터의 중간 거리 값으로 결정한다. 그리고 전체 훈련 데이터를 대표하는 최소의 프로토타입 집합을 선택하기 위해 집합 덮개 최적화를 이용하여 프로토타입 선택 문제를 변형시켰다. 제안하는 프로토타입 선택 방법은 클래스 별 적용이 가능한 그리디 알고리즘으로 설계되었다. 제안하는 방법은 계산 복잡도가 높지 않으며, 대규모 훈련 데이터에 대한 병렬처리의 가능성이 높다. 프로토타입 기반 분류 학습은 선택된 프로토타입 집합을 새로운 훈련 데이터 집합으로 사용하고 최근접 이웃 규칙을 적용하여 테스트 데이터의 클래스를 예측한다. 실험에서 제안하는 프로토타입 기반 분류기는 최근접 이웃 학습, 베이지안 분류 학습과 다른 프로토타입 분류기에 비해 일반화 성능이 우수하였다.

연속형 자료에 대한 나무형 군집화

  • 허명희;양경숙
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 춘계 학술발표회 논문집
    • /
    • pp.49-51
    • /
    • 2005
  • 본 연구는 반복분할(recursive partitioning)에 의한 군집화 방법을 제안하고 활용 예를 제시한다. 이 방법은 나무 형태의 해석하기 쉬운 단순한 규칙을 제공하면서 동시에 변수선택기능을 제공한다.

  • PDF

비규칙 종속성을 가진 루프의 확장된 세지역 분할 방법 (Extended Three Region Partitioning Method of Loops with Irregular Dependences)

  • 정삼진
    • 한국융합학회논문지
    • /
    • 제6권3호
    • /
    • pp.51-57
    • /
    • 2015
  • 본 논문은 비규칙 종속성을 가진 내포된 루프의 수행 속도를 향상시키기 위해서 Extended Three Region Partitioning Method 라는 효과적인 루프 분할 방법에 대해서 연구하였다. 본 논문에서 제안된 루프 분할 방법은 변수 재명명에 의해서 역종속성을 가진 내포된 루프를 제거한 후 네 개의 선중에 하나 혹은 그 이상의 적절한 선을 선택하는 알고리즘을 개발한다. 한 개의 선이 선택되면 선택된 선에 의해서 전체 영역은 두 개의 병렬지역으로 분할된다. 한 개 이상의 선이 선택되면 그 선들에 의해서 하나의 순차지역과 두 개의 병렬지역으로 분할한다. 제안된 분할 방법은 기존의 분할 방법보다 성능이 우수함을 성능 분석에서 보여준다.

Neural Feature Association Rule을 이용한 효모 단백질-단백질 상호작용의 예측 (Prediction of Yeast Protein-Protein Interactions by Neural Feature Association Rule)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.277-279
    • /
    • 2005
  • 단백질들은 서로 다른 단백질들과 상호작용하거나 복합물을 형성함으로써 생물학적으로 중요한 기능을 한다고 알려져 있다. 때문에 대부분의 세포작용에 있어 중요한 역할을 하는 단백질들 간의 상호작용 분석 및 예측에 대한 연구는 여러 연구그룹으로부터 풍부한 데이터가 산출된 후게놈시대(post-genomic era)에서 또 하나의 중요한 이슈가 되고 있다. 본 논문에서는 효모에 대해 공개되어있는 단백질 상호작용 데이터들에서 속성들 간의 연관규칙 학습을 통해 잠재적 단백질 상호작용들을 예측하기 위한 연관규칙 기반의 상호작용 예측 방법을 제시한다. 단백질들 간의 상호작용 예측을 위해 고려되는 각 단백질의 다수의 속성차원은 정보이론 기반의 속성선택 알고리즘을 이용하여 효율적으로 줄이며 상호작용의 속성집합을 이용하여 신경망을 훈련시키고 이렇게 훈련된 신경망에서 속성들 간의 연관규칙을 디코딩하여 연관규칙 기반의 상호작용 예측에 활용한다. 연관속성 발굴을 통한 상호작용 예측을 위한 마이닝 방법으로는 연관규칙 발견 알고리즘을 사용하였으며 예측 정확도를 높이기 위하여 신경망 예측 모델의 학습 결과를 디코딩한 규칙들이 추가적으로 사용하였다. 논문에서 제안한 방법을 발견된 연관규칙을 통한 단백질 상호작용 예측문제에 있어 평균 약 $94.5\%$의 예측 정확도를 보였다.

  • PDF

상황인식형 비즈니스 차트 추천기 개발을 위한 개방형 온라인 텍스트로부터의 시각화 규칙 추출 방법 연구 (A Method of Mining Visualization Rules from Open Online Text for Situation Aware Business Chart Recommendation)

  • ;권오병
    • 한국전자거래학회지
    • /
    • 제25권1호
    • /
    • pp.83-107
    • /
    • 2020
  • 데이터의 성격과 시각화의 목적에 따라 비즈니스 차트를 선택하는 것은 비즈니스 분석에 유용한 지식이다. 그러나 현재 시각화 도구에는 상황에 맞는 비즈니스 차트를 선택할 수 있는 기능이 부족하다. 또한 매번마다 시각화 방법에 대해 전문가의 도움을 요청하는 것은 비용과 시간이 소요된다. 따라서 본 연구의 목적은 온라인으로 게시된 문서로부터 비즈니스 차트 선정 규칙에 대한 지식을 추출하여 비즈니스 차트 생산성을 향상시키는 방법을 제안하는 것이다. 이를 위해 인터넷에서 비즈니스 차트를 묘사하는 한국어, 영어 및 중국어 비정형 데이터를 수집하고 TF-IDF를 사용하여 컨텍스트와 비즈니스 차트 간의 관계를 계산했다. 또한 Galois 래티스를 사용하여 비즈니스 차트 선택 규칙을 생성했다. 제안된 방법으로 생성된 규칙의 품질을 평가하기 위해 실험군과 대조군에 대해 실험을 수행했다. 그 결과 제안된 방법으로 의미 있는 규칙이 추출되었음을 확인했다. 본 연구의 결과물로 시각화 전문가의 도움 없이도 사무직 직원들이 비즈니스 차트를 효율적으로 선택할 수 있을 것으로 기대된다. 또한 작업 중인 문서를 기반으로 비즈니스 차트를 추천함으로 직원 교육에 유용할 것이다.

통합적 제약완화 방식을 통한 한국어 문맥의존 철자오류 교정규칙의 재현율 향상 (Improving Recall for Context-Sensitive Spelling Correction Rules Through Integrated Constraint Loosening Method)

  • 최현수;윤애선;권혁철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권6호
    • /
    • pp.412-417
    • /
    • 2015
  • 문맥의존 철자오류는 단독으로 사용하면 정확한 어절이지만, 문맥을 고려했을 때 오류인 유형이다. 이를 검색하고 교정하기가 매우 어려우며, 고품질 맞춤법 검사기의 성능을 크게 좌우한다. 한국어 맞춤법 검사기에서의 문맥의존 철자오류는 언어 전문가에 의해 수작업으로 구축된 교정규칙을 사용하는 것이 가장 일반적이다. 이때 규칙을 이용한 방법은 그 특성상 교정 정확도는 매우 높지만, 재현율은 매우 낮다. 본 논문에서는 기존에 연구되었던 교정규칙에서의 선택제약 명사 확장 방식과 조사 제약조건을 완화하는 방법을 통합하여 정확도를 유지하거나 거의 낮추지 않으면서, 재현율을 향상시키는 방법을 제안한다. 또한, 두 방식을 단순하게 통합하지 않고 수의적 부사 삽입과 활용형, 관형형을 고려하여 단계별로 통합하는 방식을 제안하여 평균적으로 정확도를 거의 낮추지 않고 재현율을 약 13% 향상시킨다.

개념 기반 질의-응답 시스템에서의 정답 추출 (Answer Extraction of Concept based Question-Answering System)

  • 안영민;오수현;강유환;서영훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2005년도 춘계 종합학술대회 논문집
    • /
    • pp.448-451
    • /
    • 2005
  • 본 논문에서는 개념 기반 질의-응답 시스템에서의 정답 추출 방법에 대하여 기술한다. 개념 기반 질의-응답 시스템은 개념 정보를 이용하여 해답을 추출하는 시스템을 말하며, 질의분석을 통해 분류되고 추출된 개념 그에 따른 정답 추출 규칙을 이용하여 정답을 추출하는 방법과 시스템에 대하여 연구하였다. 질의에 대한 정답이 들어 있는 문서들을 분석하여 정답 추출 규칙을 작성한다. 규칙은 개념과 구문정보를 포함하고 있으며 작성된 규칙을 통하여 문서로부터 정답후보를 생성하고 정답을 선택한다.

  • PDF

한글 TTS 시스템에서 문자열-발음열 변환기의 ㄴ-소리 첨가 전 처리기 (Ni-eun Addition Preprocessing of Grapheme to Phoneme Conversion for Koran TTS)

  • 정경석;박혁로
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.370-372
    • /
    • 2001
  • 본 논문은 ㄴ-첨가 규칙을 전 처리를 통한 문자열-발음열 변환 기법을 소개한다. 한국어 TTS 시스템에서의 고질적인 문제는 문자열-발음열 변환이라고 할 수 있는데, 그 이유는 한국어의 특징상 음운적 조건과 형태론적 조건등에 의해 다양한 방법과 예외처리를 요구하기 때문이다. 그 중 ㄴ-첨가 규칙은 위와 같은 대표적인 현상으로 많은 문제점과 그에 따른 연구를 필요로 하고 있다. 이 시스템은 형태소 분석을 선행한 후, 특수문자나 숫자를 정규화하고 ㄴ-첨가 규칙을 전 처리한 후, 음운변화 현상을 분석하여 선택적으로 규칙을 적용하여 발음열을 생성한다. 제안된 시스템은 기존의 시스템에 비해 더욱 효과적인 음운, 형태소 변화를 가져옴과 함께, 특히 ㄴ-첨가가 적용되는 문장을 효과적으로 해결할 수 있어 TTS시스템에 좋은 결과를 가져오게 될 것이다.

  • PDF