• Title/Summary/Keyword: 통계 처리

Search Result 3,103, Processing Time 0.032 seconds

Improving Recall for Context-Sensitive Spelling Correction Rules by Combining Rule-Generalization and Statistical Method (규칙의 일반화와 통계 방식을 결합한 한국어 문맥의존 철자오류 교정규칙의 재현율 향상)

  • Choi, Hyun-Soo;Kwon, Hyuk-Chul;Yoon, Aesun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.18-23
    • /
    • 2014
  • 한국어 맞춤법 검사기는 전자화된 한국어 텍스트에 나타난 오류어를 검색하여 이를 교정할 대치어를 제시하는 시스템이다. 이때 오류어의 유형은 크게 단순 철자오류와 문맥의존 철자오류로 구분할 수 있다. 이중 문맥의존 철자오류는 어절(word)단위로 봤을 때는 정확하지만, 문맥을 고려하였을 때 오류가 되는 유형으로 교정 난도가 매우 높다. 문맥의존 철자오류의 교정 방법은 크게 규칙을 이용한 방법과 통계 정보에 기반을 둔 방법으로 나뉜다. 이때 규칙을 이용한 방법은 그 특성상 정확도가 매우 높지만, 반대로 재현율이 매우 낮다. 본 논문에서는 본 연구진이 기존에 연구하였던 규칙을 일반화하는 방식에 추가로 조건부 확률을 이용한 통계 방식을 결합하여 정확도를 유지하면서 재현율을 향상시키는 방법을 제안한다.

  • PDF

A study of computer aided teaching for statistics (통계학 교육용 한극 소프트웨어 개발 연구)

  • 이정진;강근석;이윤오
    • The Korean Journal of Applied Statistics
    • /
    • v.5 no.1
    • /
    • pp.81-91
    • /
    • 1992
  • A software, the CATS (Computer Aided Teaching for Statistics), which is specially designed for teaching elementary statistics using the personal computer is developed. This software helps the novice to understand the complicated statistical theories, for example the central limit theorem, which are not easy to teach in classroom. The software is also designed for practicing the elementary statistical techniques using the small amount of data as the other statistical packages.

  • PDF

Research about SMT Performance Improvement Through Automatic Corpus Expansion (말뭉치 자동 확장을 통한 SMT 성능 향상에 대한 연구)

  • Choi, Gyu-Hyun;Shin, Jong-Hun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.296-299
    • /
    • 2016
  • 현재 자동번역에는 통계적 방법에 속하는 통계기반 자동번역 시스템(SMT)이 많이 사용되고 있지만, 학습 데이터로 사용되는 대용량의 병렬 말뭉치를 수동으로 구축하는데 어려움이 있다. 본 연구의 목적은 통계기반 자동번역의 성능을 향상시키기 위해 기존 다른 언어쌍의 말뭉치와 SMT 자동번역 기술을 이용하여 대상이 되는 언어쌍의 SMT 병렬 말뭉치를 자동으로 확장하는 방법을 제안한다. 제안 방법은 서로 다른 언어 B와 C의 병렬 말뭉치를 얻기 위해, A와 B의 SMT 자동번역 시스템을 구축하고 기존의 A-C 말뭉치의 A를 SMT를 통해 B로 번역하여 B와 C의 말뭉치를 자동으로 확장한다. 실험을 통해 확장한 병렬 말뭉치가 통계기반 자동번역 시스템의 성능을 향상시킬 수 있음을 확인한다.

  • PDF

Hybrid Part-of-Speech Tagging using Context Information among Words (어절간 문맥 정보를 이용한 혼합형 품사 태깅)

  • Lim, Hee-Dong;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.376-380
    • /
    • 2000
  • 본 논문에서는 규칙 정보와 통계 정보의 상호 보완적 특성을 이용한 혼합형 방법을 기반으로 규칙 정보와 통계 정보의 추출 및 적용 시에 어절간 문맥 정보를 보다 효율적으로 이용하는 혼합형 품사 태깅 시스템을 제안한다. 먼저 규칙이 적용되는 중의성들에 대해서 높은 정확률로 태깅을 수행한 후, 규칙으로 해결할 수 없는 중의성들에 대해서는 통계 정보를 이용하여 태깅을 수행한다. 규칙 정보는 중의성을 갖는 어절과 주변 어절들의 형태소 및 태그를 이용하여 정의하고 통계 정보는 문맥에 영향을 많이 미치고 많은 중의성의 원인이 되는 조사와 어미의 형태를 그대로 활용하여 추출함으로써 어절간 문맥을 보다 효율적으로 이용한다.

  • PDF

Nominal Compound Analysis Using Statistical Information and WordNet (통계정보와 WordNet을 이용한 복합명사 분석)

  • Lyu, Min-Hong;Ra, Dong-Yul;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.33-40
    • /
    • 2000
  • 복합명사의 한 구조는 구성 명사간의 수식관계의 집합이라고 본다. 한 복합명사에 대하여 가능한 여러 구조 중에서 올바른 구조를 알아 내는 것이 본 논문의 목표이다. 이를 위하여 우리는 최근에 유행하는 통계 기반 분석 기법을 이용한다. 먼저 우리의 복합 명사 분석 문제에 알맞은 통계 모델을 개발하였다. 이 모델을 이용하면 분석하려는 복합명사의 가능한 분석 구조마다 확률 값을 얻게 된다. 그 다음 가능한 구조들 중에서 가장 확률값이 큰 구조를 복합명사의 구조로 선택한다. 통계 기반 기법에서 항상 문제가 되는 것이 데이터 부족문제이다. 우리는 이를 해결하기 위해 개념적 계층구조의 하나인 워드넷(WordNet)을 이용한다.

  • PDF

"의학 연구자료 분석과 통계적 기법"에 대하여

  • 송혜양
    • The Korean Journal of Applied Statistics
    • /
    • v.6 no.2
    • /
    • pp.217-226
    • /
    • 1993
  • 이 논문은 크게 두 부분으로 구성되었는데, 첫째 부분은 의학연구 목적에 따라 요구되는 분석법을 소개하고 있고, 둘째 부분은 국내 의학논문에서 통계처리의 잘못의 유형과 빈도를 제시하고 있습니다. 첫째 부분인 여러 분석법의 소개에서는 분석법의 열거로 보아서는 통계인들에게 새로운 것이 많지 않다고 언뜻 느껴지시겠지만, 실제로는 여러 면에서 새로운 점이 많습니다. 이 차이점을 살펴보면 우선 rate와 proportion과 ratio란 용어를 구분하여 사용하고 있고, 이들의 사용이 요구되는 의학적인 경우도 분명히 다름을 의학연구의 예제와 연구목적에 따라 제시하였습니다. 교과서처럼 쓸 수 있어서 설명이 부족합니다만, 의학에서 요구되는 구체적인 상황은 매우 다릅니다. 여러 가지 연구의 하나인 원인성연구를 살펴보면 measure of association으로써 rate difference (RD), rate ratio (PR)과 odds ratio (OR)의 세가지가 제시되었고, 이 measure에 대해서도 각각이 요구되는 의학적인 경우가 분명히 다르며, 또한 각각에 따른 분석기법도 다름을 논문에서 볼 수 있습니다.

  • PDF

Development of a Dialogue State Tracking System utilizing the Results of Rule and Statistics-based System and Evaluation using User Simulator (규칙 및 통계 기반 시스템의 결과를 활용하는 대화 상태 추적 시스템의 개발 및 사용자 시뮬레이터를 이용한 평가)

  • Shin, Chang-Uk;Chang, Du-Seong;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.518-523
    • /
    • 2020
  • 본 논문에서는 목적 지향 대화 시스템을 위한 대화 상태 추적 시스템과 사용자 시뮬레이터를 설계 및 제안한다. 사용자 시뮬레이터는 작성된 대화 상태 추적 시스템을 평가하기 위한 용도로 사용된다. 본 논문에서 제안하는 대화 상태 추적 시스템은 대화 기록과 함께 사전에 학습된 대화 기록 및 규칙/통계 기반 추론 시스템의 추론 결과를 입력으로 받는다. 그리고 입력된 발화 기록 중 마지막 사용자 발화의 사용자 목표와 개체명 그리고 다음 시스템 발화의 화행을 추론한다. 또한, 작성된 대화 상태 추적기의 성능을 평가하고 분석하기 위해, 주어진 환경에서 시스템과 대화를 수행하며 대화 시스템의 성능을 평가하는 사용자 시뮬레이터를 구현 및 적용하였다. 본 연구에서 수행된 실험과 분석을 통해, 규칙 및 통계 기반의 기반 시스템을 이용해 목표 시스템의 성능 개선이 가능함을 보인다. 또한, 제안하는 사용자 시뮬레이터는 규칙과 통계를 이용해 평가 코퍼스 없이 여러 상황에 대해 대화 시스템의 성능을 평가할 수 있다.

  • PDF

A survey of misuses of statistical graphics in Korean mass media and a study for statistical and institutional solutions to misuses (우리나라 언론매체에 나타나는 통계적 그래픽의 오용실태조사와 통계적, 제도적 해결방안에 대한 연구)

  • 장대흥
    • The Korean Journal of Applied Statistics
    • /
    • v.8 no.2
    • /
    • pp.1-26
    • /
    • 1995
  • Today, newspapers and newsmagazines are using statistical graphics to provide information and highlight the essense of newspaper stories. When statistical graphics do not present meaningful information accurately, concisely, and in easy-to-understand language, the publication risks a loss of credibility with its readers. Too often newspapers and newsmagazine run faulty graphics. The surge in the use of statistical graphics have created new problems and challengers for editors and artists of newspapers and magazines. We summerize and study the misuse of statistical graphics by means of the research of newspaper and newsmagazine. Experiments were employed to explore the effects of the distorted graphs. This paper suggests the statistical rules for avoiding the pitfalls of statistical graphics and institutional solutions for reforming the knowledge of artists and readers about statistical graphics.

  • PDF

Matrix Pencil Method Using Fourth-order Statistic (4차 통계량을 이용한 Matrix Pencil Method)

  • Jang Woo-Jin;Wang Yi-Su;Zhou Wei-Wei;Koh Jin-Hwan
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.31 no.6C
    • /
    • pp.629-636
    • /
    • 2006
  • In array signal processing, high order statistics can be used to estimate parameters from signal of sums of complex exponential. In this paper, we derive two types of direction finding algorithms which use the fourth-order cumulant and moment of the received array data. Since the fourth order cumulant can suppress the Gaussian noise, the response of MPM has better noise immunity than the conventional approaches. The performance of each method in regard to the probability of resolution and SNR in the presence of the Gaussian noise is investigated. As a result, the proposed method applied to the fourth-order statistic can find DOA more correctly in the presence of the Gaussian noise.

GIS-based Spatial Integration and Statistical Analysis using Multiple Geoscience Data Sets : A Case Study for Mineral Potential Mapping (다중 지구과학자료를 이용한 GIS 기반 공간통합과 통계량 분석 : 광물 부존 예상도 작성을 위한 사례 연구)

  • 이기원;박노욱;권병두;지광훈
    • Korean Journal of Remote Sensing
    • /
    • v.15 no.2
    • /
    • pp.91-105
    • /
    • 1999
  • Spatial data integration using multiple geo-based data sets has been regarded as one of the primary GIS application issues. As for this issue, several integration schemes have been developed as the perspectives of mathematical geology or geo-mathematics. However, research-based approaches for statistical/quantitative assessments between integrated layer and input layers are not fully considered yet. Related to this niche point, in this study, spatial data integration using multiple geoscientific data sets by known integration algorithms was primarily performed. For spatial integration by using raster-based GIS functionality, geological, geochemical, geophysical data sets, DEM-driven data sets and remotely sensed imagery data sets from the Ogdong area were utilized for geological thematic mapping related by mineral potential mapping. In addition, statistical/quantitative information extraction with respective to relationships among used data sets and/or between each data set and integrated layer was carried out, with the scope of multiple data fusion and schematic statistical assessment methodology. As for the spatial integration scheme, certainty factor (CF) estimation and principal component analysis (PCA) were applied. However, this study was not aimed at direct comparison of both methodologies; whereas, for the statistical/quantitative assessment between integrated layer and input layers, some statistical methodologies based on contingency table were focused. Especially, for the bias reduction, jackknife technique was also applied in PCA-based spatial integration. Through the statistic analyses with respect to the integration information in this case study, new information for relationships of integrated layer and input layers was extracted. In addition, influence effects of input data sets with respect to integrated layer were assessed. This kind of approach provides a decision-making information in the viewpoint of GIS and is also exploratory data analysis in conjunction with GIS and geoscientific application, especially handing spatial integration or data fusion with complex variable data sets.