• 제목/요약/키워드: Sparseness

검색결과 77건 처리시간 0.022초

한국어의 이형태 표준화를 통한 구 기반 통계적 기계 번역 성능 향상 (Improve Performance of Phrase-based Statistical Machine Translation through Standardizing Korean Allomorph)

  • 이원기;김영길;이의현;권홍석;조승우;조형미;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.285-290
    • /
    • 2016
  • 한국어는 형태론적으로 굴절어에 속하는 언어로서, 어휘의 형태가 문장 속에서 문법적인 기능을 하게 되고, 형태론적으로 풍부한 언어라는 특징 때문에 조사나 어미와 같은 기능어들이 다양하게 내용어들과 결합한다. 이와 같은 특징들은 한국어를 대상으로 하는 구 기반 통계적 기계번역 시스템에서 데이터 부족 문제(Data Sparseness problem)를 더욱 크게 부각시킨다. 하지만, 한국어의 몇몇 조사와 어미는 함께 결합되는 내용어에 따라 의미는 같지만 두 가지의 형태를 가지는 이형태로 존재한다. 따라서 본 논문에서 이러한 이형태들을 하나로 표준화하여 데이터부족 문제를 완화하고, 베트남-한국어 통계적 기계 번역에서 성능이 개선됨을 보였다.

  • PDF

웹을 이용한 개체명 부착 말뭉치의 자동생성과 정제 (Automatic Generation of Named Entity Tagged Corpus using Web Search Engine)

  • 안주희;이승우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-91
    • /
    • 2002
  • 최근 정보 추출, 질의응답 시스템 등의 고정밀 자연어처리 어플리케이션이 부각됨에 따라 개체명 인식의 중요성이 더욱 커지고 있다. 이러한 개체명 인식을 위한 학습에는 대용량의 어휘자료를 필요로 하기 때문에 충분한 학습 데이터, 즉 개체명 태그가 부착된 충분한 코퍼스가 제공되지 못하는 경우 자료희귀문제(data sparseness problem)로 인하여 목적한 효과를 내지 못하는 경우가 않다. 그러나 태그가 부착된 코퍼스를 생성하는 일은 시간과 인력이 많이 드는 힘든 작업이다. 최근 인터넷의 발전으로 웹 데이터는 그 양이 매우 많으며, 습득 또한 웹 검색 엔진을 사용해서 자동으로 모음으로써 다량의 말뭉치를 모으는 것이 매우 용이하다. 따라서 최근에는 웹을 무한한 언어자원으로 보고 웹에서 필요한 언어자원을 자동으로 뽑는 연구가 활발히 진행되고 있다. 본 연구는 이러한 연구의 첫 시도로 웹으로부터 다량의 원시(raw) 코퍼스를 얻어 개체명 태깅 학습을 위한 태그 부착 코퍼스를 자동으로 생성하고 이렇게 생성된 말뭉치를 개체면 태깅 학습에 적용하는 비교 실험을 통해 수집된 말뭉치의 유효성을 검증하고자 한다. 향후에는 자동으로 웹으로부터 개체 명 태깅 규칙과 패턴을 뽑아내어 실제 개체명 태거를 빨리 개발하여 유용하게 사용할 수 있다.

  • PDF

순환 신경망을 이용한 전이 기반 한국어 의존 구문 분석 (Korean Transition-based Dependency Parsing with Recurrent Neural Network)

  • 이건일;이종혁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권8호
    • /
    • pp.567-571
    • /
    • 2015
  • 기존의 전이 기반 한국어 의존 구문 분석 방법론들은 사용 될 자질의 설계에 많은 노력이 필요하다. 최근에 인공 신경망을 이용하여 자질 설계 단계에서의 시간과 노력을 줄이는 연구들이 많이 수행되었으나 제한된 context의 정보들만 보고 전이 과정에 필요한 decision을 내려야 하는 문제점들이 있다. 본 논문에서는 순환 신경망 모델을 이용하여 자질 설계에 필요한 노력을 줄이고 순환 구조로 먼 거리 의존관계를 고려하였다. 실험을 진행한 결과 일반적인 다층 신경망에 비해 0.51%의 성능향상을 이루었으며 UAS 90.33%의 성능을 선보인다.

Parallel Algorithm of Improved FunkSVD Based on Spark

  • Yue, Xiaochen;Liu, Qicheng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권5호
    • /
    • pp.1649-1665
    • /
    • 2021
  • In view of the low accuracy of the traditional FunkSVD algorithm, and in order to improve the computational efficiency of the algorithm, this paper proposes a parallel algorithm of improved FunkSVD based on Spark (SP-FD). Using RMSProp algorithm to improve the traditional FunkSVD algorithm. The improved FunkSVD algorithm can not only solve the problem of decreased accuracy caused by iterative oscillations but also alleviate the impact of data sparseness on the accuracy of the algorithm, thereby achieving the effect of improving the accuracy of the algorithm. And using the Spark big data computing framework to realize the parallelization of the improved algorithm, to use RDD for iterative calculation, and to store calculation data in the iterative process in distributed memory to speed up the iteration. The Cartesian product operation in the improved FunkSVD algorithm is divided into blocks to realize parallel calculation, thereby improving the calculation speed of the algorithm. Experiments on three standard data sets in terms of accuracy, execution time, and speedup show that the SP-FD algorithm not only improves the recommendation accuracy, shortens the calculation interval compared to the traditional FunkSVD and several other algorithms but also shows good parallel performance in a cluster environment with multiple nodes. The analysis of experimental results shows that the SP-FD algorithm improves the accuracy and parallel computing capability of the algorithm, which is better than the traditional FunkSVD algorithm.

다중 자질 결정 목록을 이용한 단어 의미 중의성 해결 (World Sense Disambiguation using Multiple Feature Decision Lists)

  • 서희철;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.659-671
    • /
    • 2003
  • 본 논문에서는 결정 목록을 이용해서 단어 의미 중의성을 해결하는 방법을 제안한다. 결정 목록은 하나 이상의 규칙으로 구성되며, 각 규칙에는 신뢰도가 부여되어 있고, 규칙은 불린 함수(=조건, precondition 와 부류(=의미, class)로 구성되어 있다. 분류 대상이 만족하는 불린 함수를 가진 규칙들 중에서 가장 신뢰도가 높은 규칙에 의해서 분류 대상의 부류가 정해진다. 기존 방법에서는 하나의 자질로 하나의 불린 함수를 구성하는 단일 자질 결정 목록을 이용해서 단어 의미 중의성을 해결했다. 이 경우, 자료 부족 문제와 전처리 과정의 오류에 민감하게 반응한다는 문제점이 있다. 본 논문에서는 기존의 단일자질 결정 목록의 문제점을 해결하기 위해서, 하나 이상의 자질로 불린 함수를 구성하는 다중 자질 결정 목록을 제안하고, 다중 자질 결정 목록을 이용하여, 단어 의미 중의성을 해결하는 방법을 기술하고 있다. 단일 자질 결정 목록과 다중 자질 결정 목록을 비교하기 위해서, 1개의 한국어 의미 부착 말뭉치와 5개의 영어 의미 부착 말뭉치를 대상으로 단어 의미 중의성 해결 실험을 했다. 실험 결과 6개의 말뭉치 모두에 서 다중 자질 결정 목록이 단일 자질 결정 목록에 비해서 더 좋은 결과를 나타냈다.

연구영역분석을 위한 디스크립터 프로파일링에 관한 연구 (Descriptor Profiling for Research Domain Analysis)

  • 김판준;이재윤
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.285-303
    • /
    • 2007
  • 본 연구는 연구 영역 분석을 위하여 통제어휘와 비통제어휘를 연계해서 사용하는 새로운 방법을 모색하기 위한 것이다. 동시출현단어분석은 크게 통제어휘와 비통제어휘를 사용하는 경우의 두 가지 유형으로 구분할 수 있는데, 통제어휘를 사용할 경우에는 자료 희귀성 및 색인자 효과가 단점이며, 비통제어휘를 사용할 경우에는 저자의 주관에 따른 단어 선택 및 단어의 중의성이 문제가 된다. 이 연구에서는 양자를 보완할 수 있는 방법으로, 통제어휘인 디스크립터를 비통제어휘인 단어와의 동시출현 정보로 표현하는 디스크립터 프로파일링을 제안하였다. 정보학분야에 적용해본 결과, 디스크립터 프로파일링은 특정 영역의 최신 동향을 파악하는데 있어 통제어휘와 비통제어휘가 갖는 본질적인 문제점을 어느 정도 보완할 수 있는 것으로 나타났다.

Enhancement of a language model using two separate corpora of distinct characteristics

  • 조세형;정태선
    • 한국지능시스템학회논문지
    • /
    • 제14권3호
    • /
    • pp.357-362
    • /
    • 2004
  • 언어 모델은 음성 인식이나 필기체 문자 인식 등에서 다음 단어를 예측함으로써 인식률을 높이게 된다. 그러나 언어 모델은 그 도메인에 따라 모두 다르며 충분한 분량의 말뭉치를 수집하는 것이 거의 불가능하다. 본 논문에서는 N그램 방식의 언어모델을 구축함에 있어서 크기가 제한적인 말뭉치의 한계를 극복하기 위하여 두개의 말뭉치, 즉 소규모의 구어체 말뭉치와 대규모의 문어체 말뭉치의 통계를 이용하는 방법을 제시한다. 이 이론을 검증하기 위하여 수십만 단어 규모의 방송용 말뭉치에 수백만 이상의 신문 말뭉치를 결합하여 방송 스크립트에 대한 퍼플렉시티를 30% 향상시킨 결과를 획득하였다.

모바일 앱 트렌드를 고려한 2단계 군집화 방법 (Two-Phase Clustering Method Considering Mobile App Trends)

  • 허정만;박소영
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권4호
    • /
    • pp.17-23
    • /
    • 2015
  • 본 논문에서는 단어 군집을 사용하여 모바일 앱을 군집화하는 방법을 제안한다. 모바일 앱 트렌드의 빠른 변화를 고려하여, 제안하는 방법은 미리 정의된 분류체계를 사용하지 않고, 모바일 앱 집합에 군집화 기술을 적용하여 의미적으로 유사한 모바일 앱을 묶는다. 짧은 모바일 앱 소개 글의 자료 부족 문제를 완화하기 위해서, 각 단어에 대해 unigram 뿐만 아니라, bigram, trigram, 단어 군집 정보를 추가적으로 확보하여 활용한다. 모바일 앱을 전체적으로 정확하게 군집화하기 위해서, 제안하는 방법은 단어 군집을 활용하여 모바일 앱 군집의 크기가 지나치게 작거나 크지 않도록 관리한다. 실험결과 제안하는 방법은 단어 군집을 활용하여 전체 정확도를 57.48%에서 79.66%로 22.18% 개선시켰다.

Study of Spectral Reflectance Reconstruction Based on an Algorithm for Improved Orthogonal Matching Pursuit

  • Leihong, Zhang;Dong, Liang;Dawei, Zhang;Xiumin, Gao;Xiuhua, Ma
    • Journal of the Optical Society of Korea
    • /
    • 제20권4호
    • /
    • pp.515-523
    • /
    • 2016
  • Spectral reflectance is sparse in space, and while the traditional spectral-reconstruction algorithm does not make full use of this characteristic sparseness, the compressive sensing algorithm can make full use of it. In this paper, on the basis of analyzing compressive sensing based on the orthogonal matching pursuit algorithm, a new algorithm based on the Dice matching criterion is proposed. The Dice similarity coefficient is introduced, to calculate the correlation coefficient of the atoms and the residual error, and is used to select the atoms from a library. The accuracy of Spectral reconstruction based on the pseudo-inverse method, Wiener estimation method, OMP algorithm, and DOMP algorithm is compared by simulation on the MATLAB platform and experimental testing. The result is that spectral-reconstruction accuracy based on the DOMP algorithm is higher than for the other three methods. The root-mean-square error and color difference decreases with an increasing number of principal components. The reconstruction error decreases as the number of iterations increases. Spectral reconstruction based on the DOMP algorithm can improve the accuracy of color-information replication effectively, and high-accuracy color-information reproduction can be realized.

한국 고대 나직물의 유형과 특성 II - 석가탑 복장 나직물을 중심으로 - (The Types and Characteristics of Gauze Fabric of Ancient Korea II - Focused on Gauze Fabrics Found at Sukga Pagoda -)

  • 권영숙;장현주;이용희
    • 복식
    • /
    • 제53권3호
    • /
    • pp.51-61
    • /
    • 2003
  • 1. This study is to veri(y the characteristics of gauze fabrics focused on the them found at Sukga Pagoda. The remains researched are those of the Unified Shilla Dynasty around 8∼10 century. The found textile remains seem to be used as rugs or to be used for filling in spaces, wrapping silver reliquaries, equipments preserving relics of the Buddha, a gold-plated outermost reliquary, and so on. Since other remains found inside the Sukga Pagoda are national treasures, the textile remains can be considered as the fabrics of the highest quality. 2. Seven gauze fabrics, four non-designed gauzes and three designed gauzes, are found. They are all four-end complex gauze, weaved with the complex gauze technique. Two designed gauzes out of three designed gauzes are weaved in pattern by the clamp-resist dyeing technique and one is weaved in pattern by giving some changes in weaving. 3. In addition to the characteristics peculiar to gauze fabrics, such as thinness, fineness, and sparseness, another characteristic is found. That is, the difference in thickness between wefts and warps is over two times on the average in all of the seven gauze fabrics. Some of the gauze fabrics look like laces because of the huge difference in their thickness. 4. This research verified that with their transparency, are such materials that their beauty can easily be realized without adding various colors or patterns on the fabric by painting, embroidery, stitching old foil, or compound weaving technique.