• Title/Summary/Keyword: 후보 선택

Search Result 437, Processing Time 0.026 seconds

Analysis of Compound Nouns Containing Korean or Foreign Unknown Words (한국어 및 외래어 미등록어를 포함한 복합명사 분석)

  • Kim, Myoung-Sun;Ra, Dong-Yul
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.73-79
    • /
    • 2006
  • 본 논문에서는 미등록어 처리가 강화된 복합명사 분석 기법을 제시한다. 기본적으로 모든 복합명사 내에 한국어나 외래어의 미등록어가 포함되어 있을 수 있다는 가정하에 분석을 시도한다. 따라서 등록어로 구성된 복합명사에 대해서도 미등록어가 포함된 분해 후보가 생성될 수도 있다. 이는 분해 후보의 수를 크게 증가시키는 문제를 일으킨다. 이 문제에 대처하기 위하여 미등록어의 분류에 따라 미등록어로서의 가능성 여부의 판별 및 제거, 분해 후보 상호간의 견제에 의한 제거 등을 이용하였다. 이러한 과정은 정답 후보 선택시에도 영향을 미쳐 정답이 아닌 분해 후보가 선택되는 것을 방지할 수 있으며, 처리 시간을 줄일 수 있는 이점이 있다. 실험 결과 제시된 기법들이 매우 효과적임을 확인할 수 있었다.

  • PDF

An Efficient String Similarity Search Technique based on Generating Inverted Lists of Variable-Length Grams (가변길이 그램의 역리스트 생성을 이용한 효율적인 유사 문자열 검색 기법)

  • Kim, Jongik
    • Journal of KIISE
    • /
    • v.43 no.11
    • /
    • pp.1275-1280
    • /
    • 2016
  • Existing techniques for string similarity search first generate a set of candidate strings and then verify the candidates. The efficiency of string similarity search is highly dependent on candidate generation methods. State of the art techniques select fixed length q-grams from a query string and generate candidates using inverted lists of the selected q-grams. In this paper, we propose a technique to generate candidates using variable length grams of a query string and develop a dynamic programming algorithm that selects an optimal combination of variable length grams from a query string. Experimental results show that the proposed technique improves the performance of string similarity search compared with the existing techniques.

Building an Ensemble Machine by Constructive Selective Learning Neural Networks (건설적 선택학습 신경망을 이용한 앙상블 머신의 구축)

  • Kim, Seok-Jun;Jang, Byeong-Tak
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.12
    • /
    • pp.1202-1210
    • /
    • 2000
  • 본 논문에서는 효과적인 앙상블 머신의 구축을 위한 새로운 방안을 제시한다. 효과적인 앙상블의 구축을 위해서는 앙상블 멤버들간의 상관관계가 아주 낮아야 하며 또한 각 앙상블 멤버들은 전체 문제를 어느 정도는 정확하게 학습하면서도 서로들간의 불일치 하는 부분이 존재해야 한다는 것이 여러 논문들에 발표되었다. 본 논문에서는 주어진 문제의 다양한 면을 학습한 다수의 앙상블 후보 네트웍을 생성하기 위하여 건설적 학습 알고리즘과 능동 학습 알고리즘을 결합한 형태의 신경망 학습 알고리즘을 이용한다. 이 신경망의 학습은 최소 은닉 노드에서 최대 은닉노드까지 점진적으로 은닉노드를 늘려나감과 동시에 후보 데이타 집합에서 학습에 사용할 훈련 데이타를 점진적으로 선택해 나가면서 이루어진다. 은닉 노드의 증가시점에서 앙상블의 후부 네트웍이 생성된다. 이러한 한 차례의 학습 진행을 한 chain이라 정의한다. 다수의 chain을 통하여 다양한 형태의 네트웍 크기와 다양한 형태의 데이타 분포를 학습한 후보 내트웍들이 생성된다. 이렇게 생성된 후보 네트웍들은 확률적 비례 선택법에 의해 선택된 후 generalized ensemble method (GEM)에 의해 결합되어 최종적인 앙상블 성능을 보여준다. 제안된 알고리즘은 한개의 인공 데이타와 한 개의 실세계 데이타에 적용되었다. 실험을 통하여 제안된 알고리즘에 의해 구성된 앙상블의 최대 일반화 성능은 다른 알고리즘에 의한 그것보다 우수함을 알 수 있다.

  • PDF

A Method of Selecting Candidate Core for Shared-Based Tree Multicast Routing Protocol (공유기반 트리 멀티캐스트 라우팅 프로토콜을 위한 후보 코어 선택 방법)

  • Hwang Soon-Hwan;Youn Sung-Dae
    • Journal of Korea Multimedia Society
    • /
    • v.7 no.10
    • /
    • pp.1436-1442
    • /
    • 2004
  • A shared-based tree established by the Core Based Tree multicast routing protocol (CBT), the Protocol Independent Multicast Sparse-Mode(PIM-SM), or the Core-Manager based Multicast Routing(CMMR) is rooted at a center node called core or Rendezvous Point(RP). The routes from the core (or RP) to the members of the multicast group are shortest paths. The costs of the trees constructed based on the core and the packet delays are dependent on the location of the core. The location of the core may affect the cost and performance of the shared-based tree. In this paper, we propose three methods for selecting the set of candidate cores. The three proposed methods, namely, k-minimum average cost, k-maximum degree, k-maximum weight are compared with a method which select the candidate cores randomly. Three performance measures, namely, tree cost, mean packet delay, and maximum packet delay are considered. Our simulation results show that the three proposed methods produce lower tree cost, significantly lower mean packet delay and maximum packet delay than the method which selects the candidate cores randomly.

  • PDF

A Design of Optimal Resource Selection Broker in Grid Computing Systems (그리드 컴퓨팅 시스템에서 최적 자원 선택 브로커 설계)

  • 진성호;정광식;이화민;이대원;유헌창;정순영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04d
    • /
    • pp.124-126
    • /
    • 2003
  • 그리드 컴퓨팅은 광범위 분산 컴퓨팅 시스템(wide area distributed computing system)으로, 고성능의 유휴 컴퓨팅 자원을 서로 공유하여 효율적으로 작업을 수행하는 것을 목적으로 한다. 그리드 컴퓨팅에서 사용자가 요구하는 자원의 검색, 선택, 할당하는 문제는 시스템 성능에 큰 영향을 미친다. 그리드 컴퓨팅을 지원하는 대표적인 미들웨어인 글로버스(Globus Toolkit)에서는 위와 같은 과정들이 사용자에 의해 수동적으로 이루어지며, 검색된 후보 자원의 최적 선택 방법은 제공하지 않고 있다. 본 논문에서는 글로버스에서 사용자의 요구에 의해 검색된 후보 자원들 중 최적화된 자원 선택과 할당 요청을 담당하는 최적 자원 선택 브로커를 설계하였다. 이 브로커는 유전자 알고리즘을 이용하여 최적 자원을 선택하므로 사용자의 임의적 자원 선택으로 인한 시스템의 성능 저하를 막아준다. 자원 검색, 선택, 할당 요청이 하나의 브로커에서 이루어짐으로써 작업 수행 시 발생하는 사용자의 불필요한 관여를 막아 작업 수행에 대한 편의성을 제공한다.

  • PDF

Voters' Third-Person Perceptions -based on the Media Effect on the Presidential Candidates Images and Choice- (유권자의 제3자 효과 지각 연구 -후보자 이미지와 후보 선택에 미치는 미디어 효과를 중심으로-)

  • Seol, Ji-Nah;Kim, Hwal-Bin
    • Korean journal of communication and information
    • /
    • v.42
    • /
    • pp.79-106
    • /
    • 2008
  • Based on the third-person effect hypothesis, this study conducted a nation-wide online survey to assess how Korean voters perceived the mass media's effect on the candidates' image and voting behavior during the 17th presidential election. The research results showed that the voters tended to perceive that the mass media such as newspaper, television and the Internet had a greater effect on others than on themselves with regards to the formation of the three candidates' images. The third-person effect on the voting behavior was also revealed differently in terms of the medium according to age and political tendency of the voters. For instance, the younger and liberal voters were likely to see newspaper as having a greater influence on other voters' choice of candidate, while the older voters saw TV as having a greater effect on other voters. The conservative tendency did not affect the perception of the voters at all. Another noteworthy result was that personal characteristics of the candidates' images such as appearances and communication skills did not affect the voters' behaviors in the election process.

  • PDF

An Iterative Soft-Decision Decoding Algorithm of Block Codes Using Reliability Values (신뢰도 값을 이용한 블록 부호의 반복적 연판정 복호 알고리즘)

  • Shim, Yong-Geol
    • The KIPS Transactions:PartC
    • /
    • v.11C no.1
    • /
    • pp.75-80
    • /
    • 2004
  • An iterative soft-decision decoding algorithm of block codes is proposed. With careful examinations of the first hard-decision decoding result, the candidate codewords are efficiently searched for. An approach to reducing decoding complexity and lowering error probability is to select a small number of candidate codewords. With high probability, we include the codewords which are at the short distance from the received signal. The decoder then computes the distance to each of the candidate codewords and selects the codeword which is the closest. We can search for the candidate codewords which make the error patterns contain the bits with small reliability values. Also, we can reduce the cases that we select the same candidate codeword already searched for. Computer simulation results are presented for (23,12) Golay code. They show that decoding complexity is considerably reduced and the block error probability is lowered.

A Study on Selecting Bitmap Join Index to Speed up Complex Queries in Relational Data Warehouses (관계형 데이터 웨어하우스의 복잡한 질의의 처리 효율 향상을 위한 비트맵 조인 인덱스 선택에 관한 연구)

  • An, Hyoung-Geun;Koh, Jae-Jin
    • The KIPS Transactions:PartD
    • /
    • v.19D no.1
    • /
    • pp.1-14
    • /
    • 2012
  • As the size of the data warehouse is large, the selection of indices on the data warehouse affects the efficiency of the query processing of the data warehouse. Indices induce the lower query processing cost, but they occupy the large storage areas and induce the index maintenance cost which are accompanied by database updates. The bitmap join indices are well applied when we optimize the star join queries which join a fact table and many dimension tables and the selection on dimension tables in data warehouses. Though the bitmap join indices with the binary representations induce the lower storage cost, the task to select the indexing attributes among the huge candidate attributes which are generated is difficult. The processes of index selection are to reduce the number of candidate attributes to be indexed and then select the indexing attributes. In this paper on bitmap join index selection problem we reduce the number of candidate attributes by the data mining techniques. Compared to the existing techniques which reduce the number of candidate attributes by the frequencies of attributes we consider the frequencies of attributes and the size of dimension tables and the size of the tuples of the dimension tables and the page size of disk. We use the mining of the frequent itemsets as mining techniques and reduce the great number of candidate attributes. We make the bitmap join indices which have the least costs and the least storage area adapted to storage constraints by using the cost functions applied to the bitmap join indices of the candidate attributes. We compare the existing techniques and ours and analyze them in order to evaluate the efficiencies of ours.

The Postprocessing of a Korean OCR using the Output of the Word Recognition and the Statistical Information from a Corpus (문자 인식기의 특성과 말뭉치의 통계 정보를 이용한 문자 인식 결과의 후처리)

  • Son, Hoon-Seok;Choi, Sung-Pil;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.188-193
    • /
    • 1997
  • 한국어 문자 인식 후처리는 인식기가 제공하는 후보 음절을 바탕으로 후처리를 하였다. 이 논문은 문자 인식기가 제공하는 후보 음절 대신에 인식기의 인식 결과를 분석하여 인식기의 오인식 통계 정보에 따라 인식 결과 음절의 후보 음절을 생성한다. 여기서 생성된 후보 어절을 각 음절의 확률 값을 이용하여 확률이 가장 놓은 어절을 선택한다. 이때 한국어 대용량 말뭉치에서 추출한 어절의 통계정보를 이용하여 그 어절의 확률 값을 구한다. 이 기법의 장점은 후보 음절의 조합으로 생성된 어절의 확률 값과 그 어절의 말뭉치상의 확률 값을 이용한 결과 말뭉치에 포함된 미등록어 정보에 따라 형태소 분석이 되지 않는 미등록어 처리가 가능하다. 또한 후보 어절 중 형태소 분석이 성공하는 어절이 두개 이상 있을 경우 실제 거의 쓰이지는 않지만 단지 음절의 확률 값이 높아 우선으로 선택되는 경우를 방지하였다. 실험은 약 1,000page 분량의 실험을 통해 오인식 결과를 수집하고, 4000만 원시 말뭉치에서 구한 어절의 통계정보를 이용하였다. 그 결과 문자 인식기의 98.05%의 어절 인식률을 후처리 결과 99.52%로 향상시켰다.

  • PDF

Segmenting Korean Nominal Compounds with an Unknown Morpheme Using Back-off Statistics (백오프 통계정보를 이용한 미등록어 포함 복합명사의 분해)

  • Park, Jae-Han;Kim, Myoung-Sun;Rho, Dae-Wook;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.65-72
    • /
    • 2004
  • 본 논문에서는 백오프 통계 정보를 이용하여 일반적인 복합명사 뿐만 아니라 외래어 미등록어를 포함한 복합명사도 잘 분해하는 방법을 제안한다. 본 시스템은 입력으로 형태소분석기가 내주는 많은 분석 후보들을 받는다. 단음절 명사를 포함한 분석 후보도 포함되므로 입력 분석 후보의 수는 대단히 많게 된다. 본 모듈의 주요 작업은 이 중에서 가장 좋은 분석후보를 선택하는 것이 된다. 미등록어가 포함된 경우 이에 부합되는 분석 후보를 잘 선택하는 시스템의 개발을 목표로 한다. 이를 위해서 본 시스템에서 사용하는 주요 정보는 단어간 어휘 바이그램 통계정보이다. 또한 외래어 미등록어의 인식 정확성을 높이기 위해 음절 바이그램 정보도 이용한다. 통계정보는 대량의 품사 태깅 말뭉치에서 추출하였다. 데이터 부족 문제를 해소하기 위해서 우리는 백오프(back-off) 평탄화(smoothing) 기법을 이용하였다. 미등록어가 포함된 복합명사의 분석 후보의 수를 줄이기 위한 기술도 연구하였다.

  • PDF