• Title/Summary/Keyword: 사전기반

Search Result 3,206, Processing Time 0.025 seconds

The 3-step Answer Processing Method for Encyclopedia Question-Answering System : AnyQuestion1.0 (3단계 정답 추출 방법을 이용한 백과사전 인물분야)

  • Kim, Hyeon-Jin;Oh, Hyo-Jung;Wang, Ji-Hyun;Lee, Chung-Hee;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.275-282
    • /
    • 2004
  • 본 논문은 3단계 정답 추출 방법을 통해 백과사전 인물분야 질의응답 시스템을 구현하는 방법을 제안한다. 논문에서 제안한 3단계 정답 추출 방법은 1) 백과사전 문서 내에서 정형화 될 수 있는 지식들을 추출한 백과사전 KB 기반 정답 추출 방법, 2) 문장을 언어분석 하여 LF(Logical Form)구조를 추출하여 색인한 LF 기반 정답추출 방법, 3) 각 문장을 주제 태깅을 하여, 주제별로 묶어 의미적 단락으로 구분하고 단락 검색을 기반으로 정답을 추정하는 의미적 단락 기반 정답 추출 방법으로 구성되어 있다. 이러한 방법론은 백과사전이라는 문서 도메인의 특성을 반영하고. 사용자 질문의 난이도 또는 형태에 따라서 정답을 제공할 수 있는 백과사전 인물분야 질의응답 시스템에 적합하다.

  • PDF

Automatic word sense clustering using collocation for practical sense boundaries (의미 경계의 현실화를 위한 공기정보의 자동 군집화)

  • 신사임;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.559-561
    • /
    • 2004
  • 본 논문에서는 다의어의 현실적인 의미 분포의 결정에 대해 이야기 하고자 한다. 수동으로 구축한 의미체계인 사전이나 시소러스들은 그 의미구분의 경개가 모호하고 비현실적인 부분이 많아서 언어처리 시스템의 적용에 문제점으로 지적되고 있다. 그러므로, 본 연구에서는 대용량 코퍼스에서 추출한 공기정보와 자동 군집화 방법들을 사용하여 실질적인 다의어의 의미 경계를 발견하는 방법을 제안하였다. 수동 구축된 사전과 코퍼스 기반 사전의 다의어 의미 분포와 비교해 본 결과, 본 논문에서 제안한 방법의 결과가 코퍼스 기반 사전의 의미 분포와 매우 유사한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

Pivot-based Bilingual Lexicon Extraction Using Word2Vec and CCA (중간언어 기반의 Word2Vec와 CCA를 이용한 이중언어 사전 추출)

  • Kim, Jeong-Tae;Kim, Chang-Hyun;Cheon, Min-Ah;Kim, Jae-Hoon;Kim, Jae-Hwan
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.307-309
    • /
    • 2016
  • 이중언어 사전은 자연어처리 분야에서 매우 유용한 자원으로 사용되고 있다. 그러나 초기사전이나 병렬말뭉치 등 자원이 부족한 언어 쌍에 대해서 이중언어 사전을 추출하는 것은 쉽지 않다. 이러한 문제를 해결하기 위해 본 논문에서는 중간 언어 기반으로 Word2Vec와 CCA를 이용하여 이중언어 사전을 추출하는 방법을 제안한다. 본 논문에서 제안하는 방법의 성능을 평가하기 위해서 중간언어로 영어를 사용하여 스페인어-한국어에 대한 이중언어 사전을 추출하는 실험을 하였다. 무작위로 뽑은 200개의 단어에 대한 번역 정확도를 구하였다. 그 결과 최상위에서 37.5%, 상위 10위에서 63%, 그리고 상위 20위에서는 69.5%의 정확도를 얻을 수 있었다.

  • PDF

Pivot-based Bilingual Lexicon Extraction Using Word2Vec and CCA (중간언어 기반의 Word2Vec와 CCA를 이용한 이중언어 사전 추출)

  • Kim, Jeong-Tae;Kim, Chang-Hyun;Cheon, Min-Ah;Kim, Jae-Hoon;Kim, Jae-Hwan
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.307-309
    • /
    • 2016
  • 이중언어 사전은 자연어처리 분야에서 매우 유용한 자원으로 사용되고 있다. 그러나 초기사전이나 병렬말뭉치 등 자원이 부족한 언어 쌍에 대해서 이중언어 사전을 추출하는 것은 쉽지 않다. 이러한 문제를 해결하기 위해 본 논문에서는 중간 언어 기반으로 Word2Vec와 CCA를 이용하여 이중언어 사전을 추출하는 방법을 제안한다. 본 논문에서 제안하는 방법의 성능을 평가하기 위해서 중간언어로 영어를 사용하여 스페인어-한국어에 대한 이중언어 사전을 추출하는 실험을 하였다. 무작위로 뽑은 200개의 단어에 대한 번역 정확도를 구하였다. 그 결과 최상위에서 37.5%, 상위 10위에서 63%, 그리고 상위 20위에서는 69.5%의 정확도를 얻을 수 있었다.

  • PDF

A Predistorter Based on Look Up Tables for the Compensation of Nonlinear Distortion with Memory in OFDM Systems (OFDM 시스템에서 기억성을 갖는 비선형 왜곡의 보상을 위한 참조 테이블 기반의 사전왜곡기)

  • Kim, Young-Sik;Shin, Yoan;Im, Sungbin;Moon, Yong
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.6A
    • /
    • pp.965-979
    • /
    • 2001
  • 본 논문에서는 OFDM 시스템의 송신기에서 사용되는 선형 필터와 고출력 증폭기의 결합에 의한 \"기억성을 갖는 비선형 왜곡\"을 실제 하드웨어 구현에 적합하게 적은 계산량으로 보상할 수 있는 참조 테이블(look up table; LUT) 기반의 사전왜곡기를 제안한다. LUT를 이용하는 사전왜곡기들은 이미 많이 연구되었으나, 본 논문에서는 다중 입력/단일 출력 형태의 기억성을 갖는 비선형 왜곡을 작은 크기의 LUT를 이용하여 효율적으로 보상한다는 점에서 큰 차이가 있다. 제안 방법에서는 먼저 기억성이 없는 고출력 증폭기만이 존재할 때의 사전왜곡기를 우리가 이미 제안한 고정점 반복 사전왜곡기 알고리즘에 기반하여 LUT로 구현하고, 여기에 선형 역 시스템을 결합하여 기억성을 갖는 비선형 왜곡을 보상한다. 실제 구현 가능성 검토를 위해 제안된 사전왜곡기와 16-QAM, 256-IFFT/FFT OFDM 시스템 기저대역 모뎀을 TMS320C30 DSP를 이용하여 구현하였으며, 실험 결과 작은 크기의 LUT를 이용하여도 원래의 고정점 반복 사전왜곡기에 비해 매우 적은 계산량을 요구하면서 동일한 성능을 얻을 수 있음을 확인하였다.있음을 확인하였다.

  • PDF

Pseudo-Morpheme-Based Continuous Speech Recognition (의사 형태소 단위의 연속 음성 인식)

  • 이경님
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.309-314
    • /
    • 1998
  • 언어학적 단위인 형태소의 특성을 유지하면서 음성인식 과정에 적합한 분리 기준의 새로운 디코딩 단위인 의사형태소를 정의하였다. 이러한 필요성을 확인하기 위해 새로이 정의된 37개의 품사 태그를 갖는 의사 형태소를 표제어 단위로 삼아 발음사전 생성과 형태소 해석에 초점을 두고 한국어 연속음성 인식 시스템을 구성하였다. 각 음성신호 구간에 해당되는 의사 형태소가 인식되면 언어모델을 사용하여 구성된 의사 형태소 단위의 상위 5개 문장을 기반으로 시작 시점과 끝 시점, 그리고 확률 값을 가진 의사 형태소 격자를 생성하고, 음성 사전으로부터 태그 정보를 격자에 추가하였다. Tree-trellis 탐색 알고리즘 기반에 의사 형태소 접속정보를 사용하여 음성언어 형태소 해석을 수행하였다. 본 논문에서 제안한 의사 형태소를 문장의디코딩 단위로 사용하였을 경우, 사전의 크기면에서 어절 기반의 사전 entry 수를 현저히 줄일 수 있었으며, 문장 인식률면에서 문자기반 형태소 단위보다 약 20% 이상의 인식률 향상을 얻을 수있었다. 뿐만 아니라 형태소 해석을 수행하기 위해 별도의 분석과정 없이 입력값으로 사용되며, 전반적으로 문자을 구성하는 디코딩 수를 안정화 시킬 수 있었다. 이 결과값은 상위레벨 언어처리를 위한 입력?으로 사용될 뿐만 아니라, 언어 정보를 이용한 후처리 과정을 거쳐 더 나은 인식률 향상을 꾀할 수 있다.

  • PDF

Automatic Extraction and Usage of Terminology Dictionary Based on Definitional Sentences Patterns in Technical Documents (기술문서 정의문 패턴을 이용한 전문용어사전 자동추출 및 활용방안)

  • Han, Hui-Jeong;Kim, Tae-Young;Doo, Hyo-Chul;Oh, Hyo-Jung
    • Journal of the Korean Society for information Management
    • /
    • v.34 no.4
    • /
    • pp.81-99
    • /
    • 2017
  • Technical documents are important research outputs generated by knowledge and information society. In order to properly use the technical documents properly, it is necessary to utilize advanced information processing techniques, such as summarization and information extraction. In this paper, to extract core information, we automatically extracted the terminologies and their definition based on definitional sentences patterns and the structure of technical documents. Based on this, we proposed the system to build a specialized terminology dictionary. And further we suggested the personalized services so that users can utilize the terminology dictionary in various ways as an knowledge memory. The results of this study will allow users to find up-to-date information faster and easier. In addition, providing a personalized terminology dictionary to users can maximize the value, usability, and retrieval efficiency of the dictionary.

At-site Low Flow Frequency Analysis Using Bayesian MCMC: I. Theoretical Background and Construction of Prior Distribution (Bayesian MCMC를 이용한 저수량 점 빈도분석: I. 이론적 배경과 사전분포의 구축)

  • Kim, Sang-Ug;Lee, Kil-Seong
    • Journal of Korea Water Resources Association
    • /
    • v.41 no.1
    • /
    • pp.35-47
    • /
    • 2008
  • The low flow analysis is an important part in water resources engineering. Also, the results of low flow frequency analysis can be used for design of reservoir storage, water supply planning and design, waste-load allocation, and maintenance of quantity and quality of water for irrigation and wild life conservation. Especially, for identification of the uncertainty in frequency analysis, the Bayesian approach is applied and compared with conventional methodologies in at-site low flow frequency analysis. In the first manuscript, the theoretical background for the Bayesian MCMC (Bayesian Markov Chain Monte Carlo) method and Metropolis-Hasting algorithm are studied. Two types of the prior distribution, a non-data- based and a data-based prior distributions are developed and compared to perform the Bayesian MCMC method. It can be suggested that the results of a data-based prior distribution is more effective than those of a non-data-based prior distribution. The acceptance rate of the algorithm is computed to assess the effectiveness of the developed algorithm. In the second manuscript, the Bayesian MCMC method using a data-based prior distribution and MLE(Maximum Likelihood Estimation) using a quadratic approximation are performed for the at-site low flow frequency analysis.

Construction of Partial Word Morpheme Dictionary based on Tagged Corpus and Korean Morphological Analysis (말뭉치 기반 부분 어절 기분석 사전의 구축과 형태소 분석)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.67-72
    • /
    • 2011
  • 기존의 말뭉치 기반 한국어 형태소 분석 방법은 대용량의 어절 기분석 사전을 사용하여 분석하고, 그 사전에 없는 어절은 코드 변환, 형태소 분리, 원형 복원 규칙 적용 등을 거치는 복잡한 분석 방법을 통해 후보들을 생성했다. 이 복잡한 분석 방법은 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확률을 낮추고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 부분 어절의 기분석 사전을 구축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 부분 어절의 기분석 사전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 재현율이 99.05%였으며, 품사 및 동형이의어 태깅 정확률은 96.76%였다.

  • PDF

A Study on the Prior Forecast System of Crossroads Traffic Information based on Vehicle-IT for Decision Assistant (차량 IT 기반 의사결정 지원을 위한 교차로 신호 사전예보 시스템에 관한 연구)

  • Lee, Yang Sun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.19 no.9
    • /
    • pp.2107-2113
    • /
    • 2015
  • This paper proposed a Prior Forecast System of Crossroad Traffic Information that allows vulnerable road users to perceive traffic signal changes beforehand and respond in concentrated traffic areas such as crossroads. Also, it mapped out information linking procedures of the proposed system and it designed a PHY based wireless communication simulator to verify the operational feasibility of wireless communications. Conclusively, by conducting performance analysis according to crossroad channel environments using the simulator designed in this paper, it verified that a Prior Forecast System of Crossroads Traffic Information service for vehicle IT based decision-making support for vulnerable road users is a possibility.