• Title/Summary/Keyword: 트라이그램

Search Result 22, Processing Time 0.023 seconds

Extraction of Sentences with Social Relations for Automatic Construction of a Social Network (사회망 자동 구축을 위한 사회 관계 포함 문장 추출)

  • Choi, Maeng-Sik;Kim, Hark-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.217-220
    • /
    • 2011
  • 본 논문에서는 대용량의 말뭉치로부터 사회망을 자동 구축하기 위한 선행 연구로서 두 인명 사이의 사회관계를 포함하는 문장을 자동 선별하는 시스템을 제안한다. 제안 시스템은 먼저 2개의 인명을 포함하는 문장을 대상으로 형태소 분석과 의존 구조 분석을 수행한다. 그리고 두 인명의 공통 지배소를 기준으로 의존 트라이그램을 추출한다. 마지막으로 의존 트라이그램의 속성값 비교에 기반한 SVM 커널 함수를 이용하여 사회 관계 포함 여부를 결정한다. 실험 결과, 제안 방법이 영어권 연구에서 좋은 성능을 보인 최소 경로 의존 커널의 단점을 효과적으로 보완하였다. 또한, 사회망 자동 구축을 위한 도구로써 활용될 수 있음을 알 수 있었다.

HMM-based Korean Named Entity Recognition (HMM에 기반한 한국어 개체명 인식)

  • Hwang, Yi-Gyu;Yun, Bo-Hyun
    • The KIPS Transactions:PartB
    • /
    • v.10B no.2
    • /
    • pp.229-236
    • /
    • 2003
  • Named entity recognition is the process indispensable to question answering and information extraction systems. This paper presents an HMM based named entity (m) recognition method using the construction principles of compound words. In Korean, many named entities can be decomposed into more than one word. Moreover, there are contextual relationships among nouns in an NE, and among an NE and its surrounding words. In this paper, we classify words into a word as an NE in itself, a word in an NE, and/or a word adjacent to an n, and train an HMM based on NE-related word types and parts of speech. Proposed named entity recognition (NER) system uses trigram model of HMM for considering variable length of NEs. However, the trigram model of HMM has a serious data sparseness problem. In order to solve the problem, we use multi-level back-offs. Experimental results show that our NER system can achieve an F-measure of 87.6% in the economic articles.

File Content Retrieval Program Using HashMap-based Trie (HashMap 기반의 트라이를 이용한 파일 내용 검색 프로그램)

  • Kim, Sung Wan;Lee, Woosoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.01a
    • /
    • pp.467-468
    • /
    • 2014
  • 본 논문에서는 파일 내용 기반 검색 프로그램을 설계하고 구현하였다. 역 인덱스 구조를 이용하여 설계하였으며 별도의 정보 검색 라이브러리 사용 없이 구현하였다. 인덱스 파일은 트라이 자료 구조를 직접 설계 및 구현 하였으며 자바 언어의 HashMap 구조를 중첩 형태로 구현하였다. 개발 시스템의 유용성을 테스트하기 위해 GRE 단어집에 수록된 약 3,300개의 단어를 사용하여 임의 생성한 텍스트 파일 집합을 사용하였다.

  • PDF

Syntactic and Semantic Disambiguation for Interpretation of Numerals in the Information Retrieval (정보 검색을 위한 숫자의 해석에 관한 구문적.의미적 판별 기법)

  • Moon, Yoo-Jin
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.8
    • /
    • pp.65-71
    • /
    • 2009
  • Natural language processing is necessary in order to efficiently perform filtering tremendous information produced in information retrieval of world wide web. This paper suggested an algorithm for meaning of numerals in the text. The algorithm for meaning of numerals utilized context-free grammars with the chart parsing technique, interpreted affixes connected with the numerals and was designed to disambiguate their meanings systematically supported by the n-gram based words. And the algorithm was designed to use POS (part-of-speech) taggers, to automatically recognize restriction conditions of trigram words, and to gradually disambiguate the meaning of the numerals. This research performed experiment for the suggested system of the numeral interpretation. The result showed that the frequency-proportional method recognized the numerals with 86.3% accuracy and the condition-proportional method with 82.8% accuracy.

Korean Word Segmentation and Compound-noun Decomposition Using Markov Chain and Syllable N-gram (마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리)

  • 권오욱
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.3
    • /
    • pp.274-284
    • /
    • 2002
  • Word segmentation errors occurring in text preprocessing often insert incorrect words into recognition vocabulary and cause poor language models for Korean large vocabulary continuous speech recognition. We propose an automatic word segmentation algorithm using Markov chains and syllable-based n-gram language models in order to correct word segmentation error in teat corpora. We assume that a sentence is generated from a Markov chain. Spaces and non-space characters are generated on self-transitions and other transitions of the Markov chain, respectively Then word segmentation of the sentence is obtained by finding the maximum likelihood path using syllable n-gram scores. In experimental results, the algorithm showed 91.58% word accuracy and 96.69% syllable accuracy for word segmentation of 254 sentence newspaper columns without any spaces. The algorithm improved the word accuracy from 91.00% to 96.27% for word segmentation correction at line breaks and yielded the decomposition accuracy of 96.22% for compound-noun decomposition.

A Smart Set-Pruning Trie for Packet Classification (패킷 분류를 위한 스마트 셋-프루닝 트라이)

  • Min, Seh-Won;Lee, Na-Ra;Lim, Hye-Sook
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.36 no.11B
    • /
    • pp.1285-1296
    • /
    • 2011
  • Packet classification is one of the basic and important functions of the Internet routers, and it became more important along with new emerging application programs requiring real-time transmission. Since packet classification should be accomplished in line-speed on each incoming input packet for multiple header fields, it becomes one of the challenges in designing Internet routers. Various packet classification algorithms have been proposed to provide the high-speed packet classification. Hierarchical approach achieves effective packet classification performance by significantly narrowing down the search space whenever a field lookup is completed. However, hierarchical approach involves back-tracking problem. In order to solve the problem, set-pruning trie and grid-of-trie algorithms are proposed. However, the algorithm either causes excessive node duplication or heavy pre-computation. In this paper, we propose a smart set-pruning trie which reduces the number of node duplication in the set-pruning trie by the simple merging of the lower-level tries. Simulation result shows that the proposed trie has the reduced number of copied nodes by 2-8% compared with the set-pruning trie.

Korean Named Entity Recognition Based on Supervised Learning Using Named Entily Construction Principles (개체명 구성 원리를 이용한 교사학습 기반의 한국어 개체명 인식)

  • Hwang, Yi-Gyu;Lee, Hyun-Sook;Chung, Eui-Sok;Yun, Bo-Hyun;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.111-117
    • /
    • 2002
  • 개체명 인식은 질의응답(QA), 정보 주줄(IE), 텍스트 마이닝 시스템의 성능 향상에 중요한 역할을 담당한다. 이 논문에서는 교사학습 기반의 한국어 개체명 인식에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있으며, 개체명을 구성하는 단어 사이에는 의존 관계가 존재하고, 개체명과 개체명 주위의 단어 사이에도 문맥적 의존관계를 가지고 있다. 본 논문에서는 가변길이의 개체명과 주변 문맥의 학습을 위해 트라이그램을 이용한 HMM을 사용하였으며, 자료 부족 문제를 해소하기 위해 어휘 기반이 아닌 부개체 유형 기반의 학습을 수행하였다. 학습된 개체명 인식 시스템을 이용하여 경제 분야의 신문 기사에 대한 실험 결과, 84.4%의 정확률과 90.9%의 재현률을 보였다.

  • PDF

A Study on Engine Oil Consumption (엔진 오일 소모에 관한 연구)

  • Chun, Sang-Myung
    • Tribology and Lubricants
    • /
    • v.21 no.6
    • /
    • pp.296-301
    • /
    • 2005
  • 피스톤-실린더-링 틈새를 통해 일어나는 오일소모와 브로바이가스 증가는 최소화되어야 하며, 한편으로는 연료저감 및 성능증가 개선 측면에서 피스톤 링 팩의 마찰 손실도 줄일 필요가 있다. 이러한 두 가지 측면에서, 피스톤 링 팩의 최적 설계에 대한 연구가 수행되어야 한다. 따라서 오일소모 및 브로바이가스의 앙은 엔진개발과정 및 필드에서의 엔진운전 중에 엔진의 상태가 좋은지 나쁜지를 판단하는 중요한 요인이 된다. 본 연구의 목적은 연소실 내로의 오일 흐름 량과 피스톤 링 팩을 지나 아래로 내려가는 가스흐름을 계산하여 엔진오일 소모 및 브로바이가스를 예측하는 컴퓨터 프로그램을 개발하는 것이다. 향 후 본 프로그램을 이용하여 엔진의 상태를 미리 예측할 수 있을 것으로 본다.

A Study on the Load Characteristics of Herringbone-Grooved Journal Bearing (빗살무늬동압베어링의 부하특성에 관한 연구)

  • 강경필;임윤철
    • Proceedings of the Korean Society of Tribologists and Lubrication Engineers Conference
    • /
    • 1993.12a
    • /
    • pp.39-50
    • /
    • 1993
  • 최근 회전계의 고속화, 소형화 및 정숙운전에 대한 요구가 엄격해짐에 따라 볼베어링을 저어널베어링으로 대체하는 흐름이 증가하고 있으나, 저어널베어링의 기본 구조상 운전시 여러 종류의 진동모드가 발생되며 이에 따라 엄밀한 설계가 요구된다. 이러한 요구에 따라 본 연구에서는 불안정성을 억제할 수 있는 것으로 알려진 빗살무늬 저어널베어링을 대상으로 하여 보다 정확한 설계를 위한 수치해석 프로그램을 개발하였다. 빗살무늬저어널베어링의 해석법으로는 간극의 비선형성을 단순화 시키기 위하여 무한홈을 가정한 협곡이론을 시초로 하여 최근에는 컴류터 계산속도의 발달로 실제 형상에 대해 해석한 직접계산법 등이 알려져 있다. 직접계산법은 협곡이론에 의한 계산법에 비해 많은 시간이 걸리는 단점이 있으나, 베어링이 소형화되어 실제 많은 홈을 가공하기 힘들거나 홈이 원호형으로서 직각홈으로 가정하기가 곤란한 요소에서는 협곡이론을 적용하는데 무리가 있을 것으로 사료된다. 따라서 본 연구에서는 직접계산법을 채택하여 소형 베어링 모델에 대한 부하특성을 수치해석하고, 이를 협곡이론과의 비교를 통하여 그 차이점을 검토하였다. 이를 위해 압축성을 고려한 레이놀즈 방정식에 대한 베어링 주위의 압력분포를 계산하는 프로그램을 제작하였으며, 주어진 설계조건하에서 빗살무늬 형상을 결정하는 피라미터들의 최적값을 산출하고, 아울러 플레인저어널베어링과의 비교를 통하여 설계조건에 따른 빗살무늬저어널베어링의 기존 불베어리의 대체 가능성을 평가하였다.

  • PDF

Component Implementation of Electronic Dictionary (전자사전 컴포넌트의 구현)

  • Choe, Seong-Un
    • The KIPS Transactions:PartD
    • /
    • v.8D no.5
    • /
    • pp.587-592
    • /
    • 2001
  • Many applications are being developed to automate office works, and the electronic dictionary(e-Dictionary) is one of the main components of the office suites. Several requirements are proposed for the efficient e-dictionaries :1) Fast searching time, 2) Data compatibility with other e-dictionaries to deal with words and obsolete word, and 3) Reusable components to develop new customized e-dictionaries with minimized development time and cost. We propose a data format with which any e-dictionary can change data with others. We also develop System Dictionary component and Customer Dictionary component to enable-and-play component reuse. Our e-dictionary achieves fast searching time by efficiently managing Trie and B-tree index structure for the dictionary components.

  • PDF