• Title/Summary/Keyword: 여러 단어 요소

Search Result 38, Processing Time 0.019 seconds

Extracting Multi-type Elements Consisting of Multi-words from Sentences (문장으로부터 여러 단어로 구성된 여러 유형의 요소 추출)

  • Yang, Seon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.73-77
    • /
    • 2014
  • 문장을 대상으로 특정 응용 분야에 필요한 요소를 자동으로 추출하는 정보 추출(information extraction) 과제는 자연어 처리 및 텍스트 마이닝의 중요한 과제 중 하나이다. 특히 추출해야할 요소가 한 단어가 아닌 여러 단어로 구성된 경우 추출 과정에서 고려되어야할 부분이 크게 증가한다. 또한 추출 대상이 되는 요소의 유형 또한 여러 가지인데, 감정 분석 분야를 예로 들면 화자, 객체, 속성 등 여러 유형의 요소에 대한 분석이 필요하며, 비교 마이닝 분야를 예로 들면 비교 주체, 비교 상대, 비교 술어 등의 요소에 대한 분석이 필요하다. 본 논문에서는 각각 여러 단어로 구성될 수 있는 여러 유형의 요소를 동시에 추출하는 방법을 제안한다. 제안 방법은 구현이 매우 간단하다는 장점을 가지는데, 필요한 과정은 형태소 부착과 변환 기반 학습(transformation-based learning) 두 가지이며, 파싱 혹은 청킹 같은 별도의 전처리 과정도 거치지 않는다. 평가를 위해 제안 방법을 적용하여 비교 마이닝을 수행하였는데, 비교 문장으로부터 각자 여러 단어로 구성될 수 있는 세 가지 유형의 비교 요소를 자동 추출하였으며, 실험 결과 정확도 84.33%의 우수한 성능을 산출하였다.

  • PDF

An Android App Development for 'Ddut Da Hangul' with Word Learning and Game Facilities (단어 학습 및 게임 기능을 갖는 '떴다 한글' 안드로이드 앱 개발)

  • Woo, Young-Gon;Sim, Eun-Yeong;Chae, Sur-Hwa;Han, Seung-Soo;Kang, Hyun-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.142-146
    • /
    • 2015
  • 본 논문은 뜻풀이를 통해 한글단어를 맞추는 앱 어플리케이션인 '떴다 한글'의 구현에 대하여 논한다. 학습적인 요소와 게임적인 요소를 기반으로 만들어진 이 앱을 통하여 누구나 쉽게 이용하고 한글 단어를 학습할 수 있는 안드로이드 앱 어플리케이션이다. '떴다 한글'은 4가지 특징을 가진다. 첫 번째는 한글의 사전적인 의미를 제공하여 게임이 진행되기 때문에 사용자가 자신이 사용하는 언어의 정확한 뜻을 알 수 있게 하였다. 두 번째는 난이도를 선택할 수 있어 모든 연령대 사람들과 한글에 관심이 많은 외국인 사용자들이 쉽게 이용할 수 있다. 세 번째는 게임적 요소로 중요한 동적인 움직임과 함께 문제를 풀게 하여 사용자가 오랜 시간동안 지루하지 않게 하였다. 네 번째는 순위를 볼 수 있게 하여 자신의 점수를 등록하면 다른 사람들과 경쟁을 할 수 있도록 하여 더욱 이 앱에 관심을 갖도록 하였다. 이러한 특징들은 교육적 측면으로서 좋은 특징을 가지고 있다. 그 외에도 떴다 한글은 데이터베이스 파일을 중심으로 작동하기 때문에 파일의 구조와 입력 정보를 변경하여 여러 버전(헷갈리기 쉬운 단어, 순수우리말, 사자성어 등)의 게임으로 응용이 가능하다는 산업 및 기술적 측면의 모습도 볼 수 있다.

  • PDF

Revealing Hidden Relations between Query-Words for an Efficient Inducing User's Intention of an Information Search (효율적 검색의도 파악을 위한 쿼리 단어 가시화에 관한 연구)

  • Kwon, Soon-Jin;Hong, Chul-Eui;Kim, Won-Il
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.49 no.2
    • /
    • pp.44-52
    • /
    • 2012
  • This paper proposes to increase an efficiency of somebody searching information by a visualization of an unseen query words with well-selected user's intent structures. If a search engine identifies user's intent to pursue information, it would be an effective search engine. To do so, it is needed that relationships between query-words are to be visible after recovering words lost during formulated, and that an intention structure/elements is to be established. This paper will review previous studies, after then, define a simple structure of the search intent, and show a process to expand and to generate the query words appropriate to the intent structure with a method for the visualization of the query words. In this process, some examples and tests are necessary that one of the multiple intent structured layers is to assign to a range of query-words. Increasing/Decreasing an efficiency are analyzed to find. Future research is needed how to automate a process to extend structural nodules of user's intent.

An Image-based Word Matching Method for Large volume Printed Hangul Document Retrieval (대용량 인쇄 한글 문서 검색을 위한 영상 기반 단어 매칭 방법)

  • 진영범;오일석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.461-463
    • /
    • 2000
  • 기계 인쇄된 문서 영상에서 주제어를 탐색하는 문제는 여러 응용 분야에 필수적인 핵심 기술이지만 수작업 또는 OCR 소프트웨어를 이용하여 텍스트로 변환하는 방법은 많은 비용 때문에 한계를 가지고 있다. 요즘 영상 형태로 원문을 저장하는 경우가 많으므로 본 논문은 영상-기반 매칭을 통한 검색 방법을 채택하였다. 문자 또는 단어 매칭에서 가장 중요한 요소가 특징인데 본 논문에서는 디지털도서관과 같이 매칭 대상 단어가 수천만∼수십억에 달하는 대용량 한글 문서 검색에 이용될 수 있도록 비교적 간단히 추출할 수 있고 차원수 조절이 용이한 4방향 프로파일 특징을 이용하는 빠른 검색 방법을 제안한다. 실험결과 8-차원 정도의 간단한 특징으로도 의미 있는 검색 성능을 얻을 수 있음을 보였다.

  • PDF

Morphological Analysis and Spelling Check Function of Korean Morphological Analyzer HAM (한국어 형태소 분석기 HAM의 형태소 분석 및 철자 검사 기능)

  • Kang, Seung-Shik;Lee, Ha-Gyu
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.246-252
    • /
    • 1996
  • 한국어 형태소 분석기의 효율성에 영향을 미치는 요인은 분석 알고리즘의 효율성보다도 어휘 사전 등 형태소 분석과 관련된 여러 가지 요인들이 미치는 영향이 훨씬 더 크다. 따라서 단어의 유형 분류 기법이나 불규칙 용언의 분석 방법을 비롯하여 어휘 사전의 구조 및 크기, 알고리즘의 선택과 구현 등 형태소 분석과 관련된 모든 요소들을 형태소 분석에 적합하도록 구성하여야 한다. 본 논문에서는 어휘형태소 사전과 문법형태소 사전의 크기, 한글 문서에 나타나는 단어의 특성 등 형태소 분석기의 효율 및 성능에 영향을 미치는 요소들을 고찰하였다. 그 결과로 알고리즘의 효율보다는 사전 탐색 시간이 형태소 분석에 미치는 영향이 매우 크다는 것을 알 수 있었다. 이와 같이 형태소 분석기의 성능에 영향을 미치는 요인들을 고려하여 구현된 범용 형태소 분석기 HAM에 대하여 형태소 분석 기능과 철자 검사 기능을 실험하였다. 형태소 분석 성공률에 대한 실험 결과 99.46%의 분석률을 보이고 있으며, 맞춤법 검사 기능으로는 상용화된 철자 검사기와 비슷한 성능을 보이고 있다. HAM의 처리 속도는 pentium 120MHz linux 2.0 환경에서 1 초에 약 1,000 단어를 분석한다.

  • PDF

Current Status of Speech Database at ETRI (ETRI의 음성데이타베이스 구축현황)

  • 이영직
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.265-271
    • /
    • 1995
  • 한국전자통신연구소의 음성 데이터베이스 구축 현황을 기술한다. 현재 한국전자통신연구소에서는 음성인식 연구를 위해 단어음성, 정형 문장 음성 등의 데이터베이스를 구축, 보유하고 있다. 음성인식용 데이터베이스는 정해진 단어, 분장을 20명 내지 100명이 발성한 것으로, 일부는 음소 단위까지 레이블링이 되어 있다. 또 음성합성 연구를 위해 합성단위 및 운율데이타베이스를 가지고 있는데 이는 한 명 혹은 남녀 각각 3명이 발성한 것으로, 일부는 피치 등이 수록되어 있다. 문장 데이터베이스는 언어 정보처리를 위해 교재, 문학, 경제, 과학 분야의 문장을 총 480만 어절 가지고 있으며, 이 중 일부에 품사 정보를 추가하였다. 한국전자통신연구소는 국내 음성 연구의 발전에 기여하고자 음성 연구의 기반 자료가 되는 음성 데이터베이스를 국내 대학 및 산업체에 배포하고 있다 음성 데이터베이스는 음성 연구의 기반이 되는 자료임에도 불구하고 많은 비용과 노력이 들어 일반 대학에서는 쉽게 만들 수 없었다. 이에 ETRI는 한국통신이 출연한 "자동통역 요소기술개발" 과제으 LQNTKSANF인 여러 종류의 음성 데이터베이스와 관련 프로그램을 공급하여 국내 음성 연구의 기반 확립에 기여하고자 한다. 기여하고자 한다.

  • PDF

Implementation of an English POS Tagger for Medical (의학용 영어 품사 태거 구현)

  • Lee, Hyeon-Gu;Ahn, HyeokJu;Kim, HarkSoo
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.155-156
    • /
    • 2015
  • 자연어처리의 여러 분야에서 기본요소로 사용되는 영어 품사 태거를 UMLS의 의학용어 어휘정보와 OANC(Open American National Corpus) 말뭉치를 이용해 의학용 문서도 분석 가능한 의학용 영어 품사 태거를 제안한다. TRIE구조를 이용한 단어 묶음 모델로 여러 어절의 의학용어를 하나로 묶고 HMM(Hiden Markov Model)을 이용한 품사 태거로 해당하는 품사를 부착한다.

  • PDF

Speech Recognition Accuracy Prediction Using Speech Quality Measure (음성 특성 지표를 이용한 음성 인식 성능 예측)

  • Ji, Seung-eun;Kim, Wooil
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.20 no.3
    • /
    • pp.471-476
    • /
    • 2016
  • This paper presents our study on speech recognition performance prediction. Our initial study shows that a combination of speech quality measures effectively improves correlation with Word Error Rate (WER) compared to each speech measure alone. In this paper we demonstrate a new combination of various types of speech quality measures shows more significantly improves correlation with WER compared to the speech measure combination of our initial study. In our study, SNR, PESQ, acoustic model score, and MFCC distance are used as the speech quality measures. This paper also presents our speech database verification system for speech recognition employing the speech measures. We develop a WER prediction system using Gaussian mixture model and the speech quality measures as a feature vector. The experimental results show the proposed system is highly effective at predicting WER in a low SNR condition of speech babble and car noise environments.

A Morphological Analysis of Korean Business Names (한국 기업 이름의 형태론적 연구)

  • Kang, Eungyeong
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.10
    • /
    • pp.157-166
    • /
    • 2020
  • This study is a descriptive analysis of Korean business names listed on KOSDAQ (Korea Securities Dealers Automated Quotation) from a morphological perspective. A total of 1,358 business names on KOSDAQ are collected and analyzed in terms of origins and morphological structure. The analysis exhibits the monopoly of English: only 20% of the names are composed of only Korean elements, including Sino-Chinese, while 76% of them contain some form of English elements. It is pointed out that those English elements are not borrowed from English but are created in Korea and participate further word formation processes. In terms of word formation methods, compounding and shortening are most common, taking up 90% of all names. Multiple derived forms are used from an identical origin word, and even bound forms in English are taken and used as independent words, regardless of their original status in English. It is argued that Korean English is not entirely negative and should be considered as part of World Englishes.

Speaker Adaptation Using Neural Network in Continuous Speech Recognition (연속 음성에서의 신경회로망을 이용한 화자 적응)

  • 김선일
    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.1
    • /
    • pp.11-15
    • /
    • 2000
  • Speaker adaptive continuous speech recognition for the RM speech corpus is described in this paper. Learning of hidden markov models for the reference speaker is performed for the training data of RM corpus. For the evaluation, evaluation data of RM corpus are used. Parts of another training data of RM corpus are used for the speaker adaptation. After dynamic time warping of another speaker's data for the reference data is accomplished, error back propagation neural network is used to transform the spectrum between speakers to be recognized and reference speaker. Experimental results to get the best adaptation by tuning the neural network are described. The recognition ratio after adaptation is substantially increased 2.1 times for the word recognition and 4.7 times for the word accuracy for the best.

  • PDF