• Title/Summary/Keyword: 최소단어

Search Result 56, Processing Time 0.019 seconds

A Study on Comparative Analysis with High-Frequency Word and Keyword using Word Embedding (워드임베딩을 이용한 온라인 비디오 강의의 고빈도 단어와 키워드 간의 유사도 비교 연구)

  • Jo, Jaechoon;Lim, Heuiseok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.385-386
    • /
    • 2017
  • 무료 온라인 교육환경은 교육의 기회를 제공함으로써, 지속적으로 관심이 높아지고 있으며 배움에 대한 노력에 중시하고 있다. 따라서 본 연구는 배움에 대한 노력을 온라인에서 자동으로 판단할 수 있는 최소학습 판단 시스템을 제안해 왔다. 최소학습을 판단하기 위해 온라인 비디오 강의에서 고빈도 단어를 추출하여 단어게임을 통해 판단하는데, 이때 고빈도 단어가 최소학습을 판단하기 위한 키워드로 사용할 수 있는지에 대한 검증 실험이 요구되었다. 따라서 본 논문은 워드임베딩을 이용하여 고빈도 단어와 키워드간의 유사도를 비교하여 고빈도 단어에 대한 검증 실험을 실시하였다. 실험 결과, 고빈도 단어가 온라인 비디오 강의를 대표할 수 있는 키워드로 사용될 수 있는 긍정적인 결과를 보였고 최소 학습을 판단하기 위한 요소(Feature)로 충분히 사용가능함을 보였다.

Automatic Prediction of 'Anti-Search Variants' of Twitter based on Word Embeddings and Phonetic Similarity (단어 임베딩과 음성적 유사도를 이용한 트위터 '서치 방지 단어'의 자동 예측)

  • Lee, Sangah
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.190-193
    • /
    • 2017
  • '서치 방지 단어'는 SNS 상에서 사용자들이 작성한 문서의 검색 및 수집을 피하기 위하여 사용하는 변이형을 뜻한다. 하나의 검색 키워드가 있다면 그와 같은 대상을 나타내는 변이형이 여러 형태로 존재할 수 있으며, 이들 변이형에 대한 검색 결과를 함께 수집할 수 있다면 데이터 확보가 중요하게 작용하는 다양한 연구에 큰 도움이 될 것이다. 본 연구에서는 특정 단어가 주어진 키워드로부터 의미 벡터 상의 거리가 가까울수록, 그리고 주어진 키워드와 비슷한 음성적 형태 즉 발음을 가질수록, 해당 키워드의 변이형일 가능성이 높을 것이라고 가정하였다. 이에 따라 단어 임베딩을 이용한 의미 유사도와 최소 편집 거리를 응용한 음성적 유사도를 이용하여 주어진 검색 키워드와 유사한 변이형들을 제안하고자 하였다. 그 결과 구성된 변이형 후보의 목록에는 다양한 형태의 단어들이 포함되었으며, 이들 중 다수가 실제 SNS 상에서 같은 의미로 사용되고 있음이 확인되었다.

  • PDF

Automatic Prediction of 'Anti-Search Variants' of Twitter based on Word Embeddings and Phonetic Similarity (단어 임베딩과 음성적 유사도를 이용한 트위터 '서치 방지 단어'의 자동 예측)

  • Lee, Sangah
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.190-193
    • /
    • 2017
  • '서치 방지 단어'는 SNS 상에서 사용자들이 작성한 문서의 검색 및 수집을 피하기 위하여 사용하는 변이형을 뜻한다. 하나의 검색 키워드가 있다면 그와 같은 대상을 나타내는 변이형이 여러 형태로 존재할 수 있으며, 이들 변이형에 대한 검색 결과를 함께 수집할 수 있다면 데이터 확보가 중요하게 작용하는 다양한 연구에 큰 도움이 될 것이다. 본 연구에서는 특정 단어가 주어진 키워드로부터 의미 벡터 상의 거리가 가까울수록, 그리고 주어진 키워드와 비슷한 음성적 형태 즉 발음을 가질수록, 해당 키워드의 변이형일 가능성이 높을 것이라고 가정하였다. 이에 따라 단어 임베딩을 이용한 의미 유사도와 최소 편집 거리를 응용한 음성적 유사도를 이용하여 주어진 검색 키워드와 유사한 변이형들을 제안하고자 하였다. 그 결과 구성된 변이형 후보의 목록에는 다양한 형태의 단어들이 포함되었으며, 이들 중 다수가 실제 SNS 상에서 같은 의미로 사용되고 있음이 확인되었다.

  • PDF

A Study on the Recognition-Rate Improvement by the Keyword Spotting System using CM Algorithm (CM 알고리즘을 이용한 핵심어 검출 시스템의 인식률 향상에 관한 연구)

  • Won Jong-Moon;Lee Jung-Suk;Kim Soon-Hyob
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.81-84
    • /
    • 2001
  • 본 논문은 중규모 단어급의 핵심어 검출 시스템에서 인식률 향상을 위해 미등록어 거절(Out-of-Vocabulary rejection) 기능을 제어하기 위한 연구이다. 이것은 핵심어 검출기에서 인식된 결과를 확인하는 과정으로 검증시스템이 구현되기 위해서는 매 음소마다 검증 기능이 필요하고, 이를 위해서 반음소(anti-phoneme model) 모델을 사용하였다. 검증의 역할은 인식기에서 인식된 단어가 등록어인지 미등록어인지 판별하는 것이다. 단어인식기는 비터비 탐색을 하므로, 기본적으로 단어단위로 인식을 하지만 그 인식된 단어는 내부적으로 음소단위로 인식된다. 따라서, 최소 검증 오류를 갖는 반음소 모델을 사용하고, 이를 이용하여 인식된 음소 단위들을 각각의 반음소 모델과 비교하여 통계적인 방법에 의해 신뢰도를 구한다 이 음소단위의 신뢰도를 단어 단위의 신뢰도로 환산하기 위해서 음소단위를 평균 내는 방식 을 취한다. 이렇게 함으로서, 등록어와 미등록어 사이의 분별력을 크게 하여 향상된 인식 성능을 얻었다.

  • PDF

A Study on the optimal text corpus for company names (한국어최적상호명코퍼스설계에관한연구)

  • Lee, Sun-Jung
    • Journal of the Korea Computer Industry Society
    • /
    • v.5 no.5
    • /
    • pp.747-754
    • /
    • 2004
  • In this paper, we obtain an optimal corpus that can represent its characteristics very well from the baseline corpus which consists of unique 1,566,943 names among company names in a directory assistance serve (114). Two kinds of optimal solutions ared considered to obtain the optimal corpus. The first solution is to find phonetically balanced corpus (PBC), which are the minimum set including all possible triphones in the baseline corpus. The second solution is to find the phonetically distributed corpus (PDC), which is a minimum set representing the frequency characteristics of triphones in the baseline corpus. We can obtain 8,699 words as the PBC and 16,783 words (similarity measure R = 0.92) as PDC, respectively. These corpora can be used for the development of speech recognition and speech synthesis.

  • PDF

Some Regular Languages and Prefix Coding (어떤 정규언어와 Prefix Coding)

  • Golin, Mordecai;Na, Hyeon-Suk
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.30 no.2C
    • /
    • pp.1-9
    • /
    • 2005
  • Code is a set of words. If, for any pair of words in the code, one is not prefix of another, the code is called "Prefix(-Free) Code". The prefix coding problem is, given n, to find an optimal code with the minimum-sum of lengths of n words. As a special case of this, we present a method to find, given language L in some specific classes of regular languages, an optimal code among prefix codes in L. We also show how the structure of optimal codes varies as n grows, using trees.

Automatic word clustering using total divergence to the average (평균점에 대한 불일치의 합을 이용한 자동 단어 군집화)

  • Lee, Ho;Seo, Hee-Chul;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.419-424
    • /
    • 1998
  • 본 논문에서는 단어들의 분포적 특성을 이용하여 자동으로 단어를 군집화(clustering) 하는 기법을 제시한다. 제안된 군집화 기법에서는 단어들 사이의 거리(distance)를 가상 공간상에 있는 두 단어의 평균점에 대한 불일치의 합(total divergence to the average)으로 측정하며 군집화 알고리즘으로는 최소 신장 트리(minimal spanning tree)를 이용한다. 본 논문에서는 이 기법에 대해 두 가지 실험을 수행한다. 첫 번째 실험은 코퍼스에서 상위 출현 빈도를 가지는 약 1,200 개의 명사들을 의미에 따라 군집화 하는 것이며 두 번째 실험은 이 논문에서 제시한 자동 군집화 방법의 성능을 객관적으로 평가하기 위한 것으로 가상 단어(pseudo word)에 대한 군집화이다. 실험 결과 이 방법은 가상 단어에 대해 약 91%의 군집화 정확도와(clustering precision)와 약 81%의 군집 순수도(cluster purity)를 나타내었다. 한편 두 번째 실험에서는 평균점에 대한 불일치의 합을 이용한 거리 측정에서 나타나는 문제점을 보완한 거리 측정 방법을 제시하였으며 이를 이용하여 가상 단어 군집화를 수행한 결과 군집화 정확도와 군집 순수도가 각각 약 96% 및 95%로 향상되었다.

  • PDF

Die Rolle des minimalen Wortes $f\"{u}r$ die prosodische Struktur des Deutschen (독일어 운율구조에서 최소단어의 역할)

  • Yu Si-Taek
    • Koreanishche Zeitschrift fur Deutsche Sprachwissenschaft
    • /
    • v.5
    • /
    • pp.67-89
    • /
    • 2002
  • Die meisten $W\"{o}rter$ im Deutschen, die zur lexikalichen Hauptkategorie $geh\"{o}ren,\;erf\"{u}llen$ die prosodischen Bedingungen, class sie ein phonologisches Wort bilden und class ein phonologisches Wort zumindest aus zwei Moren besteht. In dieser Arbeit wird gezeigt, welche Konsequenzen diese Constraints $f\"{u}r$ die prosodische Gestalt der deutschen $W\"{o}rter$ haben. Eine davon bezieht sich auf das $Ph\"{a}nomen$, das in der Literatur als 'minimales Wort' bekannt ist. Die distributionellen $Beschr\"{a}nkungen$ eines ungespannten kurzen Vokals im Deutschen sind darauf $Zur\"{u}ckzuf\"{u}hren$, class ein prosodisches Wort mindestens zwei Moren enthalten muss. Die Forderung nach einem minimalen Wort wirft aber die Frage, warum ein Stamm wie feige eine zweisilbige Struktur CVCV mit einer finalen Schwasilbe aufweisen, ein Stamm wie reif dagegen eine einsilbige Struktur eve. Allein die Forderung nach einem zweimorigen prosodischen Wort wurde auch eine ungrammatische Form wie feig $erf\"{u}llen$. Bei Formen wie feige ist festzustellen, dass das Constraint IDENT-IO [voiced] wichtiger als das Constraint ist, das einen einsilbigen Stamm verlangt. Eine Analyse, in der die finale Schwa-Silbe in einem CVCV-Stamm als ein stammbildendes Element oder Pseudosuffix aufgefasst wird, kann diese Interaktion zwischen Constraint nicht erfassen. Im Vergleich dazu zeigen die zweisilben Flexionsformen, bei denen Schwa-Silben als ein echtes Suffix fungieren, dass das Constraint 'Realisiere Morphem' nur dann verletzt werden kann, wenn es zur $Erf\"{u}llung\;des\;h\"{o}her$ rangierten Constraints OCP(nucleus) dient. Dieses Constraint ist seinerseits nur dann verletzbar, wenn damit das $h\"{o}here$ Constraint Coda-Cond erfullt werden kann.

  • PDF

블록화된 $2^{n-k}$ 부분실시법의 최적 디자인 선택에 관한 연구

  • 김공순;배종성
    • Communications for Statistical Applications and Methods
    • /
    • v.4 no.2
    • /
    • pp.393-401
    • /
    • 1997
  • 블록화한 $2^{n-k}$부분실시법에서 총 실헙횟수를 32회로 고정할때, 요인수가 ${6\leqq}n{\leqq10}$인 경우 가능한 모든 요인들간의 조합에 대해서 독립 생성자와 블록생성자를 구하고 이들 각 요인과 블록생성자로 구성된 디자인의 단어길이구조를 구하였다. 그리고 최소길이 방법으로 구한 최적의 부분실디자인을 Soren(1994a)의 방법에 따라 블록화하였다. Brownlee등(1948)의 최소길이 성질을 블록화한 부분실디자인에 확장시키고, 블록화한 부분실디자인은 확장된 최소길이 성질을 만족하는 최적의 디자인임을 보였다.

  • PDF

The Recognition of Korean Continuous Speech using Syntactic Analysis and Level Building (구문 분석과 Level Building을 이용한 한국어 연속음 인식)

  • 안태옥;변용규;김순협
    • The Journal of the Acoustical Society of Korea
    • /
    • v.5 no.4
    • /
    • pp.27-36
    • /
    • 1986
  • 본 논문은 특정 화자에 대한 하국어 연속음의 효율적인 인식을 위하여, 구문분석과 OGS기법으 로 변형시킨 Level Building을 이용한 인식시스템에 대해서 제안하고 있다. 본 시스템에서 사용하는 template는 연속음을 분할시킨 단독음이며 소구간 경로 및 본 논문에서 제안한 전체 경로 제약에 의해 거리 계산값이 최소인 super reference를 구함으로써 인식된다. 본 연구에서 사용한 연속음은 단독음 11 자로 구성된 13개의 전철역명으로서 2인의 남성과 1인의 여성화자에 의해 10번씩 발음한 130단어를 테 스트하였는데 97.7%의 단어인식을 보였다.

  • PDF