• 제목/요약/키워드: Sentence Compression

검색결과 19건 처리시간 0.023초

언어 정보가 반영된 문장 점수를 활용하는 삭제 기반 문장 압축 (Deletion-Based Sentence Compression Using Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.125-132
    • /
    • 2022
  • 문장 압축은 원본 문장의 중요한 의미는 유지하면서 길이가 축소된 압축 문장을 생성하는 자연어처리 태스크이다. 문법적으로 적절한 문장 압축을 위해, 초기 연구들은 사람이 정의한 언어 규칙을 활용하였다. 또한 시퀀스-투-시퀀스 모델이 기계 번역과 같은 다양한 자연어처리 태스크에서 좋은 성능을 보이면서, 이를 문장 압축에 활용하고자 하는 연구들도 존재했다. 하지만 언어 규칙을 활용하는 연구의 경우 모든 언어 규칙을 정의하는 데에 큰 비용이 들고, 시퀀스-투-시퀀스 모델 기반 연구의 경우 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 이를 해결할 수 있는 방법으로 사전 학습된 언어 모델인 BERT를 활용하는 문장 압축 모델인 Deleter가 제안되었다. Deleter는 BERT를 통해 계산된 perplexity를 활용하여 문장을 압축하기 때문에 문장 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않다는 장점이 있다. 하지만 Deleter는 perplexity만을 고려하여 문장을 압축하기 때문에, 문장에 속한 단어들의 언어 정보를 반영하여 문장을 압축하지 못한다. 또한, perplexity 측정을 위한 BERT의 사전 학습에 사용된 데이터가 압축 문장과 거리가 있어, 이를 통해 측정된 perplexity가 잘못된 문장 압축을 유도할 수 있다는 문제점이 있다. 이를 해결하기 위해 본 논문은 언어 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 계산에 반영하는 방법을 제안한다. 또한 고유명사가 자주 포함되어 있으며, 불필요한 수식어가 생략되는 경우가 많은 뉴스 기사 말뭉치로 BERT를 fine-tuning하여 문장 압축에 적절한 perplexity를 측정할 수 있도록 하였다. 영어 및 한국어 데이터에 대한 성능 평가를 위해 본 논문에서 제안하는 LI-Deleter와 비교 모델의 문장 압축 성능을 비교 실험을 진행하였고, 높은 문장 압축 성능을 보임을 확인하였다.

Compression Effects of Number of Syllables on Korean Vowel

  • Yun, Il-Sung
    • 음성과학
    • /
    • 제9권1호
    • /
    • pp.173-184
    • /
    • 2002
  • The question of Korean rhythmic type is still a controversial issue (syllable-timed; stress-timed; word-timed). As a step toward solving the question, an experiment was carried out to examine compression effects in Korean. There has been a general belief that the increase of the number of following or preceding syllables causes compression of a vowel (or syllable) in many languages, and a marked anticipatory compression effect can be especially indicative of stress timing. The purpose of this research, therefore, was to obtain some evidence to determine whether or not Korean is stress-timed. The durations of the target vowel/a/ of the monosyllabic word /pap/ were measured at both word and sentence level. In general, marked anticipatory and backward compression effects on the target vowel were observed across one-, two- and three-syllable words in citation form, whereas the effects were neither marked nor consistent at sentence level. These results led us to claim that Korean is not stress-timed.

  • PDF

작은 화면 기기에서의 출력을 위한 신문기사 헤드라인 형식의 문장 축약 시스템 (Sentence Compression of Headline-style Abstract for Displaying in Small Devices)

  • 이공주
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.691-696
    • /
    • 2005
  • 모바일 디바이스와 같이 작은 필기의 화면을 갖는 기기에서는 긴 문장의 내용을 한눈에 파악하기가 쉽지 않다. 본 논문에서는 신문기사와 그 헤드라인으로부터 추출한 정보로부터 문장을 자동으로 축약할 수 있는 시스템을 제안하고자 한다. 축약된 문장은 문장 내의 필수적이지 않은 요소들을 제거함으로써 그 기본 의미는 그대로 전달하되 문장의 길이를 축소시킨 것이다. 신문기사의 헤드라인으로부터 문장 축약 방법을 학습하였기 때문에 매우 간결한 형태로 문장을 축약할 수 있다 예비 실험을 통해 본 논문에서 제안하고 있는 시스템이 생성해 내는 축약문장이 유용함을 보이고자 한다.

Vowel Compression due to Syllable Number in English and Korean

  • Yun, Il-Sung
    • 음성과학
    • /
    • 제9권4호
    • /
    • pp.165-173
    • /
    • 2002
  • Strong compression effects in a stressed vowel due to the addition of syllables have been adopted as evidence for stress-timing. In relation to this, Yun (2002) investigated the compression effects of number of syllables on Korean vowel. The results generally revealed that Korean had neither significant nor consistent anticipatory or backwards compression effects, especially when it came to the sentence level. This led us to claim that Korean would not be a stress-timed language. But the language investigated in the study was only Korean, and further cross-linguistic research was needed to confirm the claim. In this study, Yun's (2002) sentence level data are compared with Fowler's (1981) English data. The comparison reveals that Korean seems to be similar to English in the backwards compression effect, whereas the two languages are markedly different in the anticipatory compression effect. Thus, if English is a stress-timed language and the strong anticipatory compression effect is evidence in favour of stress-timing as is claimed, the present cross-linguistic study confirms Yun's (2002) suggestion-Korean is unlikely to be stress-timed. On the other hand, compression effects are revisited: the differences in vowel compression between English and Korean are discussed from the syntactic and phonological points of view.

  • PDF

시간 변화와 선택적 단어 강조법이 정상 청력 성인의 문장인지도에 미치는 영향 (Perception of Time-altered Sentences and Selective Word Stress by Normal-hearing Listeners)

  • 한우재;유재형;조수진
    • 한국음향학회지
    • /
    • 제32권5호
    • /
    • pp.430-437
    • /
    • 2013
  • 본 연구는 정상 청력인에서 시간 변화 (i.e., 압축과 확장)와 선택적 단어 강조법이 문장인지도에 영향을 미칠수 있는지를 평가하였다. 정상 청력을 지닌 성인 20명이 연구에 참여 하였다. 자극음으로 한국표준 일반용 문장표(KS-SL-A)가 사용되었고, 문법적으로는 적절하지만 의미론적으로는 변칙적이고 무의미하게 재구성한 후, 여성 화자에 의해 녹음하였다. 시간 변화는 7단계 (e.g., ${\pm}60%$, ${\pm}40%$, ${\pm}20%$, 0 %)의 압축 및 확장으로 조절하였다. 이 때 선택적 단어 강조법 (i.e., 문장 내에서 특정 단어를 강조)의 효과를 보기 위하여 모든 대상자들에게 2주 간격으로 두 번 검사를 시행하였다. 연구 결과 1) 시간 변화에 따른 문장인지도 정반응률은 60 % 압축 조건에서만 통계적으로 유의하게 낮았다. 2) 선택적 단어의 강조 유무에 따른 문장인지도의 정반응률은 유의한 차이가 없었다. 그러나 6 ~ 7개의 어절로 이루어진 장문장의 자극음을 사용할 경우, 40 % 압축 조건에서 단어가 +6 dB 강조되었을 때, 유의하게 정반응률이 향상되었다. 3) 성별에 따른 문장인지도의 정반응률은 유의한 차이가 없었다. 본 연구의 결과는 조금 빠른 시간 압축과 선택적 단어 강조법을 함께 사용했을 때가 시간 확장만 사용하였을 때보다 문장을 이해하는데 더 효과적임을 시사하고 있다. 그러나 후속 연구에 의한 표준화 자료가 동반되어야 하겠다.

품사 정보와 템플릿을 이용한 문장 축소 방법 (A Sentence Reduction Method using Part-of-Speech Information and Templates)

  • 이승수;염기원;박지형;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권5호
    • /
    • pp.313-324
    • /
    • 2008
  • 문장 축소란 원본 문장의 기본적인 의미를 유지하면서 불필요한 단어나 구를 제거하는 일련의 정보 압축 과정을 의미한다. 기존의 문장 축소에 관한 연구들은 학습 과정에서 대량의 어휘나 구문적 자원을 필요로 하였으며, 복잡한 파싱 과정을 통해서 불필요한 문장의 구성원(예를 들어, 단어나 구, 절 등)들을 제거하여 문장을 요약하였다. 그러나 학습 데이타로부터 얻을 수 있는 어휘적 자원은 매우 한정적이며, 문장의 모호성과 예외적인 표현들 때문에 구문 분석 결과가 명료하게 제공되지 않은 언어에서는 문장 요약이 용이하지 않다. 이에 본 논문에서는 구문 분석을 대체하기 위한 방법으로 템플릿과 품사 정보를 이용한 문장 축소 방법을 제안한다. 제안하는 방법은 요약문의 구조적 형태를 결정하기 위한 문장 축소 템플릿(Sentence Reduction Templates)과 문법적으로 타당한 문장 구조를 구성하는 품사기반 축소규칙(Grammatical POS-based Reduction Rules)을 이용하여 요약 대상 문장의 구성을 분석하고 요약한다. 더불어, 문장 축소 템플릿 적용 시 발생하는 연산량 증가 문제를 은닉 마르코프 모델(HMM: Hidden Markov Model)의 비터비 알고리즘(Viterbi Algorithm)을 이용하여 효과적으로 처리한다. 마지막으로, 본 논문에서 제안한 문장 축소 방법의 결과와 기존 논문의 연구 결과를 비교 및 평가함으로써 제안하는 문장 축소 방법의 유용성을 확인한다.

어텐션 알고리듬 기반 양방향성 LSTM을 이용한 동영상의 압축 표준 예측 (Video Compression Standard Prediction using Attention-based Bidirectional LSTM)

  • 김상민;박범준;정제창
    • 방송공학회논문지
    • /
    • 제24권5호
    • /
    • pp.870-878
    • /
    • 2019
  • 본 논문에서는 어텐션 알고리듬 (attention algorithm) 기반의 양방향성 LSTM (bidirectional long short-term memory; BLSTM) 을 동영상의 압축 표준을 예측하기 위해 사용한다. 자연어 처리 (natural language processing; NLP) 분야에서 순환적 신경망 (recurrent neural networks; RNN) 의 구조를 이용하여 문장의 다음 단어를 예측하거나 의미에 따라 문장을 분류하거나 번역하는 연구들은 계속되어왔고, 이는 챗봇, 음성인식 스피커, 번역 애플리케이션 등으로 상용화되었다. LSTM 은 RNN에서 gradient vanishing problem 을 해결하고자 고안됐고, NLP 분야에서 유용하게 사용되고 있다. 제안한 알고리듬은 BLSTM과 특정 단어에 집중하여 분류할 수 있는 어텐션 알고리듬을 자연어 문장이 아닌 동영상의 비트스트림에 적용해 동영상의 압축 표준을 예측하는 것이 가능하다.

파형 부호와 방식에 의한 정보압축과 퍼포먼스에 관한 연구 (The study on the information compression by coding method and its performance)

  • 안동순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1985년도 학술발표회 논문집
    • /
    • pp.68-71
    • /
    • 1985
  • In this paper, Sentence-Sip E Il Ka Gi Seo U1 E Gan Da was spoken by 4 men and 3 see sound is used for the experiment. A/D conversion time is 30 sec. Data are obtained using the microcomputer and compressed by ADPCM Rate of compression is 1/8. Data compressed by ADPCM are synthesized and compared to the original sound. Rate of speech identification is analysed using the sound pressure, white noise. Coding of ADPCM is done for 5bit. As the result of fixing starting voltage by 2.6V. It is acertained that variable value increases in initial speech signal and then process is made by minimum value "3". From the result of processing, synthesized sound is almost eaual to original sound. Minimum values cause distorition, Dummy Head System is used in this experiment.xperiment.

  • PDF

언어 정보를 반영한 문장 점수 측정 기반의 문장 압축 (Sentence Compression based on Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.389-392
    • /
    • 2021
  • 문장 압축은 원본 문장의 중요한 의미를 보존하는 짧은 길이의 압축 문장을 생성하는 자연어처리 태스크이다. 문장 압축은 사용자가 텍스트로부터 필요한 정보를 빠르게 획득할 수 있도록 도울 수 있어 활발히 연구되고 있지만, 기존 연구들은 사람이 직접 정의한 압축 규칙이 필요하거나, 모델 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 사전 학습된 언어 모델을 통한 perplexity 기반의 문장 점수 측정을 통해 문장을 압축하여 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않은 연구 또한 존재하지만, 문장 점수 측정에 문장에 속한 단어들의 의미적 중요도를 반영하지 못하여 중요한 단어가 삭제되는 문제점이 존재한다. 본 논문은 언어 정보 중 품사 정보, 의존관계 정보, 개체명 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 측정에 반영하는 방법을 제안한다. 또한 제안한 문장 점수 측정 방법을 활용하였을 때 문장 점수 측정 기반 문장 압축 모델의 문장 압축 성능이 향상됨을 확인하였으며, 이를 통해 문장에 속한 단어의 언어 정보를 문장 점수 측정에 반영하는 것이 의미적으로 적절한 압축 문장을 생성하는 데 도움이 될 수 있음을 보였다.

자동이득 조절에서 해제시간에 따른 어음인지점수 변화 (The Word Recognition Score According to Release Time on Automatic Gain Control)

  • 황세미;전유용;박헌진;송영록;이상민
    • 대한의용생체공학회:의공학회지
    • /
    • 제31권5호
    • /
    • pp.385-394
    • /
    • 2010
  • Automatic gain control(AGC) is used in hearing aids to compensate for the hearing level as to reduced dynamic range. AGC is consisted of the main 4 factors which are compression threshold, compression ratio, attack time, and release time. This study especially focus on each individual need for optimum release time parameters that can be changed within 7 certain range such as 12, 64, 128, 512, 2094, and 4096ms. To estimate the effect of various release time in AGC, twelve normal hearing and twelve hearing impaired listeners are participated. The stimuli are used by one syllable and sentence which have the same acoustic energy respectively. Then, each of score of the word recognition score is checked in quiet and noise conditions. As a result, it is verified that most people have the different best recognition score on specific release time. Also, if hearing aids is set by the optimum release time in each person, it is helpful in speech recognition and discrimination.