• 제목/요약/키워드: Sentence Reduction

검색결과 25건 처리시간 0.023초

품사 정보와 템플릿을 이용한 문장 축소 방법 (A Sentence Reduction Method using Part-of-Speech Information and Templates)

  • 이승수;염기원;박지형;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권5호
    • /
    • pp.313-324
    • /
    • 2008
  • 문장 축소란 원본 문장의 기본적인 의미를 유지하면서 불필요한 단어나 구를 제거하는 일련의 정보 압축 과정을 의미한다. 기존의 문장 축소에 관한 연구들은 학습 과정에서 대량의 어휘나 구문적 자원을 필요로 하였으며, 복잡한 파싱 과정을 통해서 불필요한 문장의 구성원(예를 들어, 단어나 구, 절 등)들을 제거하여 문장을 요약하였다. 그러나 학습 데이타로부터 얻을 수 있는 어휘적 자원은 매우 한정적이며, 문장의 모호성과 예외적인 표현들 때문에 구문 분석 결과가 명료하게 제공되지 않은 언어에서는 문장 요약이 용이하지 않다. 이에 본 논문에서는 구문 분석을 대체하기 위한 방법으로 템플릿과 품사 정보를 이용한 문장 축소 방법을 제안한다. 제안하는 방법은 요약문의 구조적 형태를 결정하기 위한 문장 축소 템플릿(Sentence Reduction Templates)과 문법적으로 타당한 문장 구조를 구성하는 품사기반 축소규칙(Grammatical POS-based Reduction Rules)을 이용하여 요약 대상 문장의 구성을 분석하고 요약한다. 더불어, 문장 축소 템플릿 적용 시 발생하는 연산량 증가 문제를 은닉 마르코프 모델(HMM: Hidden Markov Model)의 비터비 알고리즘(Viterbi Algorithm)을 이용하여 효과적으로 처리한다. 마지막으로, 본 논문에서 제안한 문장 축소 방법의 결과와 기존 논문의 연구 결과를 비교 및 평가함으로써 제안하는 문장 축소 방법의 유용성을 확인한다.

지적장애인 대상 성범죄 재판 시 형의 감경사유에 대한 국민들의 인식 (Public perceptions of the reasons underlying sentence reduction for sex crimes against persons with intellectual disability)

  • 이미선
    • 한국심리학회지:법
    • /
    • 제12권3호
    • /
    • pp.323-341
    • /
    • 2021
  • 본 연구는 우리나라 성인 522명을 대상으로 지적장애인 성범죄 하급심 판결문에서 인용된 감경 사유에 대한 동의 여부 및 법정 형량의 적절성에 대한 온라인 설문조사를 실시하였다. 전체 응답자의 약 80%은 현행 지적장애인 성범죄 법정 형량을 적절하다고 판단하는 것으로 나타났다. 다만, 동의하지 않는 경우 현재보다 더 엄벌이 필요하다고 인식하였다. 거의 대부분의 응답자는 피고인의 '연령', '건강 상태', '사회경제적 수준', '성장배경 및 가정환경'과 같은 일신상의 이유 또는 범행이 '음주', '성적 충동', '우발적'으로 발생했다는 점을 감경 사유로 사용하는데 있어 동의하지 않았다. 반대로 '자수', '미수', '피고인의 지적장애', '진지한 반성' 등을 감경 사유로 사용하는데 있어서 동의 비율은 상대적으로 높았으나, 여전히 응답자의 절반 이상은 동의하지 않는 것으로 나타났다. 성별과 학력에 따른 감경사유 인식의 차이는 존재하지 않았다. 반면 응답자의 연령이 낮을수록 감경에 대해 더 엄격한 태도를 갖는 것으로 나타났다. 마지막으로 본 연구는 국민들의 의견이 반영된 양형기준의 필요성을 제안하였다.

스무고개 게임을 위한 음성인식 (Speech Recognition for twenty questions game)

  • 노용완;윤재선;홍광석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.203-206
    • /
    • 2002
  • In this paper, we present a sentence speech recognizer for twenty questions game. The proposed approaches for speaker-independent sentence speech recognition can be divided into two steps. One is extraction of the number of syllables in eojeol for candidate reduction, and the other is knowledge based language model for sentence recognition. For twenty questions game, we implemented speech recognizer using 956 sentences and 1095 eojeols. The results obtained in our experiments were 87% sentence recognition rate and 90.15% eojeol recognition rate.

  • PDF

문장읽기에서의 말더듬 감소율: 합독과 변조청각피드백 (Stuttering Reduction Rate during Sentence Reading: Choral Speech and Altered Auditory Feedback)

  • 박진;박희영
    • 말소리와 음성과학
    • /
    • 제4권4호
    • /
    • pp.109-115
    • /
    • 2012
  • This paper mainly aims to investigate how differently choral speech and altered auditory feedback (i.e., delayed auditory feedback, frequency-altered feedback) enhance speech fluency during sentence reading. To do this, a stuttering reduction rate was used and measured how much stuttering in frequency was reduced during each of the fluency enhancing conditions (i.e, typical choral reading, DAF, FAF) relative to typical solo reading. The results showed that stuttering frequency was reduced in the three fluency enhancing conditions and the highest mean value in stuttering reduction rate was observed during typical choral reading. Some discussion was provided in relation to the stuttering reduction rate observed during typical choral reading and its further speculation.

Factors Affecting Changes in English from a Synthetic Language to an Analytic One

  • Hyun, Wan-Song
    • 영어어문교육
    • /
    • 제13권2호
    • /
    • pp.47-61
    • /
    • 2007
  • The purpose of this paper is to survey the major elements that have changed English from a synthetic language to an analytic one. Therefore, this paper has looked at the differences between synthetic languages and analytic ones. In synthetic languages, the relation of words in a sentence is synthetically determined by means of inflections, while in analytic languages, the functions of words in a sentence are analytically determined by means of word order and function words. Thus, Old English with full inflectional systems shows the synthetic nature. However, in the course of time, Old English inflections came to be lost by phonetic changes and operation, which made English dependent on word order and function words to signal the relation of words in a sentence. The major phonetic changes that have shifted English are the change of final /m/ to /n/, the leveling of unstressed vowels, the loss of final /n/, and the decay of schwa in final syllables. These changes led to reduction of inflections of English as well as the loss of grammatical gender. The operation of analogy, the tendency of language to follow certain patterns and to adapt a less common form to a more familiar one, has also played an important role in changing English.

  • PDF

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

Issues and Empirical Results for Improving Text Classification

  • Ko, Young-Joong;Seo, Jung-Yun
    • Journal of Computing Science and Engineering
    • /
    • 제5권2호
    • /
    • pp.150-160
    • /
    • 2011
  • Automatic text classification has a long history and many studies have been conducted in this field. In particular, many machine learning algorithms and information retrieval techniques have been applied to text classification tasks. Even though much technical progress has been made in text classification, there is still room for improvement in text classification. In this paper, we will discuss remaining issues in improving text classification. In this paper, three improvement issues are presented including automatic training data generation, noisy data treatment and term weighting and indexing, and four actual studies and their empirical results for those issues are introduced. First, the semi-supervised learning technique is applied to text classification to efficiently create training data. For effective noisy data treatment, a noisy data reduction method and a robust text classifier from noisy data are developed as a solution. Finally, the term weighting and indexing technique is revised by reflecting the importance of sentences into term weight calculation using summarization techniques.

Unit Generation Based on Phrase Break Strength and Pruning for Corpus-Based Text-to-Speech

  • Kim, Sang-Hun;Lee, Young-Jik;Hirose, Keikichi
    • ETRI Journal
    • /
    • 제23권4호
    • /
    • pp.168-176
    • /
    • 2001
  • This paper discusses two important issues of corpus-based synthesis: synthesis unit generation based on phrase break strength information and pruning redundant synthesis unit instances. First, the new sentence set for recording was designed to make an efficient synthesis database, reflecting the characteristics of the Korean language. To obtain prosodic context sensitive units, we graded major prosodic phrases into 5 distinctive levels according to pause length and then discriminated intra-word triphones using the levels. Using the synthesis unit with phrase break strength information, synthetic speech was generated and evaluated subjectively. Second, a new pruning method based on weighted vector quantization (WVQ) was proposed to eliminate redundant synthesis unit instances from the synthesis database. WVQ takes the relative importance of each instance into account when clustering similar instances using vector quantization (VQ) technique. The proposed method was compared with two conventional pruning methods through objective and subjective evaluations of synthetic speech quality: one to simply limit the maximum number of instances, and the other based on normal VQ-based clustering. For the same reduction rate of instance number, the proposed method showed the best performance. The synthetic speech with reduction rate 45% had almost no perceptible degradation as compared to the synthetic speech without instance reduction.

  • PDF

기상조건에 따른 도시고속도로 교통류변화 분석 (The Effect of Rain on Traffic Flows in Urban Freeway Basic Segments)

  • 최정순;손봉수;최재성
    • 대한교통학회지
    • /
    • 제17권1호
    • /
    • pp.29-39
    • /
    • 1999
  • 본 연구는 우리나라의 고속도로 기본구간에서 기상조건에 따른 도시고속도로 교통류의 특성을 분석한 것이다. 본 연구의 주요 결과를 요약하면 다음과 같다. 첫째, 비가 올 경우 속도-교통류율간의 관계는 길어깨쪽 차로를 제외하고 차로별로 큰 차이가 없이 유사한 패턴을 보이는 것으로 나타났다. 둘째 교통류율-점유율간의 관계식은 비가 올 경우 그 관계성은 더 분명해지지만, 서비스교통류율이 약 200대/시/차로 정도 감소하는 것으로 나타났다. 셋째, 비가 올 경우 도로의 관측된 서비스교통류율은 맑은 날에 비해 약 10-20% 정도 감소하는 것으로 나타났으며, 이러한 결과는 1998 HCM에서 제시한 결과 및 교통류율-점유율 관계식의 기울기 감소 패턴과 일치한다. 넷째, 비가 올 경우 전체 차로의 소통능력은 맑은 날에 비해 감소하고 전반적으로 중앙분리대쪽 차로의 소통 능력이 길어깨쪽 차로에 비해 높은 것으로 나타났으나, 기상변화에 따른 차로별 임계속도와 임계점유율은 큰 변화가 없는 것으로 나타났다. 본 연구는 도시고속도로 기본구간의 1개 지점에서 나타난 특성으로서 공간적 분포 특성을 고려하기 위해서는 향후 연구에서 다양한 조건을 갖는 도로지점에 대해 분석해야 할 것이다. 또한 비 뿐만 아니라 안개나 눈에 의 한 영향을 고려한 상세한 분석이 필요하다. 본 연구의 결과는 그간 일반적으로 알려졌던 내용과 큰 차이는 없지만 실제로 고속도로를 설계하거나 운영하는데 근거자료로 활용할 수 있는 자료를 제공하는 측면에서 의미가 있다고 판단되며, 도로용량편람을 개정 및 수정하는 과정에서 명확히 명시해야할 기초자료를 제공하고 있다.Bayesian pooling technique for estimating the dynamic link travel time of networks. The proposed algorithm has been validated using the field experiment data out of GPS probes and detectors over the roadways and the estimated link travel time from the algorithm is proved to be more useful than the mere arithmetic mean from each traffic source. the whole sentence(preceeding sentence and the accompanying sentence). The conjunctive endings are '-고₂, -으며₂, -다가₂, -어서, -고서, 을수록, -은데₂, -으면₂, -어야₂, -어도₂, -으니까₂, -거든₁,'etc. Type C can be interpreted as the neutralized tense of the preceeding sentence and the absolute tense of the accompanying sentence. The conjunctive endings are '-으러, -으려고, -고자, -도록, -게,'etc. Type D can be described as the relative tense of the part of the preceeding sentence and the

  • PDF

오류분석을 통한 효율적인 영작문 지도법 (An effective teaching method of English composition through error analysis)

  • 박병제
    • 영어어문교육
    • /
    • 제1호
    • /
    • pp.159-187
    • /
    • 1995
  • The purpose of this study is to investigate common errors made by Korean learners in English composition and to find out what is an effective and appropriate teaching method of English composition in Korea. For these purposes, 197 students on the third grade in high school were selected as the subjects of this research. The students were tested by way of the immediate translation of 31 simple Korean sentences into English which are supposed to be easy for those students to write without any difficulty. About 2 minutes were given for testing each sentence. The results are as follows : First. the whole sum of errors made by 197 students was 2,972 and these types of errors were classified into 13 categories by Duskova's grammatical method and James'. The errors with comparatively high frequency were prepositional errors(17.2%), verbal errors(15.4%), and the errors with low frequency were article errors(1.9%), to-infinitive errors. Second, when Korean students learn English as a target language, overgeneralization(33.6%) and reduction(17.5) influenced the learners much more greatly than language transfer(22.2) did. But the influence of language transfer including interference & overgeneralization(l5.2%) and interference & reduction(10.7%) was no less than 48.1%. The statistics shows that the learners have a tendency to analyze, systematize and regularize the target language when they start to learn a new language.

  • PDF