• 제목/요약/키워드: sentence analysis

검색결과 490건 처리시간 0.02초

쉼표의 자동분류에 따른 중국에 장문분할 (Segmentation of Long Chinese Sentences using Comma Classification)

  • 김미훈;김미영;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권5호
    • /
    • pp.470-480
    • /
    • 2006
  • 입력문장이 길어질수록 구문분석의 정확률은 크게 낮아진다. 따라서 긴 문장의 구문분석 정확률을 높이기 위해 장문분할 방법들이 많이 연구되었다. 중국어는 고립어로서 자연언어처리에 도움을 줄 수 있는 굴절이나 어미정보가 없는 대신 쉼표를 비교적 많이, 또 정확히 사용하고 있어서 이러한 쉼표사용이 장문분할에 도움을 줄 수 있다. 본 논문에서는 중국어 문장에서 쉼표 주변의 문맥을 파악하여 해당 쉼표위치에 문장분할이 가능한지 Support Vector Machine을 이용해 판단하고자 한다. 쉼표의 분류의 정확률이 87.1%에 이르고, 이 분할모델을 적용한 후 구문분석한 결과, 의존트리의 정확률이 5.6% 증가했다.

초등학교 과학 교과서의 텍스트에 대한 어휘와 문장 단위의 이독성 분석 (An Analysis on the Readability of the Texts in Elementary School Science Textbooks in Terms of Word and Sentence Units)

  • 강석진;고한중
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제33권3호
    • /
    • pp.549-557
    • /
    • 2014
  • In this study, the readability of the texts in the third and the sixth grade science textbooks developed under the 2007 revised science curriculum were analyzed in terms of word and sentence units. In the word unit analyses, the levels of the words in the texts were classified into four categories, 1st to 4th levels. In the sentence unit analyses, the sentences in the texts were classified either a simple sentence or compound/complex sentences, and the average length of the sentences was also calculated. The results indicated that more than 90 percents of the words in the 2007 revised science textbooks were classified as the 1st to the 3rd levels. However, both the kinds and the frequencies of the words in the 2007 revised science textbooks were increased in comparison of those in the 7th science textbooks. In particular, it was found that the increasement in the 3rd grade science textbook was noticeable. The ratio of the compound/complex sentences in the 2007 revised science textbooks were increased in comparison of those in the 7th science textbooks. The average length of the sentences in the 2007 revised science textbooks was also increased.

한국 정상 성인의 모음과 문단 산출 시 전기성문파형 측정 (The Analysis of Eletroglottographic Measures of Vowel and Sentence in Korean Healthy Adults)

  • 김재옥
    • 말소리와 음성과학
    • /
    • 제2권4호
    • /
    • pp.223-228
    • /
    • 2010
  • This study investigated the closed quotient and other voice quality parameters using electroglottography (EGG) in sustaining the vowel /a/ and reading a sentence at the comfortable pitch and loudness in healthy Korean adults. Seventy two healthy adults (36 men, 36 women) aged 20~40 years were included in the study. The tasks were recorded and analyzed using Lx Speech Studio. In vowel sustaining task, closed quotient (Qx), fundamental frequency (Fx), sound pressure level (SPL), Jitter, and Shimmer were measured. In sentence reading task, closed quotient (DQx), fundamental frequency (DFx), and sound pressure level (DAx) were measured. The sex effects were observed on Qx, Fx, Shimmer, DQx, and DFx. Men had significantly higher Qx and DQx than women, but had significantly lower Shimmer than women. However, there was no sex effect on Jitter. The task effects on Qx and SPL as well as DQx and DAx were also assessed. Qx and SPL were significantly higher than DQx and DAx in both gender. This study showed that the closed quotients in both vowel sustaining and sentence reading tasks were significantly related to other voice quality parameters. Therefore, clinicians and researchers should describe the voice quality parameters like fundamental frequency, sound pressure level, Jitter, Shimmer, and so on when reporting closed quotients using EGG.

  • PDF

문형구조의 분류에 따른 대화음성의 의도분석에 관한 연구 (Analysis of Intention in Spoken Dialogue based on Classifying Sentence Patterns)

  • 최환진;송창환;오영환
    • 한국음향학회지
    • /
    • 제15권1호
    • /
    • pp.61-70
    • /
    • 1996
  • 화자에 의해서 발성된 문장은 대화가 이루어지고 있는 화제나 발화이도에 따라 문장에 사용되는 단어의 구성 및 문장의 구조에 차이를 보이므로, 본 논문에서는 무형을 기반으로하여 문장의 구조와 의도사이의 관계를 사용하여 화자의 의도를 효과적으로 분석할 수 있는 통계적인 방법인 IDT(intention decision table)를 제안한다. IDT는 문장을 이루는 구성요소를 5가지로 분류하고, 입력문장에 대한 분석을 통해서 얻어진 구성요소들과 의도간의 통계적인 분석을 통해서 얻어진 의도 결정표를 이용하여 문장의 의도를 결정한다. 실험결과, 문장을 구성하는 단어와 이도간의 상관관계를 고려한 경우에 비해서 IDT를 사용하는 경우 10~18%정도의 의도 인식율 향상이 있었으며, 단어의 의도와의 관계 이외에 단어들간의 전이관계를 함께 모델링한 MIG 경우에 비해서도 3~12%의 향상된 의도 인식율을 보임으로써, 본 논문에서 제안한 IDT가 유효함을 알 수 있었다.

  • PDF

인도네시아어 보어 문장구조 분석: 학자들 시각 분석을 토대로 (An Analysis of Complement Structures of a Sentence in Indonesian: Based on the Analyses of Current Studies)

  • 임영호
    • 동남아시아연구
    • /
    • 제28권4호
    • /
    • pp.223-252
    • /
    • 2018
  • 인도네시아어 보어에 대한 일반적인 정의는 "서술어를 완전하게 만드는 절의 한 부분으로 서술어의 오른쪽에 위치한다."라고 서술되고 있으나 서술어를 완전하게 혹은 보충한다는 것이 어느 범위까지 서술어의 의미가 완벽하게 되는지 추상적인 설명이 된다. 통사적인 면에서 볼 때 "서술어를 완전하게 만드는 절의 한 부분으로 서술어의 오른쪽에 위치한다."라는 설명을 들 수 있다. 그러나 본 글에서 여러 학자의 설명을 분석해 볼 때 동사 서술어의 형태 및 기능, 그리고 의미 파악이 선행되어야 보어에 대한 문장구조를 파악할 수 있다. 즉 보어 개념을 분석하기 위하여는 형태-통사론적 측면 즉 서술어 구를 이루는 다양한 형태의 형용사와 동사의 기능 및 의미를 정확히 이해하고 뒤따르는 보어의 다양한 형태를 논할 수 있었다. 이 글의 서술 방법으로 최근 학자들의 다양한 견해를 소개하고 형태적으로 혹은 통사적으로 학자들의 의견 및 잘못된 편견에 대한 분석을 시도하였으며 아직 연구의 필요성이 있는 몇몇 형태의 보어 구문에 대한 문제점을 제시하였다.

일반 번역시스탬을 위한 일본어 해석기 설계 (A Design of Japanese Analyzer for Japanese to Korean Translation System)

  • 강석훈;최병욱
    • 전자공학회논문지B
    • /
    • 제32B권1호
    • /
    • pp.136-146
    • /
    • 1995
  • In this paper, a Japanese morphological analyzer for Japanese to Korean Machine Translation System is designed. The analyzer reconstructs the Japanese input sentence into word phrases that include grammatical and dictionary informations. Thus we propose the algorithm to separate morphemes and then connect them by reference to a corresponding Korean word phrases. And we define the connector to control Japanese word phrases It is used in controlling the start and the end point of the word phrase in the Japanese sentence which is without a space. The proposed analyzer uses the analysis dictionary to perform more efficient analysis than the existing analyzer. And we can decrease the number of its dictionary searches. Since the analyzer, proposed in this paper, for Japanese to Korean Machine Translation System processes each word phrase in consideration of the corresponding Korean word phrase, it can generate more accurate Korean expressions than the existing one which places great importance on the generation of the entire sentence structure.

  • PDF

문장 따라말하기 과제에서 3~7세 아동의 말소리발달 (Phonological development of children aged 3 to 7 under the condition of sentence repetition)

  • 김수진;박나래;장문수;김영태;신문자;하지완
    • 말소리와 음성과학
    • /
    • 제12권1호
    • /
    • pp.85-95
    • /
    • 2020
  • 아동이 산출하는 말소리를 평가할 때 단어와 문장을 유도하여 산출한 말소리를 분석하고, 자발화를 이용하여 분석하기도 한다. 단어 검사와 자발화 검사의 한계를 보완할 수 있는 평가 방법으로 문장 따라말하기 과제가 있다. 문장 따라말하기 과제를 통한 아동의 말소리 평가는 자발화와 유사한 특성을 보이면서 단어와 같이 제한된 시간 안에 다양한 음소를 평가할 수 있다. 본 연구에서는 다양한 모음문맥에서 자음을 배치하고 모든 음소가 3회 이상의 출현 기회를 가질 수 있도록 계획된 11개의 문장 따라말하기를 통해 연령과 성별에 따라서 단어단위 음운지표와 개정자음정확도의 발달을 살펴보았다. 전국에 거주하는 3세부터 7세까지 아동 535명을 대상으로 UTAP2에 새롭게 포함된 11개 문장 따라말하기 과제를 실시하였다. 말소리발달을 평가할 수 있는 지표 PCC-R, PWC, PMLU, PWP을 구하였다. 아동은 연령별 6개월 단위로 10개의 집단을 구분하고 각 지표에 대해 연령집단과 성별에 따른 차이를 분석하였다. 연구 결과, 모든 지표에서 연령이 증가함에 따라 수치가 상승하였으며 연령집단 간 차이는 유의하였다. 성별에 따른 차이와 연령과 성별의 상호작용효과는 유의하지 않은 것으로 나타났다. 본 연구는 전국에서 자료를 수집하였고, 연령집단을 6개월로 나누어 보았으며, 집단별 데이터를 충분히 수집하였다는 점과 단어와 자발화 검사의 한계점을 보완할 수 있는 문장 따라말하기라는 새로운 말소리 평가 방법의 연령별 준거 자료를 제시하였다는 측면에서 의의가 있다.

한국어 낭독과 자유 발화의 운율적 특성 (Korean prosodic properties between read and spontaneous speech)

  • 유승미;이석재
    • 말소리와 음성과학
    • /
    • 제14권2호
    • /
    • pp.39-54
    • /
    • 2022
  • 본 연구의 목적은 L2KSC(외국어로서의 한국어 음성 말뭉치)의 한국어 부분에서 한국어 낭독과 자유 발화를 분석하여 음성 유형의 운율 차이를 명확히 하는 것이다. 이를 위해 문장의 조음 길이, 조음 속도, 한 문장 내 휴지 길이 및 휴지 빈도, 문장 F0값을 변수로 설정하고 통계적 방법론(t-검정, 상관 분석, 회귀 분석)을 통해 분석하였다. 실험결과, 낭독과 자유 발화는 각 문장을 구성하는 운율구 형태가 구조적으로 달랐는데 각 발화 유형을 구별하는 운율적 요소로는 조음 길이, 휴지 길이, 휴지 빈도로 나타났다. 통계적 결과에서는 낭독 발화는 조음 속도와 조음 길이의 상관관계가 가장 높았는데, 이는 주어진 문장이 길수록 화자가 더 빨리 말하는 것을 설명하였다. 그러나 자유 발화에서는 문장의 조음 길이와 휴지 빈도 사이의 관계가 높았다. 전반적으로 자유 발화에서는 문장을 만들기 위해 짧은 억양구가 지속적으로 만들어지는데, 그런 이유로 더 많은 휴지가 발생하여 문장이 더 길어지는 것으로 나타났다.

코사인 유사도를 기반의 온톨로지를 이용한 문장유사도 분석 (Sentence Similarity Analysis using Ontology Based on Cosine Similarity)

  • 황치곤;윤창표;윤대열
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.441-443
    • /
    • 2021
  • 문장 또는 텍스트 유사도란 두 가지 문장의 유사한 정도를 나타내는 척도이다. 텍스트의 유사도를 측정하는 기법으로 자카드 유사도, 코사인 유사도, 유클리디언 유사도, 맨하탄 유사도 등과 같이 있다. 현재 코사인 유사도 기법을 가장 많이 사용하고 있으나 이는 문장에서 단어의 출현 여부와 빈도수에 따른 분석이기 때문에, 의미적 관계에 대한 분석이 부족하다. 이에 우리는 온톨로지를 이용하여 단어 간의 관계를 부여하고, 두 문장에서 공통으로 포함된 단어를 추출할 때 의미적 유사성을 포함함으로써 문장의 유사도에 분석의 효율을 향상하고자 한다.

  • PDF

효율적인 영어 구문 분석을 위한 최대 엔트로피 모델에 의한 문장 분할 (Intra-Sentence Segmentation using Maximum Entropy Model for Efficient Parsing of English Sentences)

  • 김성동
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.385-395
    • /
    • 2005
  • 긴 문장 분석은 높은 분석 복잡도로 인해 기계 번역에서 매우 어려운 문제이다. 구문 분석의 복잡도를 줄이기 위하여 문장 분할 방법이 제안되었으며 본 논문에서는 문장 분할의 적용률과 정확도를 높이기 위한 최대 엔트로피 확률 모델 기반의 문장 분할 방법을 제시한다. 분할 위치의 어휘 문맥적 특징을 추출하여 후보 분할 위치를 선정하는 규칙을 학습을 통해 자동적으로 획득하고 각 후보 분할 위치에 분할 확률 값을 제공하는 확률 모델을 생성한다. 어휘 문맥은 문장 분할 위치가 표시된 말뭉치로부터 추출되며 최대 엔트로피 원리에 기반하여 확률 모델에 결합된다. Wall Street Journal의 문장을 추출하여 학습 데이타를 생성하는 말뭉치를 구축하고 네 개의 서로 다른 영역으로부터 문장을 추출하여 문장 분할 실험을 하였다. 실험을 통해 약 $88\%$의 문장 분할의 정확도와 약 $98\%$의 적용률을 보였다. 또한 문장 분할이 효율적인 파싱에 기여하는 정도를 측정하여 분석 시간 면에서 약 4.8배, 공간 면에서 약 3.6배의 분석 효율이 향상되었음을 확인하였다.