• Title/Summary/Keyword: Syntactic Word Similarity

Search Result 12, Processing Time 0.018 seconds

Integrated Clustering Method based on Syntactic Structure and Word Similarity for Statistical Machine Translation (문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역)

  • Kim, Hankyong;Na, Hwi-Dong;Li, Jin-Ji;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.44-49
    • /
    • 2009
  • 통계기계번역에서 도메인에 특화된 번역을 시도하여 성능향상을 얻는 방법이 있다. 이를 위하여 문장의 유형이나 장르에 따라 클러스터링을 수행한다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 문장 사이의 문법적 구조 유사성으로 문장을 유형별로 분류하는 새로운 기법을 제시하였고, 단어 유사도 정보로 문서의 장르를 구분하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조의 유사성과 단어 유사도 계산을 위하여 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정은 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다.

  • PDF

Analysis of the Continuity of Reading Passages in the 5th and 6th Grade Elementary School English Textbooks Based on Readability (이독성을 통한 초등학교 5, 6학년 영어 교과서 읽기 지문의 연계성 분석)

  • Jang, Hankyeol;Lee, Je-Young
    • The Journal of the Korea Contents Association
    • /
    • v.22 no.6
    • /
    • pp.116-124
    • /
    • 2022
  • The purpose of this study is to examine the vertical and horizontal continuity between grades and publishers, respectively, by analyzing the readability of reading passages included in English textbooks for 5th and 6th grades of elementary school. In order to do so, a corpus was constructed with the reading passages contained in 10 textbooks, and the reading passages in each textbook were analyzed through Coh-Metrix. Also, it was examined whether there was a statistically significant difference between grades and publishers in readability through one-way ANOVA. The results are as follows. First, as a result of analyzing the difference in readability between publishers within the same grade, there was a statistically significant difference between fifth-grade textbooks in the L2 readability index. Second, as a result of analyzing the vertical continuity between grades within the publisher, the difficulty of textbook A was higher in grade 6 than grade 5 based on FRE and FKGL, which showed a statistically significant difference. On the other hand, when L2 readability was used as the standard, the difficulty of textbook B was lower in 6th grade than in 5th grade. This result seems to be because FRE and FKGL calculate readability based on sentence and word length, whereas L2 readability is based on content word overlap, word frequency, and syntactic similarity of sentences.