• Title/Summary/Keyword: 언어 분석

Search Result 4,670, Processing Time 0.03 seconds

Modification Distance Model for Korean Dependency Parsing Using Headible Path Contexts (지배가능 경로 문맥을 이용한 의존 구문 분석의 수식 거리 확률 모델)

  • Woo, Yeon-Moon;Song, Young-In;Park, So-Young;Rim, Hae-Chang;Chung, Hoo-Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.40-47
    • /
    • 2006
  • 본 논문에서는 한국어 의존 구문 분석을 위한 새로운 확률 모델을 제안한다. 한국어가 자유 어순 언어라 할지라도 지역적 어순은 존재하기 때문에 의존관계를 결정하기 위해 의존하는 두 어절인 의존소와 지배소 사이의 수식 거리가 유용하다는 것은 이미 많은 연구를 통해 밝혀졌다. 본 연구에서는 수식 거리의 정확한 수식 거리의 추정을 위해 지배가능경로 문맥을 이용한 수식 거리 확률 모델을 제안한다. 제안하는 모델의 구문 분석 성능은 86.9%이며, 기존에 제안된 구문 분석 모델과 비교하여 높은 구문 분석 결과를 보이며, 특히 원거리 의존관계에 대하여 더욱 향상된 성능을 보인다.

  • PDF

An Analysis on Noun Phrases in Situation Semantics (상황의미론에 의한 명사구의 의미분석)

  • Kyong, Chung-Sook
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.261-267
    • /
    • 1993
  • Barwise & Cooper (1991)는 Hans Kamp(1981)의 DRS(Discourse Representation structure)를 기초로 EKN(Extended Kamp Notation)을 개발하였다. 본 논문은 EKN을 통해 실제 자연언어의 의미를 분석하는 데 그 목적이었다. 특히 이 논문은 양화사 의미해석의 기본개념이 되는 자원상황(resource situation), 치역(range), 사건(event) 등의 개념을 구체화하여 영어나 한국어 명사구의 누적성과 의존성에 관련된 의미를 분석한다. '세명의 학생이 (비디오 가게에서) 영화 일곱편을 빌렸다'라는 표현은 '학생'과 '영화'의 배분성 ${\pm}$ 과 집합성 ${\pm}$ 에 의한 일곱가지 해석 이외에 '세명의 학생이 각자 빌린 영화들이 일곱가지'라는 누적적 해석도 가능하다. 이러한 명사구의 누적적 해석에 대하여 분석하고, 'John always wears a tie,. They, were all silk,'에서 'a tie'와 'they'가 공지표화(i) 되기 위한 통사적 요건(성, 수의 일치)을 충족하지 않는 의존적 복수에 대하여도 분석한다.

  • PDF

Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing (음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기)

  • Jeon, Nam-Youl;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

Disambiguation on the Analysis of Korean Complex Nominals, Using Probabilistic CFG Parsing (확률적 CFG 파싱을 활용한 한국어 복합명사 구조 분석의 중의성 해소)

  • Kim, Dong-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.61-66
    • /
    • 2011
  • 본 논문은 한국어 복합명사 구조의 분석을 목적으로 한다. 연구는 이론 언어학뿐만이 아니라 정보처리, 정보검색과 같은 언어의 전산적 처리에서도 중요한다. 복합명사 구조는 크게 외심구조와 내심구조로 나뉘며 내심구조의 경우에 좌분지나 우분지 구조로 분석이 되어야 하는 중의성이 있다. 기존의 Lauer 모델은 사전적 정보에서 발견되는 확률 정보를 구조 정보에 연결하기 위한 모델로 의존모델과 인접모델을 제시하였다. 본 연구에서는 구조에 기반을 둔 확률정보를 결합하기 위한 확률적 CFG 파싱 방법을 활용하고자 하였다. 이를 위해서 실제 코퍼스상에서 발견되는 복합명사 패턴을 대상으로 구조적 분석을 화자 직관을 통해서 진행하고, 이를 다시 Lauer 모델과 확률적 CFG 파싱 방법 응용과 비교해 보았다. 결과적으로 화자 직관에 가장 일치한 예측을 하였으며, 구조에 대한 정보 해석이 가능하였다.

  • PDF

Korean Morphological Analysis and Part-Of-Speech Tagging with LSTM-CRF based on BERT (BERT기반 LSTM-CRF 모델을 이용한 한국어 형태소 분석 및 품사 태깅)

  • Park, Cheoneum;Lee, Changki;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.34-36
    • /
    • 2019
  • 기존 딥 러닝을 이용한 형태소 분석 및 품사 태깅(Part-Of-Speech tagging)은 feed-forward neural network에 CRF를 결합하는 방법이나 sequence-to-sequence 모델을 이용한 방법 등의 다양한 모델들이 연구되었다. 본 논문에서는 한국어 형태소 분석 및 품사 태깅을 수행하기 위하여 최근 자연어처리 태스크에서 많은 성능 향상을 보이고 있는 BERT를 기반으로 한 음절 단위 LSTM-CRF 모델을 제안한다. BERT는 양방향성을 가진 트랜스포머(transformer) 인코더를 기반으로 언어 모델을 사전 학습한 것이며, 본 논문에서는 한국어 대용량 코퍼스를 어절 단위로 사전 학습한 KorBERT를 사용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 한국어 형태소 분석 및 품사 태깅 연구들 보다 좋은 (세종 코퍼스) F1 98.74%의 성능을 보였다.

  • PDF

A Pipeline Model for Korean Morphological Analysis and Part-of-Speech Tagging Using Sequence-to-Sequence and BERT-LSTM (Sequence-to-Sequence 와 BERT-LSTM을 활용한 한국어 형태소 분석 및 품사 태깅 파이프라인 모델)

  • Youn, Jun Young;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.414-417
    • /
    • 2020
  • 최근 한국어 형태소 분석 및 품사 태깅에 관한 연구는 주로 표층형에 대해 형태소 분리와 품사 태깅을 먼저하고, 추가 언어자원을 사용하여 후처리로 형태소 원형과 품사를 복원해왔다. 본 연구에서는 형태소 분석 및 품사 태깅을 두 단계로 나누어, Sequence-to-Sequence를 활용하여 형태소 원형 복원을 먼저 하고, 최근 자연어처리의 다양한 분야에서 우수한 성능을 보이는 BERT를 활용하여 형태소 분리 및 품사 태깅을 하였다. 본 논문에서는 두 단계를 파이프라인으로 연결하였고, 제안하는 형태소 분석 및 품사 태깅 파이프라인 모델은 음절 정확도가 98.39%, 형태소 정확도 98.27%, 어절 정확도 96.31%의 성능을 보였다.

  • PDF

Detecting Errors in Dependency Treebank through XGBoost and Cross Validation (XGBoost와 교차 검증을 이용한 구문분석 말뭉치에서의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Hyuk-Ro;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.103-107
    • /
    • 2020
  • 의존구조 말뭉치는 자연언어처리 분야에서 문장의 의존관계를 파악하는데 널리 사용된다. 이러한 말뭉치는 일반적으로 오류가 없다고 가정하지만, 현실적으로는 다양한 오류를 포함하고 있다. 이러한 오류들은 성능 저하의 요인이 된다. 이러한 문제를 완화하려고 본 논문에서는 XGBoost와 교차검증을 이용하여 이미 구축된 구문분석 말뭉치로부터 오류를 탐지하는 방법을 제안한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로, 일반적인 분류기로서 오류를 검출할 수 없다. 본 논문에서는 분류기의 결과를 분석하여 오류를 검출하는 방법을 제안한다. 성능을 분석하려고 표본집단과 모집단의 오류 분포의 차이를 분석하였고 표본집단과 모집단의 오류 분포의 차이가 거의 없는 것으로 보아 제안된 방법이 타당함을 알 수 있었다. 앞으로 의미역 부착 말뭉치에 적용할 계획이다.

  • PDF

Cultural Analysis of Apology in American TV Series -Taking Desperate Housewives as an Example- (미국 드라마에서 사과 언어의 문화적인 분석 연구 -<위기의 주부들>을 중심으로-)

  • Sun, Li-Li;Shin, You-Ho
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.1
    • /
    • pp.75-91
    • /
    • 2021
  • In this study, most of the previous researches on the analysis of apology are limited to comparative study of apology in different countries from the perspective of cross-cultural communication and analysis of apology in daily life. Therefore, by introducing pragmatics on apology strategy and cultural interpretation theories, this study tried to analyze apology and apology strategies in the seventh season of American TV series Desperate Housewives. Specifically speaking, based on Trosborg's classification of apology strategies, this study sorted out, classified and counted apology strategies in the seventh season of Desperate Housewives, and then 200 apology strategies were randomly selected and analyzed in detail. The statistical results showed that 'expression of apology' strategy was used at the highest frequency of 64.0%, followed by 'explanation or account' and 'minimizing the degree of offence'; 'Acknowledgement of responsibility', 'offer of repair' strategy, 'expressing concern for hearer' and 'promise of forbearance' were used relatively less frequently. The results can be interpreted by America's high individualism, low power distance and low-context culture having great influence on the frequency of American apology strategy. This study can increase understanding of apology and culture, reduce offence in communication with Americans, and make cross-cultural communication smooth, and meanwhile it is expected to enrich the research scope of TV drama art by analyzing language in TV drama art.

Analyses of Verbal Interaction among Students in Small Group Science Learning Using Smart Devices (스마트 기기를 활용한 소집단 과학 학습에서 학생의 언어적 상호작용 분석)

  • Yun, Jeonghyun;Kang, Sukjin;Ahn, Inyoung;Noh, Taehee
    • Journal of the Korean Chemical Society
    • /
    • v.61 no.3
    • /
    • pp.104-111
    • /
    • 2017
  • In this study, we analyzed verbal interactions in small group science learning using smart devices by the level of prior achievement. Four heterogeneous groups at a coed high school in Seoul participated. Verbal interactions during small group science learning were audio- and video-taped, transcribed, and analyzed. Verbal interactions were analyzed at the levels of a turn and an interaction unit. The results revealed that the frequencies of verbal interactions were high in task category, especially at information explanation, information question, and reflection on standards subcategories. Furthermore, the frequencies of high-level students at direction explanation, reflection on standards and progress subcategories were higher than those of low-level students, and the frequencies of low-level students at direction question and information explanation subcategories were higher than their counterpart. In the analyses of the interaction units, the frequencies in symmetric elaborated interaction were high, especially at cumulative and evaluative subcategories.

Correlation of 'The Period of Child Care Support Agency' and 'Child Language·Cognitive Development' (육아지원기관 이용기간과 아동의 언어·인지 발달 정도의 상관관계)

  • Lee, Ye-Jin;Park, Hyunchun;Noh, Jin-Won
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.7
    • /
    • pp.484-491
    • /
    • 2016
  • This study is to investigate the correlation of the period of child care support agency and child language cognitive development and to lead the development of the child in a positive side. For this purpose, Korea Children's Panel's 2012 data by the Korea Institute of Child Care and Education (KICCE) were used, selected 913 children of total 1703 parts. The result was derived from the results of frequency analysis, t-test, one-way ANOVA and multiple linear regression analysis. Analysis result, there was significant correlation between the period of child care support agency and child language cognitive development, and the longer the period of child care supper agency was the better child language cognitive development. Applying this results in health policy to expand the 'Free Childcare Policy', it will be higher for young child language and cognitive development.