• Title/Summary/Keyword: linguistics

Search Result 733, Processing Time 0.024 seconds

Korean Idiom Classification Using Word Embedding (워드 임베딩을 활용한 관용표현 인식 연구)

  • Park, Seo-Yoon;Kang, Ye-Jee;Kang, Hye-Rin;Jang, Yeon-Ji;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.548-553
    • /
    • 2020
  • 우리가 쓰는 일상 언어 중에는 언어적 직관이 없는 사람은 의미 파악이 힘든 관용표현이 존재한다. 관용표현을 이해하기 위해서는 표현에 대한 형태적, 의미적 이해가 수반되어야 하기 때문이다. 기계도 마찬가지로 언어적 직관이 없기 때문에 관용표현에 대한 자연어 처리에는 어려움이 따른다. 특히 일반표현과 중의성 관계에 있는 관용표현의 특성이 고려되지 않은 채 문자적으로만 분석될 위험성이 높다. 본 연구에서는 '관용표현은 주변 문맥과의 관련성이 떨어진다'라는 가정을 중심으로 워드 임베딩을 활용한 관용표현과 일반표현에 대한 구분을 시도하였다. 실험은 4개 표현에 대해 이루어 졌으며 Skip-gram, Fasttext를 활용한 방법을 통해 관용표현은 주변 단어들과의 유사성이 떨어짐을 확인하였다.

  • PDF

A Study on the Construction of keyphrase dataset for paraphrase extraction (패러프레이즈 추출을 위한 키프레이즈 데이터셋 구축 방법론 연구)

  • Kang, Hyerin;Kang, Yejee;park, Seoyoon;Jang, Yeonji;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.357-362
    • /
    • 2020
  • 자연어 처리 응용 시스템이 패러프레이즈 표현을 얼마나 정확하게 포착하는가에 따라 응용 시스템의 성능 측면에서 차이가 난다. 따라서 자연어 처리의 응용 분야 전반에서 패러프레이즈 표현에 대한 중요성이 커지고 있다. 시스템의 성능 향상을 위해서는 모델을 학습시킬 충분한 말뭉치가 필요하다. 특히 이러한 패러프레이즈 말뭉치를 구축하기 위해서는 정확한 패러프레이즈 추출이 필수적이다. 따라서 본 연구에서는 패러프레이즈를 추출을 위한 언어 자원으로 키프레이즈 데이터셋을 제안하고 이를 기반으로 유사한 의미를 전달하는 패러프레이즈 관계의 문장을 추출하였다. 구축한 키프레이즈 데이터셋을 패러프레이즈 추출에 활용한다면 본 연구에서 수행한 것과 같은 간단한 방법으로 패러프레이즈 관계에 있는 문장을 찾을 수 있다는 것을 보였다.

  • PDF

A Study on Evaluating Summarization Performance using Generative Al Model (생성형 AI 모델을 활용한 요약 성능 평가 연구 )

  • Gyuri Choi;Seoyoon Park;Yejee Kang;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.228-233
    • /
    • 2023
  • 인간의 수동 평가 시 시간과 비용의 소모, 주석자 간의 의견 불일치, 평가 결과의 품질 등 불가피한 한계가 발생한다. 본 논문에서는 맥락을 고려하고 긴 문장 입출력이 가능한 ChatGPT를 활용한 한국어 요약문 평가가 인간 평가를 대체하거나 보조하는 것이 가능한가에 대해 살펴보았다. 이를 위해 ChatGPT가 생성한 요약문에 정량적 평가와 정성적 평가를 진행하였으며 정량적 지표로 BERTScore, 정성적 지표로는 일관성, 관련성, 문법성, 유창성을 사용하였다. 평가 결과 ChatGPT4의 경우 인간 수동 평가를 보조할 수 있는 가능성이 있음을 확인하였다. ChatGPT가 영어 기반으로 학습된 모델임을 고려하여 오류 발견 성능을 검증하고자 한국어 오류 요약문으로 추가 평가를 진행하였다. 그 결과 ChatGPT3.5와 ChatGPT4의 오류 요약 평가 성능은 불안정하여 인간을 보조하기에는 아직 어려움이 있음을 확인하였다.

  • PDF

Time and Space through Minimum Units in Animation -Focus on Structural Linguistics- (애니메이션의 시간소와 공간소를 통한 시간성과 공간성 -구조주의 언어학을 중심으로-)

  • Kim, Ji-Hong
    • The Journal of the Korea Contents Association
    • /
    • v.7 no.10
    • /
    • pp.126-134
    • /
    • 2007
  • It have been studied many researches for time and space in film, drama and even animation. This study, however, is for investigating a new methodology of time and space study base on the structural linguistics. It can not be detected any of previous study on this method, and it is the first time to try out for researching with the structural linguistics of time and space in animation with this concept. In order to study on the time and space by applying a new method of structural linguistics, it is identify the terminology and concept of the minimum unite of time and space and than analysis with paradigmatic and syntagmatic. Consequence of this study, it can suggest a new methodology of study in the ways of structural linguistics in animation. Further study is to apply this method on character design in animation.

Building Korean Multi-word Expression Lexicons and Grammars Represented by Finite-State Graphs for FbSA of Cosmetic Reviews (화장품 후기글의 자질기반 감성분석을 위한 다단어 표현의 유한그래프 사전 및 문법 구축)

  • Hwang, Chang-Hoe;Yoo, Gwang-Hoon;Choi, Seong-Yong;Shin, Dong-Heouk;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.400-405
    • /
    • 2018
  • 본 연구는 한국어 화장품 리뷰 코퍼스의 자질기반 감성 분석을 위하여, 이 도메인에서 실현되는 중요한 다단어 표현(MWE)의 유한상태 그래프 사전과 문법을 구축하는 방법론을 제시하고, 실제 구축된 사전과 문법의 성능을 평가하는 것을 목표로 한다. 본 연구에서는 자연어처리(NLP)에서 중요한 화두로 논의되어 온 MWE의 어휘-통사적 특징을 부분문법 그래프(LGG)로 형식화하였다. 화장품 리뷰 코퍼스에 DECO 한국어 전자사전을 적용하여 어휘 빈도 통계를 획득하고 이에 대한 언어학적 분석을 통해 극성 MWE(Polarity-MWE)와 화제 MWE(Topic MWE)의 전체 네 가지 하위 범주를 분류하였다. 또한 각 모듈간의 상호관계에 대한 어휘-통사적 속성을 반복적으로 적용하는 이중 증식(double-propagation)을 통해 자원을 확장하였다. 이 과정을 통해 구축된 대용량 MWE 유한그래프 사전 DECO-MWE의 성능을 테스트한 결과 각각 0.844(Pol-MWE), 0.742(Top-MWE)의 조화평균을 보였다. 이를 통해 본 연구에서 제안하는 MWE 언어자원 구축 방법론이 다양한 도메인에서 활용될 수 있고 향후 자질기반 감성 분석에 중요한 자원이 될 것임을 확인하였다.

  • PDF

Acquisition of English Voiced Stop in Word Initial Position: Correlation with Vowel Height (한국인의 영어 어두 유성파열음의 습득과 후속모음 높이와의 관계)

  • Yoon su-yeon;Seo min-kyong;Song YoonKyoung
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.321-324
    • /
    • 2000
  • 한국어는 어두에서 유성파열음이 나타나지 않고 약한 기식이 있는 연자음으로 실현되므로 영어의 유성파열음을 발음하기 어렵다. 한국인이 어두 유성파열음을 습득할 때 후속하는 모음의 높이가 영향을 미치리라 가정하고 /이, 에, 어, 우/ 4개의 모음을 선택하여 어두유성파열음 의 VOT에 영향을 미치는가를 단독단어와 문장에서 살펴보았다. native, 숙련자, 미숙련자의 세 그룹으로 나누어 실시한 결과 native의 경우 후속하는 모음이 어두파열음의 VOT에 영향을 끼치지 않았으며, 이러한 경향은 숙련자 그룹에서도 지켜짐을 알 수 있었다. 그러나 미숙련자 그룹인 경우 고모음이 저모음에서보다 VOT가 현저하게 길었고 통계검사 결과 유의미한 차이를 보여, 고모음에서 유성발음을 잘 못함을 알 수 있었다. native와 숙련자 그룹은 intermediate phrase(이하 iP) initial인 단어나 iP medial인 문장에서 VOT가 거의 유사한데 비해 미숙련자 그룹에서는 문장 내에서 VOT가 조금씩 짧아졌고 이 경향은 고모음에서 두드러져 통계적으로 유의미한 차이를 보였다.

  • PDF

Penn Korean Treebank: Development and Evaluation

  • Han, Chung-hye;Han, Na-Rae;Ko, Eon-Suk;Martha Palmer;Heejong Yi
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2002.02a
    • /
    • pp.69-78
    • /
    • 2002
  • This paper discusses issues in building a 54-thousand-word Korean Treebank using a phrase structure annotation, along with developing annotation guidelines based on the morpho-syntactic phenomena represented in the corpus. Various methods that were employed for quality control and the evaluation on the Treebank are also presented.

  • PDF

The POS Elderly: Semi-automatic annotation tool for Historical Korean (형태소 깎는 노인: 국어사 자료를 위한 형태분석 보조기)

  • Kim, Migyeong;Park, Suzi;Lee, Sana
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.39-43
    • /
    • 2016
  • '형태소 깎는 노인'은 국어사 자료를 처리하는 고성능 자동 형태분석기의 개발이 난항을 겪고 있는 상황에서 수동으로 형태분석 작업을 하는 연구자들을 지원하기 위하여 개발된 형태분석 보조기이다. 인간과 기계의 분업을 통해 인간의 피로를 최대한 줄이고, 단순 반복 형태에 대해서는 정답을 확실하게 제안할 수 있다는 것이 특징이다. 국어사 자료에는 한국어 정보처리를 위해 필요한 어휘 사전이 없으므로, 문법형태소 사전을 만들어 이를 단서로 조사/어미부와 어간부를 구분하도록 하였다. 이를 통해 구축된 소규모 형태분석 말뭉치들이 장기적으로는 자동 형태분석기의 성능 개선에 일조할 수 있을 것으로 기대한다.

  • PDF

Application of Statistical Methods in Quantitative Linguistics Study

  • Choi, Kyung-Ho;Hwang, Yong-Joo
    • Journal of the Korean Data and Information Science Society
    • /
    • v.18 no.2
    • /
    • pp.269-278
    • /
    • 2007
  • Nowadays, from the study of quantitative linguistics, the application of quantitative method is located in a variety of fields as a necessary method. According to this phenomenon, the knowledge of statistical method is requisite for linguists. However, unfortunately, there still remain difficulties for them to acquire the statistical knowledge. So, it is needed for linguists to be helped by statisticians and their active roles. Accordingly, this study is going to emphasizing that statisticians should have more interests in the field of quantitative linguistics. Moreover, it will prove that by using statistical methods, analysis on the linguistic research becomes more objective and scientific.

  • PDF

The Study of Advanced Articulation of the Korean Affricates (현대 한국어 파찰음의 조음점 전진 현상에 대한 연구)

  • Kook, Kyoung-A;Kang, Eun-Ji;Kim, Ju-Won
    • Proceedings of the KSPS conference
    • /
    • 2007.05a
    • /
    • pp.247-250
    • /
    • 2007
  • The affricates of the Korean were alveolar sounds in the 15th century. Alveolar sounds have changed to post-alveolar or alveo-palatal sounds since the 18th century, at least in Southern Korean. These days, the advanced articulation of the affricates are observed, especially in the speech of young generations. The aim of this paper is to show the differences of the affricates when they are pronounced in alveo-palatal and in a more advanced position than in alveo-palatal by their cut-off frequencies. We have recorded speeches of freshmen(in their early twenties) at Seoul National University. The result was that the cut-off frequency of the advanced articulation in auditory observations was higher than that of the others. We have found in particular, that women have tendency to advance their place of articulation of the affricates.

  • PDF