• Title/Summary/Keyword: 말뭉치 구축

Search Result 294, Processing Time 0.024 seconds

A Method of Word Sense Disambiguation for Korean Complex Noun Phrase Using Verb-Phrase Pattern and Predicative Noun (기계 번역 의미 대역 패턴을 이용한 한국어 복합 명사 의미 결정 방법)

  • Yang, Seong-Il;Kim, Young-Kil;Park, Sang-Kyu;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.246-251
    • /
    • 2003
  • 한국어의 언어적 특성에 의해 빈번하게 등장하는 명사와 기능어의 나열은 기능어나 연결 구문의 잦은 생략현상에 의해 복합 명사의 출현을 발생시킨다. 따라서, 한국어 분석에서 복합 명사의 처리 방법은 매우 중요한 문제로 인식되었으며 활발한 연구가 진행되어 왔다. 복합 명사의 의미 결정은 복합 명사구 내 단위 명사간의 의미적인 수식 관계를 고려하여 머리어의 선택과 의미를 함께 결정할 필요가 있다. 본 논문에서는 정보 검색의 색인어 추출 방법에서 사용되는 복합 명사구 내의 서술성 명사 처리를 이용하여 복합 명사의 의미 결정을 인접 명사의 의미 공기 정보가 아닌 구문관계에 따른 의미 공기 정보를 사용하여 분석하는 방법을 제시한다. 복합 명사구 내에서 구문적인 관계는 명사구 내에 서술성 명사가 등장하는 경우 보-술 관계에 의한 격 결정 문제로 전환할 수 있다. 이러한 구문 구조는 명사 의미를 결정할 수 있는 추가적인 정보로 활용할 수 있으며, 이때 구문 구조 파악을 위해 구축된 의미 제약 조건을 활용하도록 한다. 구조 분석에서 사용되는 격틀 정보는 동사와 공기하는 명사의 구문 관계를 분석하기 위해 의미 정보를 제약조건으로 하여 구축된다. 이러한 의미 격틀 정보는 단문 내 명사들의 격 결정과 격을 채우는 명사 의미를 결정할 수 있는 정보로 활용된다. 본 논문에서는 현재 개발중인 한영 기계 번역 시스템 Tellus-KE의 단문 단위 대역어 선정을 위해 구축된 의미 대역패턴인 동사구 패턴을 사용한다. 동사구 패턴에 기술된 한국어의 단문 단위 의미 격 정보를 사용하는 경우, 격결정을 위해 사용되는 의미 제약 조건이 복합 명사의 중심어 선택과 의미 결정에 재활용 될 수 있으며, 병렬말뭉치에 의해 반자동으로 구축되는 의미 대역 패턴을 사용하여 데이터 구축의 어려움을 개선하고자 한다. 및 산출 과정에 즉각적으로 활용될 수 있을 것이다. 또한, 이러한 정보들은 현재 구축중인 세종 전자사전에도 직접 반영되고 있다.teness)은 언화행위가 성공적이라는 것이다.[J. Searle] (7) 수로 쓰인 것(상수)(象數)과 시로 쓰인 것(의리)(義理)이 하나인 것은 그 나타난 것과 나타나지 않은 것들 사이에 어떠한 들도 없음을 말한다. [(성중영)(成中英)] (8) 공통의 규범의 공통성 속에 규범적인 측면이 벌써 있다. 공통성에서 개인적이 아닌 공적인 규범으로의 전이는 규범, 가치, 규칙, 과정, 제도로의 전이라고 본다. [C. Morrison] (9) 우리의 언어사용에 신비적인 요소를 부인할 수가 없다. 넓은 의미의 발화의미(utterance meaning) 속에 신비적인 요소나 애정표시도 수용된다. 의미분석은 지금 한글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\ulcorner$한국어사전$\lrcorner$ 등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다.반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에 따라 단백질(蛋白質) 함량(含量)도 증가(增加)하였다. 7. CHS-13 균주(菌株)의 RNA 함량(

  • PDF

Korean Onomatopoeia Clustering for Sound Database (음향 DB 구축을 위한 한국어 의성어 군집화)

  • Kim, Myung-Gwan;Shin, Young-Suk;Kim, Young-Rye
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.9
    • /
    • pp.1195-1203
    • /
    • 2008
  • Onomatopoeia of korean documents is to represent from natural or artificial sound to human language and it can express onomatopoeia language which is the nearest an object and also able to utilize as standard for clustering of Multimedia data. In this study, We get frequency of onomatopoeia in the experiment subject and select 100 onomatopoeia of use to our study In order to cluster onomatopoeia's relation, we extract feature of similarity and distance metric and then represent onomatopoeia's relation on vector space by using PCA. At the end, we can clustering onomatopoeia by using k-means algorithm.

  • PDF

Sentiment Classification Using Feature Reweighting (자질 가중치의 재조정을 통한 감정 분류)

  • Seo, Hyung-Won;Kim, Hyung-Chul;Kim, Jae-Hoon;Lee, Kong-Joo
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.145-150
    • /
    • 2009
  • 이 논문은 한글 뉴스 기사의 댓글에 대한 감정 분류 방법을 제안한다. 제안된 방법은 기계학습을 이용하는데 본 논문에서는 자질의 가중치를 재조정하는 좀 색다른 방법을 제안한다. 일반적으로 댓글은 독자들이 특정 기사에 대해서 어떠한 감정을 가지고 있는지를 파악하는 중요한 단서가 된다. 그런데 독자들의 감정은 가사에 어떤 분야에 속하느냐에 영향을 받는다. 예를 들면 정치 기사는 부정적인 댓글은 많이 포함하고 있으며 인물 기사는 긍정적인 기사를 많이 포함한다. 이 논문은 이와 같은 댓글의 속성을 이용해서 기사의 원문과 기사의 분야 정보를 이용하여 가중치를 조정한다. 제안된 시스템의 성능을 평가하기 위해 신문 기사와 댓글을 수집하여 감정 말뭉치를 구축하였으며 감정자질을 추출하기 위해 감정 사전을 구축하였다. 제안된 시스템의 $F_1$ 척도는 92.2%였으며 원문의 감정 단어와 분야 정보가 댓글의 감정을 분류하는데 중요한 자질임을 알 수 있었다.

  • PDF

Semi-Supervised Answer Type Classification For Question-Answering System (질의 응답 시스템을 위한 반교사 기반의 정답 유형 분류)

  • Park, Seonyeong;Lee, Donghyeon;Kim, Yonghee;Ryu, Seonghan;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.45-49
    • /
    • 2013
  • 기존 연구에서는 질의 응답 시스템에서 정답 유형을 분류하기 위해 패턴 매칭 방식이나 교사 학습(Supervised Learning)을 이용했다. 패턴 매칭 방식은 질의 분석을 통해 수동으로 패턴을 구축해야 한다. 교사 학습에서는 훈련 데이터 전체에 정답 유형이 태깅(Tagging)되어야 하며, 이를 위해서는 사용자의 질의에 정답 유형을 수동으로 태깅하는 작업이 많이 필요하다. 웹을 통해 정답 유형이 태깅되지 않은 대용량의 사용자 질의 말뭉치를 구할 수 있지만, 이 데이터에는 정답 유형이 태깅되어 있지 않다. 따라서, 대용량의 사용자 질의에 비례하여, 정답 유형을 수동으로 태깅하는 작업량이 증가한다. 앞서 언급한 두 가지 방법론에서, 정답 유형 분류를 위해 수작업이 많이 필요하다는 문제점을 해결하고자 본 논문에서는 일부 태깅된 훈련 데이터를 필요로 하는 반교사 학습(Semi-supervised Learning)에 기반한 정답 유형 분류를 제안한다. 이는 정답 유형 분류 작업에 필요한 노동력을 최소화함으로 대용량의 데이터를 통한 효율적 질의 응답 시스템 구축을 가능하게 한다.

  • PDF

A domain-specific sentiment lexicon construction method for stock index directionality (주가지수 방향성 예측을 위한 도메인 맞춤형 감성사전 구축방안)

  • Kim, Jae-Bong;Kim, Hyoung-Joong
    • Journal of Digital Contents Society
    • /
    • v.18 no.3
    • /
    • pp.585-592
    • /
    • 2017
  • As development of personal devices have made everyday use of internet much easier than before, it is getting generalized to find information and share it through the social media. In particular, communities specialized in each field have become so powerful that they can significantly influence our society. Finally, businesses and governments pay attentions to reflecting their opinions in their strategies. The stock market fluctuates with various factors of society. In order to consider social trends, many studies have tried making use of bigdata analysis on stock market researches as well as traditional approaches using buzz amount. In the example at the top, the studies using text data such as newspaper articles are being published. In this paper, we analyzed the post of 'Paxnet', a securities specialists' site, to supplement the limitation of the news. Based on this, we help researchers analyze the sentiment of investors by generating a domain-specific sentiment lexicon for the stock market.

Developing a Korean sentiment lexicon through BPE (BPE를 활용한 한국어 감정사전 제작)

  • Park, Ho-Min;Cheon, Min-Ah;Nam-Goong, Young;Choi, Min-Seok;Yoon, Ho;Kim, Jae-Kyun;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.510-513
    • /
    • 2019
  • 감정분석은 텍스트에서 나타난 저자 혹은 발화자의 태도, 의견 등과 같은 주관적인 정보를 추출하는 기술이며, 여론 분석, 시장 동향 분석 등 다양한 분야에 두루 사용된다. 감정분석 방법은 사전 기반 방법, 기계학습 기반 방법 등이 있다. 본 논문은 사전 기반 감정분석에 필요한 한국어 감정사전 자동 구축 방법을 제안한다. 본 논문은 영어 감정사전으로부터 한국어 감정사전을 자동으로 구축하는 방법이며, 크게 세 단계로 구성된다. 첫 번째는 한영 병렬 말뭉치를 이용한 한영 이중언어 사전을 구축하는 단계이고, 두 번째는 한영 이중언어 사전을 통한 한영 이중언어 그래프를 생성하는 단계이며, 세 번째는 영어 단어의 감정값을 한국어 BPE의 감정값으로 전파하는 단계이다. 본 논문에서는 제안된 방법의 유효성을 보이기 위해 사전 기반 한국어 감정분석 시스템을 구축하여 평가하였으며, 그 결과 제안된 방법이 합리적인 방법임을 확인할 수 있었으며 향후 연구를 통해 개선한다면 질 좋은 한국어 감정사전을 효과적인 방법으로 구축할 수 있을 것이다.

  • PDF

Automatic Construction of a Negative/positive Corpus and Emotional Classification using the Internet Emotional Sign (인터넷 감정기호를 이용한 긍정/부정 말뭉치 구축 및 감정분류 자동화)

  • Jang, Kyoungae;Park, Sanghyun;Kim, Woo-Je
    • Journal of KIISE
    • /
    • v.42 no.4
    • /
    • pp.512-521
    • /
    • 2015
  • Internet users purchase goods on the Internet and express their positive or negative emotions of the goods in product reviews. Analysis of the product reviews become critical data to both potential consumers and to the decision making of enterprises. Therefore, the importance of opinion mining techniques which derive opinions by analyzing meaningful data from large numbers of Internet reviews. Existing studies were mostly based on comments written in English, yet analysis in Korean has not actively been done. Unlike English, Korean has characteristics of complex adjectives and suffixes. Existing studies did not consider the characteristics of the Internet language. This study proposes an emotional classification method which increases the accuracy of emotional classification by analyzing the characteristics of the Internet language connoting feelings. We can classify positive and negative comments about products automatically using the Internet emoticon. Also we can check the validity of the proposed algorithm through the result of high precision, recall and coverage for the evaluation of this method.

The effects of Korean logical ending connective affix on text comprehension and recall (연결어미가 글 이해와 기억에 미치는 효과)

  • Nam, Ki-Chun;Kim, Hyun-Jeong;Park, Chang-Su;Whang, Yu-Mi;Kim, Young-Tae;Sim, Hyun-Sup
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.251-258
    • /
    • 2004
  • 본 연구는 연결어미가 글 이해와 기억에 미치는 영향을 조사하고, 연결어미의 효과와 글읽기 능력과는 어떤 관련성이 있는지를 조사하기 위해 실시되었다. 연결어미로는 인과 관계와 부가 관계를 나타내는 연결어미가 사용되었다. 앞뒤에 제시되는 두 문장의 국소적 응집성(Local coherence)을 형성하는데 연결어미가 도움을 준다면, 연결어미가 있는 경우에 문장을 이해하는 속도가 빨라지고 글 내용을 기억하는 데에도 도움을 줄 것으로 예측하였다. 만일에 글읽기 능력이 연결어미를 적절히 사용할 수 있는 능력에 의해서도 영향을 받는다면, 연결어미의 출현 여부와 읽기 능력간에 상호작용이 있을 것으로 예측하였다. 실험 1에서는 인과 관계 연결어미를 사용하여 문장 읽기 시간에 연결어미의 출현이 미치는 효과와 문장 회상에 미치는 효과를 조사하였다. 실험 결과, 인과 관계 연결어미는 뒤의 문장을 읽는데 촉진적인 효과를 주었으며, 이런 연결어미의 효과는 읽기 능력에 관계없이 일관된 촉진 효과를 나타냈다. 또한, 연결어미의 출현은 문장의 회상에 도움을 주었으며, 연결어미가 문장 회상에 미치는 효과는 읽기 능력의 상하에 관계없이 일관되게 나타났다. 실험 2에서는 부가 관계 연결어미가 문장 읽기 시간과 회상에 미치는 효과를 조사하였다. 실험 결과. 부가 관계 연결어미 역시 인과 관계 연결어미와 유사한 형태의 효과를 보였다. 실험 1과 실험 2의 결과는 인과 관계와 부가 관계 연결어미가 앞뒤 문장의 응집성 형성에 긍정적인 영향을 주고, 이런 연결어미의 글읽기에 대한 효과는 글읽기 능력에 관계없이 일정하다는 것을 시사한다.건이 복합 명사의 중심어 선택과 의미 결정에 재활용 될 수 있으며, 병렬말뭉치에 의해 반자동으로 구축되는 의미 대역 패턴을 사용하여 데이터 구축의 어려움을 개선하고자 한다. 및 산출 과정에 즉각적으로 활용될 수 있을 것이다. 또한, 이러한 정보들은 현재 구축중인 세종 전자사전에도 직접 반영되고 있다.teness)은 언화행위가 성공적이라는 것이다.[J. Searle] (7) 수로 쓰인 것(상수)(象數)과 시로 쓰인 것(의리)(義理)이 하나인 것은 그 나타난 것과 나타나지 않은 것들 사이에 어떠한 들도 없음을 말한다. [(성중영)(成中英)] (8) 공통의 규범의 공통성 속에 규범적인 측면이 벌써 있다. 공통성에서 개인적이 아닌 공적인 규범으로의 전이는 규범, 가치, 규칙, 과정, 제도로의 전이라고 본다. [C. Morrison] (9) 우리의 언어사용에 신비적인 요소를 부인할 수가 없다. 넓은 의미의 발화의미(utterance meaning) 속에 신비적인 요소나 애정표시도 수용된다. 의미분석은 지금 한글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\ulcorner$한국어사전$\lrcorner$ 등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다.반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져

  • PDF

Automatic Error Correction System for Erroneous SMS Strings (SMS 변형된 문자열의 자동 오류 교정 시스템)

  • Kang, Seung-Shik;Chang, Du-Seong
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.6
    • /
    • pp.386-391
    • /
    • 2008
  • Some spoken word errors that violate grammatical or writing rules occurs frequently in communication environments like mobile phone and messenger. These unexpected errors cause a problem in a language processing system for many applications like speech recognition, text-to-speech translation, and so on. In this paper, we proposed and implemented an automatic correction system of ill-formed words and word spacing errors in SMS sentences that has been the major errors of poor accuracy. We experimented three methods of constructing the word correction dictionary and evaluated the results of those methods. They are (1) manual construction of error words from the vocabulary list of ill-formed communication languages, (2) automatic construction of error dictionary from the manually constructed corpus, and (3) context-dependent method of automatic construction of error dictionary.

Spoken language Translation System Based on PDMT (PDMT 번역 방법론에 기반한 대화체 음성 언어 번역 시스템)

  • Yun, Seung;Yu, Cho-Rong;Choi, Mi-Ran;Oh, Seung-Shin;Park, Jun;Lee, Young-Jik
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.279-283
    • /
    • 2003
  • ETRI가 참여하고 있는 자동 통역 관련 국제 컨소시엄인 C-STAR에서는 여행자 영역의 대규모 다국어 병렬 말뭉치를 공동으로 구축하였고, 현재 각 기관에서는 이를 이용한 대화체 음성 언어 번역 시스템을 개발 중이다. ETRI에서는 핵심어 처리, 통계정보를 이용하는 구 단위 자동 설정, 설정된 구의 자동대응 및 재배치 등을 특징으로 하는 구 기반 직접 번역 방식(PDMT: Phrase-based Direct Machine Translation)의 번역 방법론을 제안하고 관련 연구를 진행하고 있다. 본 논문에서는 ETRI 대화체 음성 언어 번역 시스템의 구성에 대해 알아보고 PDMT 번역 방법론의 등장 배경과 그 구체적인 번역 방법 및 특징에 대해 자세히 논의하기로 한다.

  • PDF