• Title/Summary/Keyword: 동사정보

Search Result 275, Processing Time 0.023 seconds

Enhancement of Word Clustering through Feature Extension (자질 확장에 따른 용어 클러스터링의 성능 향상)

  • Park Eun-Jin;Kim Jae-Hoon;Ock Cheol-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.529-531
    • /
    • 2005
  • 이 논문에서는 용어 클러스터링의 성능에 직접적인 영향을 주는 자질 확장에 따른 시스템의 성능 변화를 보았다. 객관적인 성능 비교를 위하여 용어 클러스터링 결과와 한국어 의미 계층망에서 추출한 클러스터를 비교하였다. 실험 결과, 용어의 뜻 풀이말을 자질로 사용한 경우보다 자질을 확장한 방법(Bigram, Case)이 성능이 좋게 나왔으며, 자질확장 시에 사용되는 말뭉치의 추출방법에 따라 다른 성능을 보였는데, 단순히 Bigram 정보를 사용하여 확장한 것 보다는 동사의 격 관계(Case)정보를 이용한 것이 성능이 좋게 나왔다.

  • PDF

A Design and Implementation of Malicious Web Log Identification System by Using SVM (SVM을 이용한 악성 댓글 판별 시스템의 설계 및 구현)

  • Kim, Myo-Sil;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.285-289
    • /
    • 2006
  • 댓글은 온라인 상에서 자신의 의견을 달고 다른 사람의 의견을 공유함으로써 필요한 정보를 쉽고 빠르게 얻을 수 있다. 본 논문에서는 익명성을 이용해서 특정인을 근거 없이 비방하거나 명예를 훼손하는 악성 댓글을 판단하는 시스템을 구현한다. 자질의 추출 방법을 여러 가지로 실험하여 동사, 형용사 등을 추가했을 때 자질의 출현빈도를 이용한 가중치를 계산하고, 용어 벡터로 표현된 입력 문서를 이진 분류기(Binary Classifier)인 $SVM^{light}$을 이용하여 악성 댓글인지를 판단하는 시스템을 구현하고 그 성능을 평가한다.

  • PDF

Automatic Ontology Construction for Semantic Relevance in Question Answering System (질의응답 시스템에서 의미 연관성 참조를 위한 온톨로지의 자동 구축)

  • 김혜정;강보영;황선욱;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.109-111
    • /
    • 2003
  • 본 논문에서는 질의응답 시스템에서 질의에 포함된 언어 정보와 검색 대상 문장 사이의 의미 연관성을 참조하여 정확한 결과를 추출 가능하도록 하는 온톨로지의 자동 구축 방법을 제시한다. 검색 대상 문장은 웹에서의 활용과 표준화를 위하여 단어 태그, 품사 정보 및 파싱 구조를 갖는 XML 문서로 변환하고, 이 구조를 이용한 연관성 분석을 위해 의미망을 갖는 온톨로지를 자동으로 생성할 수 있도록 하였다. 온톨로지에서 의미 연관성을 결정하는데 중요하게 활용되는 개념으로써는 동사의 행위, 명사절 그룹 매치, 복합명사 선별, 고유명사 매치, 품사 태깅 등이 있다. 제안한 방법의 성능은 NIST TREC-10의 질의 응답문을 사용해서 단어 패턴 매치 방법과 비교 분석하였으며, 본 논문에서 제안한 방식이 재현율과 정확율 측면에서 우수한 성능을 나타냄을 입증하였다.

  • PDF

출생 및 사망신고체계의 현황과 발전방향

  • Park Jeong-Han
    • 대한예방의학회:학술대회논문집
    • /
    • 2001.04a
    • /
    • pp.50-72
    • /
    • 2001
  • 국민건강 수준과 문제점의 파악, 보건사업의 기획 및 평가를 위해 정확한 출생과 사망에 관한 통계자료가 필수적이다. 그러나 출생신고 이전에 신생아가 사망하는 경우에 대부분 출생과 사망 모두를 신고하지 않아 영아사망률을 비롯한 보건통계를 산출하지 못하여 합리적인 보건사업의 기획 및 평가가 어려우며, OECD 회원국으로서 제시해야 할 기본적인 보건통계를 제시하지 못하고 있다. 또한 현행 출생신고자료에는 신생아와 산모의 건강상태에 관한 자료가 없어 보건서비스제공과 모자보건관련 역학적 연구에 활용 가치가 거의 없다. 지역보건의료정보화, 예방접종기록전산화, 미숙아 및 선천성기형아 등록 등 각종 등록 및 전산화사업이 진행중이나 이러한 사업들이 독립적으로 진행되고 있어 같거나 비슷한 자료의 중복 입력하게 되고, 상호 연계가 되지 않아 자료의 활용성이 낮고, 그 어느 사업도 전체 분모를 파악할 수 없는 단점이 있다. 이러한 문제들은 전산정보체계의 확립으로 해결할 수 있다. 약 99%의 분만이 의료기관에서 일어나고, 정부의 초고속 통신망을 비롯한 의료기관과 보건소의 전산화가 빠르게 진행되고 있어 전산정보체계를 위한 여건이 성숙되고 있다. 분만의료기관이 산모의 거주지 보건소로 직접 출생신고를 하면 보건소는 적기에 산모와 신생아에게 필요한 보건서비스를 제공할 수 있고, 보건소가 읍 면 동사무소로 출생신고 자료를 전송하면 산모는 동사무소에 가지 않고도 출생신고를 할 수 있으며, 보건통계자료수집과 출생신고관리에 필요한 인력과 시간을 절약할 수 있고, 정확한 생정통계를 얻을 수 있고, 예방접종기록과 미숙아 및 선천성기형아 등록은 쉽게 해결되고, 완전한 보건사업대상자의 database를 구축할 수 있어 평생건강관리체계의 기틀을 마련하게 된다. 이러한 전산신고체계를 확립하기 위하여 연자 등은 정부의 연구용역사업으로 전산프로그램과 표준신고양식과 신고체계를 개발하여, 포항과 천안시에서 2000년 3월에서 8월까지 시험 운영하였다. 시험운영결과 출생신고율은 99.9%이었으나 신생아사망의 전산신고율은 11.1%로 낮았다. 그러나 일단 출생신고된 신생아의 사망은 반드시 확인될 수 있는 것이 본 신고체계의 큰 장점이었다. 전산신고의 중요한 장애 요소는 현행법상 의료기관이 출생신고를 직접 할 의무가 없으므로 신고를 강요할 수 없고, 의료기관의 일손 부족으로 출생신고서를 충실하게 기재하지 못하는 것과 의료기관간의 전산화 수준의 차이가 심한 것이었다. 의료기관이 직접 신고를 하도록 하기 위하여 모자보건법 등 관련법 개정이 필요하며, 의료기관의 출생신고자료 송부에 대한 정당한 보상이 있어야 할 것이다. 의료기관 간의 전산화 수준의 차이는 data warehousing과 on-line analytical processing과 같은 기술을 이용하면 해결 가능할 것이다.

  • PDF

A Robust Pattern-based Feature Extraction Method for Sentiment Categorization of Korean Customer Reviews (강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법)

  • Shin, Jun-Soo;Kim, Hark-Soo
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.12
    • /
    • pp.946-950
    • /
    • 2010
  • Many sentiment categorization systems based on machine learning methods use morphological analyzers in order to extract linguistic features from sentences. However, the morphological analyzers do not generally perform well in a customer review domain because online customer reviews include many spacing errors and spelling errors. These low performances of the underlying systems lead to performance decreases of the sentiment categorization systems. To resolve this problem, we propose a feature extraction method based on simple longest matching of Eojeol (a Korean spacing unit) and phoneme patterns. The two kinds of patterns are automatically constructed from a large amount of POS (part-of-speech) tagged corpus. Eojeol patterns consist of Eojeols including content words such as nouns and verbs. Phoneme patterns consist of leading consonant and vowel pairs of predicate words such as verbs and adjectives because spelling errors seldom occur in leading consonants and vowels. To evaluate the proposed method, we implemented a sentiment categorization system using a SVM (Support Vector Machine) as a machine learner. In the experiment with Korean customer reviews, the sentiment categorization system using the proposed method outperformed that using a morphological analyzer as a feature extractor.

An Error Analysis on Business E-mails in English : A Case-Study (비지니스 이메일 영작문에 나타난 오류분석: 사례연구)

  • Hwang, Seon-Yoo
    • Journal of Convergence for Information Technology
    • /
    • v.8 no.6
    • /
    • pp.273-279
    • /
    • 2018
  • This study aimed at providing a comprehensive account of the sources and causes of errors in business emails that Korean college students wrote using a translation machine. Data were collected from 21 emails written by the students who took a business English course. Findings indicated that the students tended to make frequent errors in verb use and verb tense as well as a definite article, countable/noncountable nouns, time adverbs and prepositions. Therefore, the study suggested that the students' common errors imply that they experience some difficulties learning these linguistic features. Given that learners' errors can give us valuable insights into teaching and learning how to write in English, pedagogical suggestions are put forward based on the study results.

Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition (한국어 특질을 고려한 단어 벡터의 Bi-LSTM 기반 개체명 모델 적용)

  • Nam, Sukhyun;Hahm, Younggyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.147-150
    • /
    • 2017
  • Deep learning의 개발에 따라 개체명 인식에도 neural network가 적용된 연구가 활발히 일어나고 있다. 영어권 개체명 인식에서는 F1 score 90%을 웃도는 성능을 내는 연구들이 나오고 있다. 하지만 한국어는 영어와 언어적 특질이 많이 달라 이를 그대로 적용시키는 데는 어려움이 있어 영어권 개체명 인식기에 비해 비교적 낮은 성능을 보인다. 본 논문에서는 "하다" 접사의 동사형이 보존된 워드 임베딩을 사용하고 한국어 개체명의 특징을 담은 one-hot 벡터를 추가하여 한국어의 특질에 보다 적합한 데이터를 deep learning 기술에 적용하였다.

  • PDF

A Measure of Productivity in Derivational Morphology (파생어의 생산성 측정)

  • Cha, Joon-Kyung;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.282-289
    • /
    • 1995
  • 이 연구는 지금까지 국어 형태론에서 사용되지 않았던, 코퍼스를 이용한 계량적인 방법으로 파생어의 생산성 정도를 측정하고, 그 결과로 국어 파생 형태론에서의 생산성을 기술한 것이다. 각각의 접사들의 생산성 정도에 대한 수치를 제시함으로써 좀 더 정확하게 상대적인 생산성 비교를 할 수 있도록 하였다. 접사의 생산성 정도 측정방법은 Baayen(1989)에서 제시한 것으로, 특정접사를 가지고 코퍼스에 단 한번 출현하는 단어의 수($n_1$)와, 주어진 접사를 가지고 코퍼스에 나오는 단어의 총수(N)의 비율로 접사의 생산성 정도를 측정한다($P=n_1/N$). 200만 어절 및 1000만 어절 코퍼스를 기반으로 국어의 대표적인 파생접미사들 중 명사파생 접미사 '-이', '-음', '-기', 형용사파생 접미사 '-스럽-', '-롭-', '답-', 동사파생 접미사 '-거리-', '-대-', '-이-'의 생산성 정도를 측정하였다. 본 연구에서 채택한 코퍼스를 이용한 언어 연구 방법은 기존의 사전을 이용하여 파생어의 생산성을 측정하는 것에 비해 앞선 것이라 할 수 있다.

  • PDF

A Condition on the Interpretation of Zero Objects in Korean Discourse : a Centering Analysis (공목적어의 해석 조건 : 중심화이론적 접근)

  • Kim, Mi-Kyung
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.134-136
    • /
    • 2003
  • 본 논문은 Grosz et al(1995)의 중심화이론(centering theory)을 바탕으로 목적어의 생략의 동기를 설명할 수 있는가를 검증하였다. 한국의 민담에 나타난 431개의 절과 신문사설 249개의 절을 분석한 결과 공목적어(zero object)의 17%만이 중심유지변이(continue transition)에 사용되었으며, 이는 중심화이론의 기존 세 가지 제약만으로는 공목적어의 분포를 설명할 수 없음을 보여주는 것이다. 본 연구에서는 중심화이론 내에서 공목적어의 분포를 설명하기 위하여 Kameyama(1998)의 평행선호조건(Parallelism Preference Condition)을 도입할 것을 제안하였다. 평행선호조건의 도입은 세 가지 측면에서 지지된다. 첫째, 중심변이 개념만으로 설명이 불충분한 공목적어의 분포를 중심화이론 내에서 설명할 수 있다. 둘째, 순조로운 중심이동변이(smooth-shift transition)에 나타나는 공주어의 분포를 설명할 수 있다. 셋째, 평행선호조건은 공명대명사의 해석뿐만 아니라 시제의 생략이나 동사의 생략을 설명하기 위해서 독립적으로 지지되는 조건이다.

  • PDF

The Pattern of the Passive Construction in Korean and its Semantics (한국어 피동문의 구조와 기능의 의미)

  • Mok, Jung-Soo;Cho, Soo-Kyung;Han, Seon-Hye;Kim, Yoon-Shin;Lee, Chung-Min
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.121-126
    • /
    • 2003
  • 한국어 피동구문에서 출현하는 '가형 성분'에 대해 어떤 통사적 기능을 부여할 것인가에 대한 논의는 조사 자체에 대한 인식과 밀접한 관련을 맺을 뿐만 아니라 한국어 구문 분석에 있어서도 매우 중요한 위를 차지한다. 본 고에서는 논리명제적 차원에 머무는 분석보다는 언어의 발화행위 차원을 고려하여 문장의 형식을 고려할 필요성을 제기하고, 문장을 조사와 어미를 중심으로 하여 인칭과 서법 요소들을 통해서 볼 때, 문장 성분에 대한 인식이 달라질 수 있음을 '피동동사'를 중심으로 제시했다.

  • PDF