• 제목/요약/키워드: 동사정보

검색결과 275건 처리시간 0.024초

자질 확장에 따른 용어 클러스터링의 성능 향상 (Enhancement of Word Clustering through Feature Extension)

  • 박은진;김재훈;옥철영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.529-531
    • /
    • 2005
  • 이 논문에서는 용어 클러스터링의 성능에 직접적인 영향을 주는 자질 확장에 따른 시스템의 성능 변화를 보았다. 객관적인 성능 비교를 위하여 용어 클러스터링 결과와 한국어 의미 계층망에서 추출한 클러스터를 비교하였다. 실험 결과, 용어의 뜻 풀이말을 자질로 사용한 경우보다 자질을 확장한 방법(Bigram, Case)이 성능이 좋게 나왔으며, 자질확장 시에 사용되는 말뭉치의 추출방법에 따라 다른 성능을 보였는데, 단순히 Bigram 정보를 사용하여 확장한 것 보다는 동사의 격 관계(Case)정보를 이용한 것이 성능이 좋게 나왔다.

  • PDF

SVM을 이용한 악성 댓글 판별 시스템의 설계 및 구현 (A Design and Implementation of Malicious Web Log Identification System by Using SVM)

  • 김묘실;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.285-289
    • /
    • 2006
  • 댓글은 온라인 상에서 자신의 의견을 달고 다른 사람의 의견을 공유함으로써 필요한 정보를 쉽고 빠르게 얻을 수 있다. 본 논문에서는 익명성을 이용해서 특정인을 근거 없이 비방하거나 명예를 훼손하는 악성 댓글을 판단하는 시스템을 구현한다. 자질의 추출 방법을 여러 가지로 실험하여 동사, 형용사 등을 추가했을 때 자질의 출현빈도를 이용한 가중치를 계산하고, 용어 벡터로 표현된 입력 문서를 이진 분류기(Binary Classifier)인 $SVM^{light}$을 이용하여 악성 댓글인지를 판단하는 시스템을 구현하고 그 성능을 평가한다.

  • PDF

질의응답 시스템에서 의미 연관성 참조를 위한 온톨로지의 자동 구축 (Automatic Ontology Construction for Semantic Relevance in Question Answering System)

  • 김혜정;강보영;황선욱;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.109-111
    • /
    • 2003
  • 본 논문에서는 질의응답 시스템에서 질의에 포함된 언어 정보와 검색 대상 문장 사이의 의미 연관성을 참조하여 정확한 결과를 추출 가능하도록 하는 온톨로지의 자동 구축 방법을 제시한다. 검색 대상 문장은 웹에서의 활용과 표준화를 위하여 단어 태그, 품사 정보 및 파싱 구조를 갖는 XML 문서로 변환하고, 이 구조를 이용한 연관성 분석을 위해 의미망을 갖는 온톨로지를 자동으로 생성할 수 있도록 하였다. 온톨로지에서 의미 연관성을 결정하는데 중요하게 활용되는 개념으로써는 동사의 행위, 명사절 그룹 매치, 복합명사 선별, 고유명사 매치, 품사 태깅 등이 있다. 제안한 방법의 성능은 NIST TREC-10의 질의 응답문을 사용해서 단어 패턴 매치 방법과 비교 분석하였으며, 본 논문에서 제안한 방식이 재현율과 정확율 측면에서 우수한 성능을 나타냄을 입증하였다.

  • PDF

출생 및 사망신고체계의 현황과 발전방향

  • 박정한
    • 대한예방의학회:학술대회논문집
    • /
    • 대한예방의학회 2001년도 춘계 심포지움 연제집
    • /
    • pp.50-72
    • /
    • 2001
  • 국민건강 수준과 문제점의 파악, 보건사업의 기획 및 평가를 위해 정확한 출생과 사망에 관한 통계자료가 필수적이다. 그러나 출생신고 이전에 신생아가 사망하는 경우에 대부분 출생과 사망 모두를 신고하지 않아 영아사망률을 비롯한 보건통계를 산출하지 못하여 합리적인 보건사업의 기획 및 평가가 어려우며, OECD 회원국으로서 제시해야 할 기본적인 보건통계를 제시하지 못하고 있다. 또한 현행 출생신고자료에는 신생아와 산모의 건강상태에 관한 자료가 없어 보건서비스제공과 모자보건관련 역학적 연구에 활용 가치가 거의 없다. 지역보건의료정보화, 예방접종기록전산화, 미숙아 및 선천성기형아 등록 등 각종 등록 및 전산화사업이 진행중이나 이러한 사업들이 독립적으로 진행되고 있어 같거나 비슷한 자료의 중복 입력하게 되고, 상호 연계가 되지 않아 자료의 활용성이 낮고, 그 어느 사업도 전체 분모를 파악할 수 없는 단점이 있다. 이러한 문제들은 전산정보체계의 확립으로 해결할 수 있다. 약 99%의 분만이 의료기관에서 일어나고, 정부의 초고속 통신망을 비롯한 의료기관과 보건소의 전산화가 빠르게 진행되고 있어 전산정보체계를 위한 여건이 성숙되고 있다. 분만의료기관이 산모의 거주지 보건소로 직접 출생신고를 하면 보건소는 적기에 산모와 신생아에게 필요한 보건서비스를 제공할 수 있고, 보건소가 읍 면 동사무소로 출생신고 자료를 전송하면 산모는 동사무소에 가지 않고도 출생신고를 할 수 있으며, 보건통계자료수집과 출생신고관리에 필요한 인력과 시간을 절약할 수 있고, 정확한 생정통계를 얻을 수 있고, 예방접종기록과 미숙아 및 선천성기형아 등록은 쉽게 해결되고, 완전한 보건사업대상자의 database를 구축할 수 있어 평생건강관리체계의 기틀을 마련하게 된다. 이러한 전산신고체계를 확립하기 위하여 연자 등은 정부의 연구용역사업으로 전산프로그램과 표준신고양식과 신고체계를 개발하여, 포항과 천안시에서 2000년 3월에서 8월까지 시험 운영하였다. 시험운영결과 출생신고율은 99.9%이었으나 신생아사망의 전산신고율은 11.1%로 낮았다. 그러나 일단 출생신고된 신생아의 사망은 반드시 확인될 수 있는 것이 본 신고체계의 큰 장점이었다. 전산신고의 중요한 장애 요소는 현행법상 의료기관이 출생신고를 직접 할 의무가 없으므로 신고를 강요할 수 없고, 의료기관의 일손 부족으로 출생신고서를 충실하게 기재하지 못하는 것과 의료기관간의 전산화 수준의 차이가 심한 것이었다. 의료기관이 직접 신고를 하도록 하기 위하여 모자보건법 등 관련법 개정이 필요하며, 의료기관의 출생신고자료 송부에 대한 정당한 보상이 있어야 할 것이다. 의료기관 간의 전산화 수준의 차이는 data warehousing과 on-line analytical processing과 같은 기술을 이용하면 해결 가능할 것이다.

  • PDF

강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법 (A Robust Pattern-based Feature Extraction Method for Sentiment Categorization of Korean Customer Reviews)

  • 신준수;김학수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권12호
    • /
    • pp.946-950
    • /
    • 2010
  • 기계 학습 기반의 많은 감정 분류 시스템들은 문장으로부터 언어적 자질을 추출하기 위하여 형태소 분석기를 사용한다. 그러나 온라인 상품평에는 많은 띄어쓰기 오류 및 철자 오류가 포함되어 있어서 일반적으로 형태소 분석기가 좋은 성능을 내기 어려우며, 기반 시스템의 낮은 성능은 감정 분류 시스템의 성능하락을 초래한다. 이러한 문제를 해결하기 위하여 본 논문에서는 어절 패턴과 음운 패턴의 최장 일치 매칭(matching)에 기반한 자질 추출 방법을 제안한다. 두 종류의 패턴은 대용량의 품사 부착 말뭉치로부터 자동으로 구축된다. 어절 패턴은 영사, 동사와 같은 내용어를 포함하는 어절들로 구성되며, 음운 패턴은 동사나 형용사와 같은 용언의 초성과 중성의 쌍으로 구성된다. 음운 패턴에 초성과 중성만을 사용한 이유는 철자 오류에 영향을 덜 받기 때문이다. 제안 방법을 평가하기 위하여 SVM(Support Vector Machine)을 기계 학습기로 사용하는 감정 분류 시스템을 구현하였다. 한국어 상품평에 대한 실험에서 제안 방법을 자질 추출 모듈로 사용하는 감정 분류 시스템이 형태소 분석기를 사용하는 것보다 우수한 성능을 보였다.

비지니스 이메일 영작문에 나타난 오류분석: 사례연구 (An Error Analysis on Business E-mails in English : A Case-Study)

  • 황선유
    • 융합정보논문지
    • /
    • 제8권6호
    • /
    • pp.273-279
    • /
    • 2018
  • 본 연구는 번역기를 활용한 영작문 수업에서 대학생들이 작성한 비즈니스 이메일 영작문에 나타난 오류를 분석하고 설명하려는 연구이다. 연구는 취업실무영어 수업을 수강한 대학생들이 3가지 과제에 대해 작성한 21개 이메일을 분석하여 이에 나타난 문법오류를 분석 정리하였다. 이메일에 나타난 문법오류를 살펴보면, 동사의 용법을 제대로 알지 못해서 발생한 언어 내 오류가 가장 빈번했으며, 완료 시제를 사용해야 하는 문장에서 과거동사를 사용하는 시제에 관한 오류와 명사 앞에 정관사를 사용하지 않은 정관사 오류와 전치사 잘못 사용한 오류와 같은 언어 간 오류도 있었다. 문맥과 관련된 오류를 보면 지칭하는 명사에 맞게 단 복수대명사를 제대로 사용하지 못한 오류라던가, 문장을 연결하다가 생략할 수 없는 주어를 생략한 오류는 의미전달에 문제가 될 수 있는 심각한 오류이다. 이러한 오류분석을 통하여 영어를 학습하고 있는 학습자가 특정한 문법사항을 학습하는 데에 어려움을 겪고 있다는 것과 학생들의 영어능력 발달단계를 가늠해 주는 정보를 제공함으로 연구의 의미가 있다고 볼 수 있다.

한국어 특질을 고려한 단어 벡터의 Bi-LSTM 기반 개체명 모델 적용 (Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition)

  • 남석현;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-150
    • /
    • 2017
  • Deep learning의 개발에 따라 개체명 인식에도 neural network가 적용된 연구가 활발히 일어나고 있다. 영어권 개체명 인식에서는 F1 score 90%을 웃도는 성능을 내는 연구들이 나오고 있다. 하지만 한국어는 영어와 언어적 특질이 많이 달라 이를 그대로 적용시키는 데는 어려움이 있어 영어권 개체명 인식기에 비해 비교적 낮은 성능을 보인다. 본 논문에서는 "하다" 접사의 동사형이 보존된 워드 임베딩을 사용하고 한국어 개체명의 특징을 담은 one-hot 벡터를 추가하여 한국어의 특질에 보다 적합한 데이터를 deep learning 기술에 적용하였다.

  • PDF

파생어의 생산성 측정 (A Measure of Productivity in Derivational Morphology)

  • 차준경;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.282-289
    • /
    • 1995
  • 이 연구는 지금까지 국어 형태론에서 사용되지 않았던, 코퍼스를 이용한 계량적인 방법으로 파생어의 생산성 정도를 측정하고, 그 결과로 국어 파생 형태론에서의 생산성을 기술한 것이다. 각각의 접사들의 생산성 정도에 대한 수치를 제시함으로써 좀 더 정확하게 상대적인 생산성 비교를 할 수 있도록 하였다. 접사의 생산성 정도 측정방법은 Baayen(1989)에서 제시한 것으로, 특정접사를 가지고 코퍼스에 단 한번 출현하는 단어의 수($n_1$)와, 주어진 접사를 가지고 코퍼스에 나오는 단어의 총수(N)의 비율로 접사의 생산성 정도를 측정한다($P=n_1/N$). 200만 어절 및 1000만 어절 코퍼스를 기반으로 국어의 대표적인 파생접미사들 중 명사파생 접미사 '-이', '-음', '-기', 형용사파생 접미사 '-스럽-', '-롭-', '답-', 동사파생 접미사 '-거리-', '-대-', '-이-'의 생산성 정도를 측정하였다. 본 연구에서 채택한 코퍼스를 이용한 언어 연구 방법은 기존의 사전을 이용하여 파생어의 생산성을 측정하는 것에 비해 앞선 것이라 할 수 있다.

  • PDF

공목적어의 해석 조건 : 중심화이론적 접근 (A Condition on the Interpretation of Zero Objects in Korean Discourse : a Centering Analysis)

  • 김미경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.134-136
    • /
    • 2003
  • 본 논문은 Grosz et al(1995)의 중심화이론(centering theory)을 바탕으로 목적어의 생략의 동기를 설명할 수 있는가를 검증하였다. 한국의 민담에 나타난 431개의 절과 신문사설 249개의 절을 분석한 결과 공목적어(zero object)의 17%만이 중심유지변이(continue transition)에 사용되었으며, 이는 중심화이론의 기존 세 가지 제약만으로는 공목적어의 분포를 설명할 수 없음을 보여주는 것이다. 본 연구에서는 중심화이론 내에서 공목적어의 분포를 설명하기 위하여 Kameyama(1998)의 평행선호조건(Parallelism Preference Condition)을 도입할 것을 제안하였다. 평행선호조건의 도입은 세 가지 측면에서 지지된다. 첫째, 중심변이 개념만으로 설명이 불충분한 공목적어의 분포를 중심화이론 내에서 설명할 수 있다. 둘째, 순조로운 중심이동변이(smooth-shift transition)에 나타나는 공주어의 분포를 설명할 수 있다. 셋째, 평행선호조건은 공명대명사의 해석뿐만 아니라 시제의 생략이나 동사의 생략을 설명하기 위해서 독립적으로 지지되는 조건이다.

  • PDF

한국어 피동문의 구조와 기능의 의미 (The Pattern of the Passive Construction in Korean and its Semantics)

  • 목정수;조수경;한선혜;김윤신;이정민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.121-126
    • /
    • 2003
  • 한국어 피동구문에서 출현하는 '가형 성분'에 대해 어떤 통사적 기능을 부여할 것인가에 대한 논의는 조사 자체에 대한 인식과 밀접한 관련을 맺을 뿐만 아니라 한국어 구문 분석에 있어서도 매우 중요한 위를 차지한다. 본 고에서는 논리명제적 차원에 머무는 분석보다는 언어의 발화행위 차원을 고려하여 문장의 형식을 고려할 필요성을 제기하고, 문장을 조사와 어미를 중심으로 하여 인칭과 서법 요소들을 통해서 볼 때, 문장 성분에 대한 인식이 달라질 수 있음을 '피동동사'를 중심으로 제시했다.

  • PDF