• 제목/요약/키워드: Part-of-Speech Set

검색결과 37건 처리시간 0.019초

기계가독형사전에서 상위어 판별을 위한 규칙 학습 (Learning Rules for Identifying Hypernyms in Machine Readable Dictionaries)

  • 최선화;박혁로
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.171-178
    • /
    • 2006
  • 기계가독형사전(Machine Readable Dictionary)에서 단어의 정의문에 나타나는 항목 단어의 상위개념을 추출하는 대부분의 연구들은 전문가에 의해 작성된 어휘패턴을 사용하였다. 이 방법은 사람이 직접 패턴을 수집하므로 시간과 비용이 많이 소모될 뿐만 아니라, 자연언어에는 같은 의미를 가진 다앙한 표현들이 존재하므로 넓은 커버리지를 갖는 어휘패턴들을 수집하는 것이 매우 어렵다는 단점이 있다. 이런 문제점들을 해결하기 위하여, 본 논문에서는 구문적 특징만을 이용한 상위어 판별 규칙을 기계학습함으로써 기존에 사용되었던 어휘패턴의 지나친 어휘 의존성으로 인한 낮은 커버리지 및 패턴 수집의 문제를 해결하는 방법을 제안한다. 제안한 방법으로 기계학습된 규칙들을 상위어 자동추출과정에적용한 결과 정확도 92.37% 성능을 보였다. 이는 기존 연구들보다 향상된 성능으로 기계학습에 의해 수집된 판별규칙이 상위어 판별에 있어서 어휘패턴의 문제를 해결할 수 있다는 것을 입증하였다.

빅데이터 분석을 이용한 이러닝 수강 후기 분석 (e-Learning Course Reviews Analysis based on Big Data Analytics)

  • 김장영;박은혜
    • 한국정보통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.423-428
    • /
    • 2017
  • 인터넷과 스마트 기기의 사용량 증가로 인해 다양한 교육정보와 많은 양의 데이터가 생성되어 빠르게 확산되고 있다. 최근 이러닝 이용률이 증가하면서 발생하는 빅데이터를 활용하여 학습자들의 교육 성과와 교육 시스템의 효과성을 극대화 하는 것을 목표로 하는 교육 데이터 관련 연구 분야에 대한 관심이 높아지고 있으며 온라인에서 학습자들이 학습한 수많은 기록과 데이터들이 정보로 쌓이게 된다. 이에 본 논문에서는 이러닝 학습자들이 시스템에 남긴 수강 기록을 기반으로 학습자 현황에 대해 객관적으로 파악할 수 있도록 신경망 알고리즘인 Word2Vec을 적용하여 단어 간 유사도를 구하고 클러스터링 알고리즘을 이용하여 군집화 하였다. Word2vec을 이용하여 학습을 시키면 연관된 의미의 단어가 나타나게 되고 학습을 반복해 나가는 과정에서 점차 가까운 벡터를 지니게 된다. 또한 클러스터 알고리즘을 이용하여 명사, 동사, 형용사, 부사가 중심점에서 최소의 거리를 두고 같은 거리에 위치해 있음을 실험 검증하였다.

상황정보에 기반한 한국어대화의 전산적 처리와 표상구조의 구축 (Computational Processing of Korean Dialogue and the Construction of Its Representation Structure Based on Situational Information)

  • 이동영
    • 정보처리학회논문지B
    • /
    • 제9B권6호
    • /
    • pp.817-826
    • /
    • 2002
  • 한국어대화에서는 존대현상(honorification phenomenon)이 일어나기도 하고, 존대대명사(honorific pronoun)가 사용되기도 하며, 맥락상 되찾을 수 있으면 주어나 목적어가 완전히 생략되기도 한다. 이러한 특징적인 언어현상이 일어나는 한국어대화를 처리하고 그것의 표상구조를 만들기 위해서 대화참석자에 관한 정보, 발화문의 화행에 관한 정보. 대화에 관련된 사람들의 사회적 지위에 있어서의 상대적 순위에 관한 정보, 대화에 나타나는 발화문 사이의 정보흐름 등을 묵시적으로가 아니라 명시적으로 표시하고 이용할 것을 본 논문은 제안한다. 또한. 본 논문은 이러한 상황정보(situational information)를 표시하고 이용하는 방법과 한국어대화의 적절한 표상구조를 제시한다. 본 논문에서 한국어대화표상구조의 설정은 담화표상이론(Discourse Representation Theory)과 분할담화표상이론(Segmented Discourse Representation Theory)을 수정ㆍ확대하여 이루어진다. 나아가서, 본 논문은 한국어대화를 전산적으로 어떻게 처리하고 그것의 표상구조를 구축하는지를 프롤로그 프로그래밍 언어를 사용하여 보여주고 나서, 그러한 표상구조의 타당성을 알아보기 위해 자연발생적 한국어대화에도 적용시켜 본다.

국어대사전의 표제어에 나타나는 한자 정보 (Hanja Information in the Entries of Korean Unabridged Dictionary)

  • 김철수
    • 한국콘텐츠학회논문지
    • /
    • 제10권4호
    • /
    • pp.438-446
    • /
    • 2010
  • 한글과 한자가 혼합되어 나타나는 분야의 언어정보처리를 수행하기 위해서는 한글 및 한자 정보를 동시에 지원할 수 있는 전자 사전이 요구된다. 본 논문에서는 국어대사전의 표제어에 나타나는 한자 통계 정보에 대하여 고찰하였다. 대상 정보는 KSC-5601 코드에 기초하여 엔트리에 한자가 포함된 엔트리 수, 엔트리에 나타나는 한자의 음과 훈의 출현빈도 수, 품사별 한자 출현빈도수, 엔트리당 평균 출현 한자 수 등이다. 440,594개의 표제어 중 303,951개에서 한 글자 이상의 한자가 나타나 68.99%의 표제어에서 한자가 출현 하였다. 440,594개의 표제어에서 858,595글자의 한자를 포함하고 있어 표제어 당 평균 1.95개의 한자가 출현하였다. 표제어의 평균 음절길이 3.56이고 1.95개의 한자가 출현하므로 표제어를 구성하는 글자 중 54.78%가 한자임을 알 수 있다. 4,888개의 한자 코드 중 한번 이상 출현한 한자는 4,660개이며, 228개의 한자는 한 번도 출현하지 않았다. 4,000번 이상 출현하는 한자는 5개였다. 엔트리에 출현하는 858,595개의 한자에 대응하는 한글 음은 471개였다.

『적천수(滴天髓)』 격국론의 후대 평주 간 비교연구 (A Study on Comparison of Later Commentaries about Kyeokguk theory of Jeokcheonsu)

  • 이보영;김기승
    • 산업진흥연구
    • /
    • 제7권1호
    • /
    • pp.81-87
    • /
    • 2022
  • 이 연구는 『적천수』에 대한 다양한 판본들을 비교하고 분석하여 한가지 원문을 두고 평주한 시각에 따라 달라져 있는 주석에 대하여 어떤 해석이 더 타당한 것인가를 확인하고자 하는 데 목적이 있다. 『적천수』의 명리이론에 대한 오해 중에서 가장 크게 차지하고 있는 부분이 격국론이다. 『적천수』는 격국을 중시하지 않았으며 억부용신을 강조하는 명리 고전이라는 평가를 많이 받는다. 하지만 원문을 이론별로 분류해 본 결과 억부론을 직접적으로 언급한 문장은 5개 남짓에 불과 하지만, 격국론을 설명하고 있는 문장은 9개 그리고 종격과 화격을 설명한 것까지 포함한다면 격국을 설명하는 문장이 15개에 이른다. 은유적 화법을 주로 사용하고 있는 것만 보더라도 명리 초급자에게 읽히고자 저술된 서적이 아님도 분명하다. 명리의 원리를 이미 학습하여 충분한 지식을 가지고 있는 이들에게 더 심오한 이치를 전달하고 깨우침을 갖게 하고자 저술된 명리서이다. 이런 수준의 독자를 가정하고 저술되었기에 "재관인수분편정(財官印綬分偏正) 겸론식상격국정(兼論食傷格局定)"이라는 하나의 문장이면 격국론에 대한 설명으로 충분하였을 것이다. 『적천수』에 담겨있는 후대 평주 간 명리이론중에서 격국론에 관련된 '팔격', '관살', '상관', '월령', '생시', '청탁'원문에 대한 4인의 평주를 비교 분석하였다.

텍스트 문서 기반의 감성 인식 시스템 (An Emotion Scanning System on Text Documents)

  • 김명규;김정호;차명훈;채수환
    • 감성과학
    • /
    • 제12권4호
    • /
    • pp.433-442
    • /
    • 2009
  • 요즈음 인터넷을 통해 물건을 구매하는 경향이 증가하고 있다. 또한 물건을 구매한 소비자는 리뷰, 댓글, 비평 또는 블로그 등의 형식으로 온라인에 그들의 사용 후기를 작성한다. 또한 작성된 사용 후기부터 많은 구매자들은 물건을 구매하기 전에 자신이 구입하고자 하는 물건에 대한 정보를 얻는다. 따라서 회사나 공공기관은 대중이 다른 사람의 의견에 관심을 기울인다는 점 때문에 대중의 의견을 수집하고 분석할 필요성에 직면하였다. 그러나 온라인상에 댓글이 너무 많고, 중복적이면서 짧은 경향이 있다. 이러한 환경 속에서 텍스트 문서의 감성을 인식하는 시스템의 필요성이 대두되었다. 텍스트로부터 작성자의 의견이나 주관적인 생각을 추출할 수 있게 영어에서는 단어에 속성이 주어진 GI와 LKB가 있으나 한글은 아직 속성이 주어진 사전이 존재하지 않는다. 이 논문에서는 한글 품사 중 4개의 품사(명사, 동사, 형용사, 부사)에 속성을 주었다. 그리고 학습 군을 만들어서 감성 단어의 패턴을 구성하고, 문장에서 단어 사이의 공기관계를 구성하여 학습 시켰다. 이 학습을 바탕으로, SO-PMI을 이용하여 문서를 긍정과 부정 2가지 극성을 분류하고, 4개의 품사(명사, 동사, 형용사, 부사)를 각각 조합하여 최상의 조건을 구하였다. 마지막으로 사용자 인터페이스를 통해 새로운 감성 표현, 구성형식, 단어 연관성을 반자동적으로 삽입하고 교정할 수 있는 시스템을 설계하였다.

  • PDF

온라인 리뷰 분석을 통한 상품 평가 기준 추출: LDA 및 k-최근접 이웃 접근법을 활용하여 (Product Evaluation Criteria Extraction through Online Review Analysis: Using LDA and k-Nearest Neighbor Approach)

  • 이지현;정상형;김준호;민은주;여운영;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.97-117
    • /
    • 2020
  • 상품 평가 기준은 상품에 대한 속성, 가치 등을 표현한 지표로써 사용자나 기업이 상품을 측정하고 파악할 수 있게 한다. 기업이 자사 제품에 대한 객관적인 평가와 비교를 수행하기 위해서는 적절한 기준을 선정하는 것이 필수적이다. 이때, 평가 기준은 소비자들이 제품을 실제로 구매 및 사용 후 평가할 때 고려하는 제품의 특징을 반영하여야 한다. 그러나 기존에 사용되던 평가 기준은 제품마다 상이한 소비자의 의견을 반영하지 못하고 있다. 기존 연구에서는 소비자 의견이 반영된 온라인 리뷰를 통해 상품의 특징, 주제를 추출하고 이를 평가기준으로 사용했다. 하지만 여전히 상품과 연관성이 낮은 평가 기준이 추출되거나 부적절한 단어가 정제되지 않는 한계가 있다. 본 연구에서는 이를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 기법으로 리뷰로부터 평가 기준 후보군을 추출하고 이를 k-최근접 이웃 접근법(k-Nearest Neighbor Approach, k-NN)을 이용해 정제하는 모델을 개발하고 검증했다. 제시하는 방법은 준비 단계와 추출 단계로 이루어진다. 준비 단계에서는 워드임베딩(Word Embedding) 모델과 평가 기준 후보군을 정제하기 위한 k-NN 분류기를 생성한다. 추출 단계에서는 k-NN 분류기와 언급 비율을 이용해 평가 기준 후보군을 정제하고 최종 결과를 도출한다. 제안 모델의 성능 평가를 위해 명사 빈도 추출 모델, LDA 빈도 추출 모델, 실제 전자상거래 사이트가 제공하는 평가 기준을 세 비교 모델로 선정했다. 세 모델과의 비교를 위해 설문을 진행하고 점수화하여 결과를 검정했다. 30번의 검정 결과 26번의 결과에서 제안 모델이 우수함을 확인했다. 본 연구의 제안 모델은 전자상거래 사이트에서 리뷰 특성을 반영한 상품군 별 차원을 도출하는데 활용될 수 있고 이를 기초로 인사이트 발굴을 위한 리뷰 분석 및 활용에 크게 기여할 것이다.