• Title/Summary/Keyword: 어휘정보

Search Result 1,065, Processing Time 0.042 seconds

Opinion Mining of Product Reviews using Sentiment Phrase Patterns considered the Endings of Declinable Words (어미변화를 고려한 감성 구문 패턴을 이용한 상품평 의견 분류)

  • Kim, Jung-Ho;Cha, Myung-Hoon;Kim, Myung-Kyu;Chae, Soo-Hoan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.285-290
    • /
    • 2010
  • 인터넷이 대중화됨에 따라 누구나 쉽게 자신의 의견을 온라인상에 표현할 수 있게 되었다. 그 결과 생각이나 느낌을 나타내는 의견 데이터들의 양이 급속도로 방대해졌으며, 이러한 데이터들을 이용한 여러 응용 사례들의 등장으로, 효율적인 검색 및 자동 분류 기술이 요구되고 있다. 이런 기술적 흐름에 맞추어 의견 데이터 분류에 관한 여러 연구들이 이루어져 왔다. 이러한 의견 분류에 대한 연구들을 살펴보면, 분류를 위해 자질(Feature)로서 사용한 단일어(Single word)가 아닌 2개 이상의 N-gram 단어, 어휘 구문 패턴 및 통사 구문 패턴 등을 사용한다. 특히, 패턴은 단일어나 N-gram 단어에 비해 유연하고, 언어학적으로 풍부한 정보를 표현할 수 있기 때문에 이를 주요 연구 주제로 사용되었다. 그럼에도 불구하고, 이러한 연구들은 주로 영어에 대한 연구들이었으며, 한국어에 패턴을 적용하여 주관성을 갖는 문장을 분류하거나, 극성을 분류하는 연구들은 아직 미비하다. 한국어의 특색으로 한국어는 용언의 활용이 발달되어 있어, 어미의 변화가 다양하며, 그 변화에 따라 의미가 미묘하게 변화한다. 그러나 기존 한국어에 대한 의견 분류 연구들은 단어의 핵심 의미만을 파악하기 위해 어미 부분을 제거하고 어간만을 취해서 처리하여 어미에 대한 의미변화를 고려하지 못하므로 분류 정확도가 영어권에 연구 결과에 비해 떨어진다. 그래서 본 연구는 영어에 적용된 패턴을 이용한 기존 방법들을 정리하고, 그 방법들 중에서 극성을 지닌 문장성분 패턴을 한국어에 적용하였다. 그리고 어미의 변화에 대한 패턴을 추출하여 이 변화가 의견 분류의 성능에 미치는 영향을 분석하였다.

  • PDF

Korean Learning Assistant System with Automatically Extracted Knowledge (자동 추출된 지식에 기반한 한국어 학습 지원 시스템)

  • Park, Gi-Tae;Lee, Tae-Hoon;Hwang, So-Hyun;Kim, Byeong Man;Lee, Hyun Ah;Shin, Yoon Sik
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.1 no.2
    • /
    • pp.91-102
    • /
    • 2012
  • Computer aided language learning has become popular. But the level of automation of constructing a Korean learning assistant system is not so high because a practical language learning system needs large scale knowledge resources, which is very hard to acquire. In this paper, we propose a Korean learning assistant system that utilizes easily obtainable knowledge resources like a corpus, web documents and a lexicon. Our system has three modules - problem solving, pronunciation marker and writing assistant. Automatic problem generator uses a corpus and a lexicon to make problems with one correct answer and three distracters, then verifies their suitability by utilizing frequency information from web documents. We analyze pronunciation rules for a pronunciation marker and recommend appropriate words and sentences in real-time by using data extracted from a corpus. In experiment, we evaluate 400 automatically generated problems, which show 89.9% problem suitability and 64.9% example suitability.

A Study on the Expansion of Fundamental Categories Based on Thesaurus International Standards (시소러스 국제표준 기반 기본 범주의 확장에 관한 연구)

  • Chang, Inho
    • Journal of Korean Library and Information Science Society
    • /
    • v.50 no.1
    • /
    • pp.273-291
    • /
    • 2019
  • This study aims to extend fundamental categories from Clause 11, "facet analysis" in International Standards for thesaurus(ISO 25964-1) by analyzing fundamental categories of Clause 11 and concept and their scope in a thesaurus of Clause 5. For to do this, the fundamental categories were established by adjusting partially and adding mental entities explicitly referencing the highest concepts(YAMATO which is the upper ontology of Mizoguchi, and ISO 2788) and existing fundamental categories(PMEST, FRBR group 3 entities, 13 categories in CRG). Also, established fundamental categories were reorganized and structured based on concreteness/abstraction of PMEST in Ranganathan and independence/dependence of YAMATO in Mizoguchi. And the upper categories were divided into independent and dependent entities. Under these entities 28 criteria are included in the independent ones and 2 criteria in the dependent ones. In the further study, the result of this study can be expected to reuse and refer as controlled vocabulary in the field like classification, taxonomies and thesauri where expected to utilize fundamental categories and as the high-level concept when constructing an ontology for information retrieval.

A Study on the Online Service of Cultural Heritage Contents (문화유산 콘텐츠 온라인 서비스에 관한 연구)

  • Park, Ok Nam
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.19 no.1
    • /
    • pp.195-224
    • /
    • 2019
  • Online service has been emphasized in various studies for content uses and diffusion of cultural heritage domain. This study purports to investigate the status of contents organization and information services for online cultural heritage services and to suggest improvement directions. This study conducted case studies and expert interviews based on contents, search systems, additional services, and expansion services. It also suggested an integrated information retrieval service for cultural heritage contents as well as the provision of high-quality content and various types of contents. The flexibility of the search function through the content hierarchy, the expansion of access points through the construction of controlled vocabulary, and authority data were also focused. As an additional service, the study proposed a curation-based, user-customized service, data sets open and share, and user participation.

Predicate Recognition Method using BiLSTM Model and Morpheme Features (BiLSTM 모델과 형태소 자질을 이용한 서술어 인식 방법)

  • Nam, Chung-Hyeon;Jang, Kyung-Sik
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.1
    • /
    • pp.24-29
    • /
    • 2022
  • Semantic role labeling task used in various natural language processing fields, such as information extraction and question answering systems, is the task of identifying the arugments for a given sentence and predicate. Predicate used as semantic role labeling input are extracted using lexical analysis results such as POS-tagging, but the problem is that predicate can't extract all linguistic patterns because predicate in korean language has various patterns, depending on the meaning of sentence. In this paper, we propose a korean predicate recognition method using neural network model with pre-trained embedding models and lexical features. The experiments compare the performance on the hyper parameters of models and with or without the use of embedding models and lexical features. As a result, we confirm that the performance of the proposed neural network model was 92.63%.

LSTM Model Design to Improve the Association of Keywords and Documents for Healthcare Services (의료서비스를 위한 키워드와 문서의 연관성 향상을 위한 LSTM모델 설계)

  • Kim, June-gyeom;Seo, Jin-beom;Cho, Young-bok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.75-77
    • /
    • 2021
  • A variety of search engines are currently in use. The search engine supports the retrieval of data required by users through three stages: crawling, index generation, and output of search results based on meta-tag information. However, a large number of documents obtained by searching for keywords are often unrelated or scarce. Because of these problems, it takes time and effort to grasp the content from the search results and classify the accuracy. The index of search engines is updated periodically, but the criteria for weighted values and update periods are different from one search engine to another. Therefore, this paper uses the LSTM model, which extracts the relationship between keywords entered by the user and documents instead of the existing search engine, and improves the relationship between keywords and documents by entering keywords that the user wants to find.

  • PDF

Development of a Malicious URL Machine Learning Detection Model Reflecting the Main Feature of URLs (URL 주요특징을 고려한 악성URL 머신러닝 탐지모델 개발)

  • Kim, Youngjun;Lee, Jaewoo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.12
    • /
    • pp.1786-1793
    • /
    • 2022
  • Cyber-attacks such as smishing and hacking mail exploiting COVID-19, political and social issues, have recently been continuous. Machine learning and deep learning technology research are conducted to prevent any damage due to cyber-attacks inducing malicious links to breach personal data. It has been concluded as a lack of basis to judge the attacks to be malicious in previous studies since the features of data set were excessively simple. In this paper, nine main features of three types, "URL Days", "URL Word", and "URL Abnormal", were proposed in addition to lexical features of URL which have been reflected in previous research. F1-Score and accuracy index were measured through four different types of machine learning algorithms. An improvement of 0.9% in a result and the highest value, 98.5%, were examined in F1-Score and accuracy through comparatively analyzing an existing research. These outcomes proved the main features contribute to elevating the values in both accuracy and performance.

Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension (한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구)

  • Lee, Kangwook;Lee, Haejun;Kim, Jaewon;Yun, Huiwon;Ryu, Wonho
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.197-202
    • /
    • 2019
  • 토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.

  • PDF

Effects of the facial expression's presenting type and areas on emotional recognition (얼굴 표정의 제시 유형과 제시 영역에 따른 정서 인식 효과)

  • Lee, Jung-Hun;Kim, Hyuk;Han, Kwang-Hee
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1393-1400
    • /
    • 2006
  • 정서를 측정하고 나타내는 기술이 발전에 따라 문화적 보편성을 가진 얼굴표정 연구의 필요성이 증가하고 있다. 그리고 지금까지의 많은 얼굴 표정 연구들은 정적인 얼굴사진 위주로 이루어졌다. 그러나 실제 사람들은 단적인 얼굴표정만으로 정서를 인식하기 보다는 미묘한 표정의 변화나 얼굴근육의 움직임 등을 통해 정서상태를 추론한다. 본 연구는 동적인 얼굴표정이 정적인 얼굴표정 보다 정서상태 전달에서 더 큰 효과를 가짐을 밝히고, 동적인 얼굴 표정에서의 눈과 입의 정서인식 효과를 비교해 보고자 하였다. 이에 따라 15 개의 형용사 어휘에 맞는 얼굴 표정을 얼굴전체, 눈, 입의 세 수준으로 나누어 동영상과 스틸사진으로 제시하였다. 정서 판단의 정확성을 측정한 결과, 세 수준 모두에서 동영상의 정서인식 효과가 스틸사진 보다 유의미하게 높게 나타나 동적인 얼굴 표정이 더 많은 내적정보를 보여주는 것을 알 수 있었다. 또한 얼굴전체-눈-입 순서로 정서인식 효과의 차이가 유의미하게 나타났으며, 부정적 정서는 눈에서 더 잘 나타나고 긍정적 정서는 입에서 더 잘 나타났다. 따라서 눈과 입에 따른 정서인식이 정서의 긍정성-부정성 차원에 따라 달라짐을 볼 수 있었다.

  • PDF

Categorizing Web Image Search Results Using Emotional Concepts (감성 개념을 이용한 웹 이미지 검색 결과 분류)

  • Kim, Young-Rae;Kwon, Kyung-Su;Shin, Yun-Hee;Kim, Eun-Yi
    • 한국HCI학회:학술대회논문집
    • /
    • 2009.02a
    • /
    • pp.562-566
    • /
    • 2009
  • In this paper, we present a novel system to categorize web image search results using emotional concepts and to browse the results more conveniently and easily. The proposed system can categorize search results into 8 emotional categories based on emotion vector, which obtained by color and pattern features. Here, we use Kobayashi’s emotional categories: {romantic, natural, casual, elegant, chic, classic, dandy and modern}. With search results for a given query, the proposed system can provide categorized images for each emotional category. With 1,000 Yahoo! search images, we compared the proposed method with Yahoo! image search engine in respect of satisfaction, efficiency, convenience and relevance with a user study. Our experimental results show the effectiveness of the proposed method.

  • PDF