• Title/Summary/Keyword: 어휘정보

Search Result 1,062, Processing Time 0.028 seconds

A Study on the Expansion of Fundamental Categories Based on Thesaurus International Standards (시소러스 국제표준 기반 기본 범주의 확장에 관한 연구)

  • Chang, Inho
    • Journal of Korean Library and Information Science Society
    • /
    • v.50 no.1
    • /
    • pp.273-291
    • /
    • 2019
  • This study aims to extend fundamental categories from Clause 11, "facet analysis" in International Standards for thesaurus(ISO 25964-1) by analyzing fundamental categories of Clause 11 and concept and their scope in a thesaurus of Clause 5. For to do this, the fundamental categories were established by adjusting partially and adding mental entities explicitly referencing the highest concepts(YAMATO which is the upper ontology of Mizoguchi, and ISO 2788) and existing fundamental categories(PMEST, FRBR group 3 entities, 13 categories in CRG). Also, established fundamental categories were reorganized and structured based on concreteness/abstraction of PMEST in Ranganathan and independence/dependence of YAMATO in Mizoguchi. And the upper categories were divided into independent and dependent entities. Under these entities 28 criteria are included in the independent ones and 2 criteria in the dependent ones. In the further study, the result of this study can be expected to reuse and refer as controlled vocabulary in the field like classification, taxonomies and thesauri where expected to utilize fundamental categories and as the high-level concept when constructing an ontology for information retrieval.

A Study on the Online Service of Cultural Heritage Contents (문화유산 콘텐츠 온라인 서비스에 관한 연구)

  • Park, Ok Nam
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.19 no.1
    • /
    • pp.195-224
    • /
    • 2019
  • Online service has been emphasized in various studies for content uses and diffusion of cultural heritage domain. This study purports to investigate the status of contents organization and information services for online cultural heritage services and to suggest improvement directions. This study conducted case studies and expert interviews based on contents, search systems, additional services, and expansion services. It also suggested an integrated information retrieval service for cultural heritage contents as well as the provision of high-quality content and various types of contents. The flexibility of the search function through the content hierarchy, the expansion of access points through the construction of controlled vocabulary, and authority data were also focused. As an additional service, the study proposed a curation-based, user-customized service, data sets open and share, and user participation.

Predicate Recognition Method using BiLSTM Model and Morpheme Features (BiLSTM 모델과 형태소 자질을 이용한 서술어 인식 방법)

  • Nam, Chung-Hyeon;Jang, Kyung-Sik
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.1
    • /
    • pp.24-29
    • /
    • 2022
  • Semantic role labeling task used in various natural language processing fields, such as information extraction and question answering systems, is the task of identifying the arugments for a given sentence and predicate. Predicate used as semantic role labeling input are extracted using lexical analysis results such as POS-tagging, but the problem is that predicate can't extract all linguistic patterns because predicate in korean language has various patterns, depending on the meaning of sentence. In this paper, we propose a korean predicate recognition method using neural network model with pre-trained embedding models and lexical features. The experiments compare the performance on the hyper parameters of models and with or without the use of embedding models and lexical features. As a result, we confirm that the performance of the proposed neural network model was 92.63%.

LSTM Model Design to Improve the Association of Keywords and Documents for Healthcare Services (의료서비스를 위한 키워드와 문서의 연관성 향상을 위한 LSTM모델 설계)

  • Kim, June-gyeom;Seo, Jin-beom;Cho, Young-bok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.75-77
    • /
    • 2021
  • A variety of search engines are currently in use. The search engine supports the retrieval of data required by users through three stages: crawling, index generation, and output of search results based on meta-tag information. However, a large number of documents obtained by searching for keywords are often unrelated or scarce. Because of these problems, it takes time and effort to grasp the content from the search results and classify the accuracy. The index of search engines is updated periodically, but the criteria for weighted values and update periods are different from one search engine to another. Therefore, this paper uses the LSTM model, which extracts the relationship between keywords entered by the user and documents instead of the existing search engine, and improves the relationship between keywords and documents by entering keywords that the user wants to find.

  • PDF

Development of a Malicious URL Machine Learning Detection Model Reflecting the Main Feature of URLs (URL 주요특징을 고려한 악성URL 머신러닝 탐지모델 개발)

  • Kim, Youngjun;Lee, Jaewoo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.12
    • /
    • pp.1786-1793
    • /
    • 2022
  • Cyber-attacks such as smishing and hacking mail exploiting COVID-19, political and social issues, have recently been continuous. Machine learning and deep learning technology research are conducted to prevent any damage due to cyber-attacks inducing malicious links to breach personal data. It has been concluded as a lack of basis to judge the attacks to be malicious in previous studies since the features of data set were excessively simple. In this paper, nine main features of three types, "URL Days", "URL Word", and "URL Abnormal", were proposed in addition to lexical features of URL which have been reflected in previous research. F1-Score and accuracy index were measured through four different types of machine learning algorithms. An improvement of 0.9% in a result and the highest value, 98.5%, were examined in F1-Score and accuracy through comparatively analyzing an existing research. These outcomes proved the main features contribute to elevating the values in both accuracy and performance.

Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension (한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구)

  • Lee, Kangwook;Lee, Haejun;Kim, Jaewon;Yun, Huiwon;Ryu, Wonho
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.197-202
    • /
    • 2019
  • 토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.

  • PDF

Effects of the facial expression's presenting type and areas on emotional recognition (얼굴 표정의 제시 유형과 제시 영역에 따른 정서 인식 효과)

  • Lee, Jung-Hun;Kim, Hyuk;Han, Kwang-Hee
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1393-1400
    • /
    • 2006
  • 정서를 측정하고 나타내는 기술이 발전에 따라 문화적 보편성을 가진 얼굴표정 연구의 필요성이 증가하고 있다. 그리고 지금까지의 많은 얼굴 표정 연구들은 정적인 얼굴사진 위주로 이루어졌다. 그러나 실제 사람들은 단적인 얼굴표정만으로 정서를 인식하기 보다는 미묘한 표정의 변화나 얼굴근육의 움직임 등을 통해 정서상태를 추론한다. 본 연구는 동적인 얼굴표정이 정적인 얼굴표정 보다 정서상태 전달에서 더 큰 효과를 가짐을 밝히고, 동적인 얼굴 표정에서의 눈과 입의 정서인식 효과를 비교해 보고자 하였다. 이에 따라 15 개의 형용사 어휘에 맞는 얼굴 표정을 얼굴전체, 눈, 입의 세 수준으로 나누어 동영상과 스틸사진으로 제시하였다. 정서 판단의 정확성을 측정한 결과, 세 수준 모두에서 동영상의 정서인식 효과가 스틸사진 보다 유의미하게 높게 나타나 동적인 얼굴 표정이 더 많은 내적정보를 보여주는 것을 알 수 있었다. 또한 얼굴전체-눈-입 순서로 정서인식 효과의 차이가 유의미하게 나타났으며, 부정적 정서는 눈에서 더 잘 나타나고 긍정적 정서는 입에서 더 잘 나타났다. 따라서 눈과 입에 따른 정서인식이 정서의 긍정성-부정성 차원에 따라 달라짐을 볼 수 있었다.

  • PDF

Categorizing Web Image Search Results Using Emotional Concepts (감성 개념을 이용한 웹 이미지 검색 결과 분류)

  • Kim, Young-Rae;Kwon, Kyung-Su;Shin, Yun-Hee;Kim, Eun-Yi
    • 한국HCI학회:학술대회논문집
    • /
    • 2009.02a
    • /
    • pp.562-566
    • /
    • 2009
  • In this paper, we present a novel system to categorize web image search results using emotional concepts and to browse the results more conveniently and easily. The proposed system can categorize search results into 8 emotional categories based on emotion vector, which obtained by color and pattern features. Here, we use Kobayashi’s emotional categories: {romantic, natural, casual, elegant, chic, classic, dandy and modern}. With search results for a given query, the proposed system can provide categorized images for each emotional category. With 1,000 Yahoo! search images, we compared the proposed method with Yahoo! image search engine in respect of satisfaction, efficiency, convenience and relevance with a user study. Our experimental results show the effectiveness of the proposed method.

  • PDF

Development of the Real-Time Graphic Sign Language Broadcasting System (실시간 그래픽 수화방송 시스템 개발)

  • Oh, Juhyun;Jeon, Seonggyu;Kim, Byungsun;Kim, Minho;Kang, Sangwook;Kwon, Hyukchul;Kim, Iktae;Song, Youngho
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.191-194
    • /
    • 2015
  • 청각장애인을 위한 지상파방송 서비스 중 자막방송은 100%에 가까운 편성 비율을 달성하고 있지만, 수화방송은 방송화면을 가리는 특성과 비용 등의 문제로 5% 수준의 편성에 그치고 있다. 본 연구에서는 자막방송을 수화로 번역하여 그래픽 수화 방송을 생성함으로써 수화방송의 비율을 높이고자 한다. 일기예보에 한정하여 수화방송을 생성한 기존 연구 결과를 바탕으로 모든 방송 프로그램에 적용 가능한 그래픽 수화방송 시스템을 제안한다. 자막방송 문장을 형태소별로 분석한 다음 중요 품사 위주로 단어 단위로 번역하고, 한국어 어휘의미망을 이용하여 수화사전에 없는 단어를 대표어로 대체하였다. 형제어와 문맥 정보를 이용하여 중의성 단어를 성공적으로 번역하였다. 기존 일기예보 수화방송 시스템의 수화 사전과 수화 모션 데이터베이스를 추가 구축하였다. 자동번역 기술이 전문 수화 통역사의 수준을 따라잡을 수는 없지만 향후 수화방송도 선택적 서비스가 가능해지고 수화통역사의 수화방송이 모든 프로그램에 편성될 때까지 본 시스템이 보조적 시청 수단으로 사용 가능할 것이다.

  • PDF

A Review on the Models of Letter Transposition Effect and Exploration of Hangul Model (단어재인에 있어서 글자교환 효과와 한글 처리 모형 탐색)

  • Lee, Chang H.;Lee, Yoonhyoung
    • Korean Journal of Cognitive Science
    • /
    • v.25 no.1
    • /
    • pp.1-24
    • /
    • 2014
  • Growing boy of studies focus on the letter transposition effect since it gives the information on how letters are coded and what variables are involved in the processes of word recognition. This review investigated various models on letter transposition effect. While most proposed models rely mainly on the bottom-up processes, evidences from various studies suggested the necessity of the top-down variables based on the cognitive processing mechanism. Especially, empirical evidences suggested that Hangul model should include a position specific processing mechanism based on onset, vowel, and coda of the Korean character.