• 제목/요약/키워드: dictionaries

검색결과 210건 처리시간 0.022초

온톨로지를 이용한 일자리 데이터의 추론 해석 (Inference Interpretation of Job Data using Ontology)

  • 김광제;김정호
    • Journal of Platform Technology
    • /
    • 제10권3호
    • /
    • pp.69-78
    • /
    • 2022
  • 채용 플랫폼의 일자리 정보는 IT 기술의 발전과 함께 많은 산업 분야에서 대량의 데이터를 발생시키고 있으며 실시간 발생하는 비정형도가 높은 특징이 있다. 또한 일자리와 관련한 채용공고와 훈련정보 등은 4차 산업혁명 등 산업기술의 변화와 밀접한 관계가 있어 기술변화 및 발전을 이해하는데 높은 데이터 가치를 지니고 있다. 본 논문은 구인-구직과 관련된 정보들을 직관적으로 이해하고 활용하기 위해 관련된 데이터를 정의해 직무데이터 사전을 만들고, 공고-직무-훈련 등 데이터 간 연계와 추론을 할 수 있도록 온톨로지 모델링에 기반한 데이터맵을 설계·구축 및 평가를 수행하였다. 이를 통해 업무능력 중심의 추론 기능은 수요자 간 미스매치를 최소화하고 데이터사전 최적화로 사용자가 만족할 수 있는 QoS 지원이 가능함과 검색엔진 기반 구인-구직 시스템보다 성능이 우수함을 확인하였다.

Encoding Dictionary Feature for Deep Learning-based Named Entity Recognition

  • Ronran, Chirawan;Unankard, Sayan;Lee, Seungwoo
    • International Journal of Contents
    • /
    • 제17권4호
    • /
    • pp.1-15
    • /
    • 2021
  • Named entity recognition (NER) is a crucial task for NLP, which aims to extract information from texts. To build NER systems, deep learning (DL) models are learned with dictionary features by mapping each word in the dataset to dictionary features and generating a unique index. However, this technique might generate noisy labels, which pose significant challenges for the NER task. In this paper, we proposed DL-dictionary features, and evaluated them on two datasets, including the OntoNotes 5.0 dataset and our new infectious disease outbreak dataset named GFID. We used (1) a Bidirectional Long Short-Term Memory (BiLSTM) character and (2) pre-trained embedding to concatenate with (3) our proposed features, named the Convolutional Neural Network (CNN), BiLSTM, and self-attention dictionaries, respectively. The combined features (1-3) were fed through BiLSTM - Conditional Random Field (CRF) to predict named entity classes as outputs. We compared these outputs with other predictions of the BiLSTM character, pre-trained embedding, and dictionary features from previous research, which used the exact matching and partial matching dictionary technique. The findings showed that the model employing our dictionary features outperformed other models that used existing dictionary features. We also computed the F1 score with the GFID dataset to apply this technique to extract medical or healthcare information.

가칠장(假漆匠)의 성격과 역할 (The character and role of Gachiljang(假漆匠))

  • 장영주;류성룡
    • 건축역사연구
    • /
    • 제31권4호
    • /
    • pp.45-56
    • /
    • 2022
  • Gachiljang(假漆匠), along with Jinchiljang(眞漆匠), is an important craftsman who cannot be left out during the finishing process of wooden furniture and wooden buildings during the Joseon Dynasty. The current definition of Gachiljang does not properly explain the nature and role of Gachiljang. In many related terminology dictionaries, Gachiljang is defined as "artisan who dose the base paintwork of Dancheong." But an analysis of the Joseon Dynasty's Uigwe(儀軌) shows that Gachiljang appears frequently in works that are not related to Dancheong at all. Therefore the current definition seems to be inaccurate and need to be revised. Gachiljang is a name that contrasts with Jinchiljang, and he makes and paints Myongyu(明油). Just as Jinchiljang uses not only lacquer but also various pigments to paint colorful lacquer, Gachiljang also uses various pigments to decorate buildings or furniture in a fancy way and then finishs with a transparent paint. Even in the Dancheong(丹靑) work of the building, all the base painting and finish coating work will be in charge of Gachiljang, except for the paintings performed by the Whawon(畫員) or the Whasa(畫師).

한국기상학회 60년사 (Sixty-year History of the Korean Meteorological Society)

  • 이태영;서명석
    • 대기
    • /
    • 제33권2호
    • /
    • pp.247-263
    • /
    • 2023
  • A brief history of the Korean Meteorological Society (KMS) is presented for the 60-year period (1963~2022). And academic activities during the period are examined to evaluate their contributions to the achievement of the KMS's goal, that is, the advance of meteorology and circulation of meteorological knowledge. Membership of the KMS was less than 300 before 1990, but increased fast afterwards, exceeding 1000, 2000 and 3000 in 2002, 2014 and 2019, respectively. After 1990, 11 professional committees were set up gradually and played important roles in the advances of professional fields. Size of the KMS budget grew gradually in the 1990s and faster during the 2000s, showing fluctuations in the 2010s. The KMS has been quite active in academic activities such as academic journals, domestic and international conferences, and book publishing. The Journal of the KMS (JKMS) has led the advance of meteorology in Korea since the beginning of the KMS, while "Asia-Pacific Journal of Atmospheric Sciences", which succeeded the JKMS in 2008, has been showing significant paper contributions from scientists around the world and increase of impact factor. Total number of presentations in the regular KMS conferences for the 2010s is 5 times larger than that for the 1990s, with a significant diversification of subject area. Internationally, the trilateral conference of the meteorological societies of Korea, China and Japan had been held since 2005. In 2015, the 3 societies stopped the conference and, instead, launched "Asian Conference on Meteorology". Meanwhile, the KMS has published glossaries, dictionaries, and textbooks of atmospheric sciences.

문헌에 나타난 불고기의 개념과 의미 변화 (The Change of the Concept and Meaning of Bulgogi in Cookery Book & Dictionary)

  • 이규진;조미숙
    • 한국식생활문화학회지
    • /
    • 제25권5호
    • /
    • pp.508-515
    • /
    • 2010
  • The purpose of this research was to investigate the transition of the concept and meaning of "bulgogi". "Bulgogi" is a representative Korean food and is also a global menu item. The first dictionary that presented the word "bulgogi" was the Keunsajeon (big dictionary). The results of an analysis of 17 dictionaries published in the last 60 years showed the immutable definition of "neobiani" as seasoned and broiled beef. In contrast, "bulgogi" has been termed differently, from "simply grilled meat of an animal" to the same meaning as that of "neobiani". Furthermore, to define the difference between common grilled meat in modern versus present time, a review of 26 cookery books from Sieuijeanseo, written in late 1800, to The Taste of Korea, written in 1987, were selected and examined. To date, the first appearance of the word "bulgogi" mentioned in a cook book was in Practice in Higher Cuisine, which was written by Shin- young Bang in 1958. The book states that "bulgogi" is the second name or the vulgar designation of "neobiani".

소셜미디어 뉴스를 이용한 관심 이슈 연구 (A Study on Interest Issues Using Social Media New)

  • 곽노영;이문봉
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제32권2호
    • /
    • pp.177-190
    • /
    • 2023
  • Purpose Recently, as a new business marketing tool, short form content focused on fun and interest has been shared as hashtags. By extracting positive and negative keywords from media audiences through comment analysis of social media news, various stakeholders aim to quickly and easily grasp users' opinions on major news. Design/methodology/approach YouTube videos were searched using the YouTube Data API and the results were collected. Video comments were crawled and implemented as HTML elements, and the collection results were checked on the web page. The collected data consisted of video thumbnails, titles, contents, and comments. Comments were word tokenized with the R program, comparing positive and negative dictionaries, and then quantifying polarity. In addition, social network analysis was conducted using divided positive and negative comments, and the results of centrality analysis and visualization were confirmed. Findings Social media users' opinions on issue news were confirmed by analyzing and visualizing the centrality of keywords through social network analysis by dividing comments into positive and negative. As a result of the analysis, it was found that negative objective reviews had the highest effect on information usefulness. In this way, previous studies have been reaffirmed that online negative information has a strong effect on personal decision-making. Corporate marketers will analyze user comments on social network services (SNS) to detect negative opinions about products or corporate images, which will serve as an opportunity to satisfy customers' needs.

Wiki정의로부터 ISA를 추출할 수 있는 언어적 규칙 (An Automatic Construction of ISA relations of Wordnet Using Wiki Definitions)

  • 한영석;오창근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.52-55
    • /
    • 2008
  • 워드넷(WordNet)의 논리적 내포관계(ISA)를 자동으로 WIKI와 같은 동적인 백과사전으로부터 구할 수 있다면, 워드넷과 같은 지식베이스를 전문분야로까지 쉽게 확장할 수 있을 것이다, 또한 동적인 백과사전에 기반하기 때문에 지식베이스의 동적인 업데이트가 가능하게 된다. 본 논문은 워드넷과 같은 정적이고 수동으로 제작된 개념망이 온라인상의 동적 백과사전에 의해서 어느 정도 자동화 될 수 있는지 밝히고자 하였다, 워드넷의 IT관련 100개의 표제어에 대해서 WIKI 백과사전에서 추출한 정의를 이용하여 ISA관계를 구축하고 그 결과가 워드넷과 어느 정도 일치하는지를 실험하였다. 실험결과 자동 구축된 ISA관계는 워드넷에 대하여 80%의 일치율을 보였다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.

Bi-LSTM 기반의 한국어 감성사전 구축 방안 (KNU Korean Sentiment Lexicon: Bi-LSTM-based Method for Building a Korean Sentiment Lexicon)

  • 박상민;나철원;최민성;이다희;온병원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.219-240
    • /
    • 2018
  • 감성사전은 감성 어휘에 대한 사전으로 감성 분석(Sentiment Analysis)을 위한 기초 자료로 활용된다. 이와 같은 감성사전을 구성하는 감성 어휘는 특정 도메인에 따라 감성의 종류나 정도가 달라질 수 있다. 예를 들면, '슬프다'라는 감성 어휘는 일반적으로 부정의 의미를 나타내지만 영화 도메인에 적용되었을 경우 부정의 의미를 나타내지 않는다. 그렇기 때문에 정확한 감성 분석을 수행하기 위해서는 특정 도메인에 알맞은 감성사전을 구축하는 것이 중요하다. 최근 특정 도메인에 알맞은 감성사전을 구축하기 위해 범용 감성 사전인 오픈한글, SentiWordNet 등을 활용한 연구가 진행되어 왔으나 오픈한글은 현재 서비스가 종료되어 활용이 불가능하며, SentiWordNet은 번역 간에 한국 감성 어휘들의 특징이 잘 반영되지 않는다는 문제점으로 인해 특정 도메인의 감성사전 구축을 위한 기초 자료로써 제약이 존재한다. 이 논문에서는 기존의 범용 감성사전의 문제점을 해결하기 위해 한국어 기반의 새로운 범용 감성사전을 구축하고 이를 KNU 한국어 감성사전이라 명명한다. KNU 한국어 감성사전은 표준국어대사전의 뜻풀이의 감성을 Bi-LSTM을 활용하여 89.45%의 정확도로 분류하였으며 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1-gram, 2-gram, 어구 그리고 문형 등 다양한 형태로 추출한다. 또한 다양한 외부 소스(SentiWordNet, SenticNet, 감정동사, 감성사전0603)를 활용하여 감성 어휘를 확장하였으며 온라인 텍스트 데이터에서 사용되는 신조어, 이모티콘에 대한 감성 어휘도 포함하고 있다. 이 논문에서 구축한 KNU 한국어 감성사전은 특정 도메인에 영향을 받지 않는 14,843개의 감성 어휘로 구성되어 있으며 특정 도메인에 대한 감성사전을 효율적이고 빠르게 구축하기 위한 기초 자료로 활용될 수 있다. 또한 딥러닝의 성능을 높이기 위한 입력 자질로써 활용될 수 있으며, 기본적인 감성 분석의 수행이나 기계 학습을 위한 대량의 학습 데이터 세트를 빠르게 구축에 활용될 수 있다.

웹문서를 이용한 단계별 한국어 미등록어 인식 모델 (Phase-based Model Using Web Documents for Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회논문지
    • /
    • 제13권9호
    • /
    • pp.1898-1904
    • /
    • 2009
  • 신문이나 블로그와 같은 실제 문서에서는 위키백과(Wikipedia)와 같은 기존에 없던 새로운 단어를 포함하고 있다. 그러나, 대부분의 정보 처리 기술은 시스템 개발 당시 확보한 자료를 바탕으로 사전을 구축하므로, 이러한 새로운 단어에 대해 신속하게 대처할 수 없다는 한계가 있다. 따라서 본 논문에서는 사전에 등록되어 있지 않은 한국어 미등록어를 자동으로 인식하는 모델을 제안한다. 제안하는 모델은 전문분석 기반 미등록명사 인식 단계, 웹 출현빈도 기반 미등록용언 인식 단계, 웹 출현빈도 기반 미등록명사 인식 단계로 구성된다. 제안하는 모델은 문서에서 여러 번 나타난 미등록어에 대해 전문분석을 통해 정확하게 인식할 수 있다. 그리고, 제안하는 모델은 문서에 한번 나타난 미등록어에 대해서도 웹문서를 바탕으로 광범위하게 인식할 수 있다. 또한, 제안하는 모델은 기본형이 어절에 그대로 나타나는 미등록명사뿐만 아니라 기본형이 변형하여 나타날 수 있는 미등록용언도 인식할 수 있다. 실험 결과 기존 미등록어 인식방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현을 8.50%를 개선하였다.