• Title/Summary/Keyword: 언어간 매칭

Search Result 25, Processing Time 0.022 seconds

Construction of Korean Knowledge Base Based on Machine Learning from Wikipedia (위키백과로부터 기계학습 기반 한국어 지식베이스 구축)

  • Jeong, Seok-won;Choi, Maengsik;Kim, Harksoo
    • Journal of KIISE
    • /
    • v.42 no.8
    • /
    • pp.1065-1070
    • /
    • 2015
  • The performance of many natural language processing applications depends on the knowledge base as a major resource. WordNet, YAGO, Cyc, and BabelNet have been extensively used as knowledge bases in English. In this paper, we propose a method to construct a YAGO-style knowledge base automatically for Korean (hereafter, K-YAGO) from Wikipedia and YAGO. The proposed system constructs an initial K-YAGO simply by matching YAGO to info-boxes in Wikipedia. Then, the initial K-YAGO is expanded through the use of a machine learning technique. Experiments with the initial K-YAGO shows that the proposed system has a precision of 0.9642. In the experiments with the expanded part of K-YAGO, an accuracy of 0.9468 was achieved with an average macro F1-measure of 0.7596.

A 4-way Pipelined Processing Architecture for Three-Step Search Block Matching Algorithm (3 단계 블록 매칭 알고리즘을 위한 4-경로 파이프라인 처리)

  • Jung, Sung-Tae;Lee, Sang-Seol;Nam, Kung-Moon
    • Journal of Korea Multimedia Society
    • /
    • v.7 no.8
    • /
    • pp.1170-1182
    • /
    • 2004
  • A novel 4-way pipelined processing architecture is presented for three-step search block-matching motion estimation. For the 4-way pipelined processing, we have developed a method which divides the current block and search area into 4 subregions respectively and processes them concurrently. Also, we have developed memory partitioning method to access pixel data from 4 subregions concurrently without memory conflict. The architecture has been designed and simulated with C language and VHDL. Experimental results show that the proposed architecture achieves a high performance for real time motion estimation.

  • PDF

KAISER: Named Entity Recognizer using Word Embedding-based Self-learning of Gazettes (KAISER: 워드 임베딩 기반 개체명 어휘 자가 학습 방법을 적용한 개체명 인식기)

  • Hahm, Younggyun;Choi, Dongho;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.337-339
    • /
    • 2016
  • 본 논문에서는 한국어 개체명 인식의 성능 향상을 위하여 워드 임베딩을 활용할 수 있는 방법에 대하여 기술한다. 워드 임베딩이란 문장의 단어의 공기정보를 바탕으로 그 단어의 의미를 벡터로 표현하는 분산표현이다. 이러한 분산 표현은 단어 간의 유의미한 정도를 계산하는데 유용하다. 본 논문에서는 이러한 워드 임베딩을 통하여 단어 벡터들의 코사인 유사도를 통한 개체명 사전 자가 학습 및 매칭 방법을 적용하고, 그 실험 결과를 보고한다.

  • PDF

A Study on Correlation between Line-Region Topology and Motion Verbs (움직임 동사와 선-영역 위상간 관련성에 관한 연구)

  • Cho, Mi-Young;Song, Dan;Choi, Jun-Ho;Kim, Won-Pil;Kim, Pan-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.177-180
    • /
    • 2004
  • 비디오 데이터베이스에서 움직임 정보를 가지고 있는 이동객체에 대한 모델링은 크게 두 가지 측면 즉, 공간적 혹은 시간적 관계성에 의해 다루어진다. 공간적 관계에서 위상 관계는 근접 그래프에 의한 모델링이 대부분이며, 이를 이용한 내용 기반 비디오 검색에서 자연어 형태의 질의어는 정형화된 위상 관계 표현으로 변환하는 과정을 거친다. 그러나 이 과정에서 위상 관계 표현이 인간이 사용하는 언어의 의미를 정확히 반영하는지는 알 수 없다. 이에 본 논문에서는 위상 관계 표현과 인간이 사용하는 움직임 동사간 의미의 차이를 줄이기 위해 위상 관계 표현과 실제 움직임 동사간의 매칭에 대해 연구했다.

  • PDF

BERT Sparse: Keyword-based Document Retrieval using BERT in Real time (BERT Sparse: BERT를 활용한 키워드 기반 실시간 문서 검색)

  • Kim, Youngmin;Lim, Seungyoung;Yu, Inguk;Park, Soyoon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.3-8
    • /
    • 2020
  • 문서 검색은 오래 연구되어 온 자연어 처리의 중요한 분야 중 하나이다. 기존의 키워드 기반 검색 알고리즘 중 하나인 BM25는 성능에 명확한 한계가 있고, 딥러닝을 활용한 의미 기반 검색 알고리즘의 경우 문서가 압축되어 벡터로 변환되는 과정에서 정보의 손실이 생기는 문제가 있다. 이에 우리는 BERT Sparse라는 새로운 문서 검색 모델을 제안한다. BERT Sparse는 쿼리에 포함된 키워드를 활용하여 문서를 매칭하지만, 문서를 인코딩할 때는 BERT를 활용하여 쿼리의 문맥과 의미까지 반영할 수 있도록 고안하여, 기존 키워드 기반 검색 알고리즘의 한계를 극복하고자 하였다. BERT Sparse의 검색 속도는 BM25와 같은 키워드 기반 모델과 유사하여 실시간 서비스가 가능한 수준이며, 성능은 Recall@5 기준 93.87%로, BM25 알고리즘 검색 성능 대비 19% 뛰어나다. 최종적으로 BERT Sparse를 MRC 모델과 결합하여 open domain QA환경에서도 F1 score 81.87%를 얻었다.

  • PDF

Developing a Vulgarity Filtering System for Online Games using SVM (SVM을 이용한 온라인게임 비속어 필터링 시스템)

  • Park, Kyo-Hyeon;Lee, Jee-Hyong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.260-263
    • /
    • 2006
  • 최근 온라인 게임 산업이 커짐에 따라 이를 즐기는 유저도 급증하고 있다. 온라인 게임에서는 일반적으로 유저들이 서로를 구분하기 위해 사용하는 사용자 이름과 상호간 의사소통을 하기 위한 채팅을 지원한다. 유저의 수가 증가함에 따라 대화의 양은 더욱 더 많아지고, 선정성, 폭력성을 띄는 언어의 문제로 이어지고 있다. 이는 특히 18세 이하도 이용가능한 게임을 만드는 경우 더욱 중요하다. 하지만 대부분의 게임들이 금지어 리스트에 따른 단어 매칭방식의 비속어 필터링만을 제공하고 있다. 이러한 방법은 금지어로 지정된 단어를 포함한 정상적인 채팅도 막을 뿐만 아니라 일부 음절을 다른 기호로 바꾸어 표기한 비속어는 걸러내지 못한다. 변형된 단어들을 충분히 처리하지 못한다면 비속어 필터링 시스템은 단지 무력하고 쓸모없는 존재가 될 뿐이다. 본 논문에서는 SVM을 이용하여 학습이 가능한 비속어 필터링 시스템을 제안하고자 한다. SVM을 이용하면 사용자 편의성을 해치지 않고서도 보다 많은 종류의 비속어들을 효과적으로 걸러낼 수 있다.

  • PDF

Ontology Construction for Supporting Assembly of Desktop Computers (데스크탑 컴퓨터 조립 지원용 온톨로지 구현)

  • Jung, Kyoung-Hak;Choi, Ho-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.450-452
    • /
    • 2007
  • 최근 주목을 받고 있는 시맨틱 웹의 핵심인 온톨로지는 특정 도메인의 지식들을 정형화하고, 그들 간의 관계를 표현한 것이다. 이러한 온톨로지를 구축하는는 데에 RDF, OWL, DAML+OIL 과 같은 다양한 언어들이 사용되고 있다. 본 논문에서는 RDF 를 이용하여 데스크탑 컴퓨터 조립을 위한 컴퓨터 부품 온톨로지를 구축하고, RDQL 로 온톨로지를 검색하는 방법을 소개한다. 향후 연구는 기존의 단순 매칭을 통한 검색을 포함한, 추론을 거쳐 최적화된 부품 조합을 얻기 위한 연구를 할 것이다.

A Study on the Enhancing Recommendation Performance Using the Linguistic Factor of Online Review based on Deep Learning Technique (딥러닝 기반 온라인 리뷰의 언어학적 특성을 활용한 추천 시스템 성능 향상에 관한 연구)

  • Dongsoo Jang;Qinglong Li;Jaekyeong Kim
    • Journal of Intelligence and Information Systems
    • /
    • v.29 no.1
    • /
    • pp.41-63
    • /
    • 2023
  • As the online e-commerce market growing, the need for a recommender system that can provide suitable products or services to customer is emerging. Recently, many studies using the sentiment score of online review have been proposed to improve the limitations of study on recommender systems that utilize only quantitative information. However, this methodology has limitation in extracting specific preference information related to customer within online reviews, making it difficult to improve recommendation performance. To address the limitation of previous studies, this study proposes a novel recommendation methodology that applies deep learning technique and uses various linguistic factors within online reviews to elaborately learn customer preferences. First, the interaction was learned nonlinearly using deep learning technique for the purpose to extract complex interactions between customer and product. And to effectively utilize online review, cognitive contents, affective contents, and linguistic style matching that have an important influence on customer's purchasing decisions among linguistic factors were used. To verify the proposed methodology, an experiment was conducted using online review data in Amazon.com, and the experimental results confirmed the superiority of the proposed model. This study contributed to the theoretical and methodological aspects of recommender system study by proposing a methodology that effectively utilizes characteristics of customer's preferences in online reviews.

The Comparison of Indicators for Selecting Familiar Labels of Information Items in Web Pages (친숙한 웹 페이지 정보 항목명 선택을 위한 지표 비교)

  • Cho, In-Ho;Kim, Hyoung-Rae
    • Journal of Internet Computing and Services
    • /
    • v.12 no.1
    • /
    • pp.111-118
    • /
    • 2011
  • While sharing information through Internet by Web page or XML, familiar labels of information items will reduce the confusion among users. The advises of the language experts for choosing familiar terms may cost money and time, but an automated Indicator can help a user select right terms without any cost. This paper collects Indicators that can be easily found over Internet and compares the efficiency of them for selecting familiar terms. The collected indicators are the number of words in a term, the frequency used in a related Web sites, and the number of search results in portal sites. The results conclude that the found terms by the frequency matches 76% for women's and 71% for men's, which tells that the frequency can be a reference for selecting familiar terms.

Design of the Personalized Searching Navigator of Learning Contents Based on the Topic Maps (토픽맵 기반 개인별 학습 콘텐츠 탐색 네비게이터 구조 설계)

  • Jeung, Kyoung-Hui;Kim, Pan-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.23-26
    • /
    • 2006
  • 최근 대부분의 이러닝(E-Learning)을 교육하는 사이트는 학습 콘텐츠를 검색하는 방법이 단순한 리스트의 나열과 택스트 매칭(Text matching)방법을 사용하는 단점이 있다. 이를 보완하기 위해 좀 더 컴퓨터가 정보 데이터의 의미를 분석하여 검색이 가능하도록 개념 네트워크인 시맨틱웹(Semantic Web)이 등장하였다. 본 논문에서는 이러한 시맨틱웹의 온톨로지(Ontology) 언어 중에 토픽맵(Topic Maps)을 사용하여 많은 양의 학습 정보 데이터를 쉽고도 정확하게 연결 지어 학습 콘텐츠에 대한 정보를 표현하고, 구조화할 수 있는 방법을 모색해 보고자 한다. 학습자의 관심분야 정보, 학습객체의 학습 권장자의 정보와 함께 학습 경험과 검색 빈도수를 분석한 협력 필터링과 학습 에이전트의 개인화 기법을 동시에 사용하여 선호도를 분석한다. 이 선호도를 가지고 학습자의 메타데이터를 생성하고, 로그 데이터를 따로 데이터베이스에 저장한다. 이러한 학습자의 정보와 학습 콘텐츠간의 정보를 상호 연결하여, 그 토픽맵을 사용하여 연관관계를 정의해 줌으로써 학업성취도를 높이고, 학습자 개개인의 성향에 가장 알맞은 학습 콘텐츠를 탐색해가는 네비게이터(Navigator)를 설계하였다.

  • PDF