• Title/Summary/Keyword: 개체 기반

Search Result 921, Processing Time 0.026 seconds

A Semi-automatic Construction method of a Named Entity Dictionary Based on Wikipedia (위키피디아 기반 개체명 사전 반자동 구축 방법)

  • Song, Yeongkil;Jeong, Seokwon;Kim, Harksoo
    • Journal of KIISE
    • /
    • v.42 no.11
    • /
    • pp.1397-1403
    • /
    • 2015
  • A named entity(NE) dictionary is an important resource for the performance of NE recognition. However, it is not easy to construct a NE dictionary manually since human annotation is time consuming and labor-intensive. To save construction time and reduce human labor, we propose a semi-automatic system for the construction of a NE dictionary. The proposed system constructs a pseudo-document with Wiki-categories per NE class by using an active learning technique. Then, it calculates similarities between Wiki entries and pseudo-documents using the BM25 model, a well-known information retrieval model. Finally, it classifies each Wiki entry into NE classes based on similarities. In experiments with three different types of NE class sets, the proposed system showed high performance(macro-average F1-score of 0.9028 and micro-average F1-score 0.9554).

A Natural Clustering Algorithm based on the Relative Gravitation Model (상대인력 모델에 기반한 자연적 개체 군집화 알고리즘)

  • Kim, Eunju;Ko, Jaepil;Byun, Hyeran;Lee, Yillbyung
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.10
    • /
    • pp.757-763
    • /
    • 2001
  • This paper propose a new clustering algorithm called G-CLUS based on the relative gravitation. In this method every instance has the same mass at first. the gravitations among instances make each instance move to the attractive direction gradually and eventually natural clusters are formed without the initial seed and the number of clusters. Our proposed method can determine the number of clusters via a process of gravitational agglomeration and it can reduce the sensitivity to outliers by using the resultant of gravitation. We also improved the computational complexity by applying the concept of a cube to the proposed algorithm. In our experiments, we show the behavior of instance movement clustering process for each model, clustering process and the results for an example data set, and the results of comparison between the other clustering algorithm and our proposed. method.

  • PDF

Knowledge Trend Analysis of Uncertainty in Biomedical Scientific Literature (생의학 학술 문헌의 불확실성 기반 지식 동향 분석에 관한 연구)

  • Heo, Go Eun;Song, Min
    • Journal of the Korean Society for information Management
    • /
    • v.36 no.2
    • /
    • pp.175-199
    • /
    • 2019
  • Uncertainty means incomplete stages of knowledge of propositions due to the lack of consensus of information and existing knowledge. As the amount of academic literature increases exponentially over time, new knowledge is discovered as research develops. Although the flow of time may be an important factor to identify patterns of uncertainty in scientific knowledge, existing studies have only identified the nature of uncertainty based on the frequency in a particular discipline, and they did not take into consideration of the flow of time. Therefore, in this study, we identify and analyze the uncertainty words that indicate uncertainty in the scientific literature and investigate the stream of knowledge. We examine the pattern of biomedical knowledge such as representative entity pairs, predicate types, and entities over time. We also perform the significance testing using linear regression analysis. Seven pairs out of 17 entity pairs show the significant decrease pattern statistically and all 10 representative predicates decrease significantly over time. We analyze the relative importance of representative entities by year and identify entities that display a significant rising and falling pattern.

Facial Expression Recognition using Model-based Feature Extraction in Image Sequence (동영상에서의 모델기반 특징추출을 이용한 얼굴 표정인식)

  • Park Mi-Ae;Choi Sung-In;Im Don-Gak;Ko Je-Pil
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.343-345
    • /
    • 2006
  • 본 논문에서는 ASM(Active Shape Model)과 상태 기반 모델을 사용하여 동영상으로부터 얼굴 표정을 인식하는 방법을 제안한다. ASM을 이용하여 하나의 입력영상에 대한 얼굴요소 특징점들을 정합하고 그 과정에서 생성되는 모양 파라미터 벡터를 추출한다. 동영상에 대해 추출되는 모양 파라미터 벡터 집합을 세 가지상태 중 한 가지를 가지는 상태 벡터로 변환하고 분류기를 통해 얼굴의 표정을 인식한다. 분류단계에서는 분류성능을 높이기 위해 새로운 개체 기반 학습 방법을 제안한다. 실험에서는 새로이 제안한 개체 기반 학습 방법이 KNN 분류기보다 더 좋은 인식률을 나타내는 것을 보인다.

  • PDF

Development of Location-based DBpedia Mobile Browser (위치 기반 DBpedia 모바일 브라우저 개발)

  • Lee, Suhyoung;Duan, HongZhou;Jung, Eunmi;Sun, YuXiang;Lee, Yongju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.1047-1048
    • /
    • 2017
  • 본 논문은 위치 기반 DBpedia 모바일 브라우저 개발에 관한 내용으로 사용자의 현재 위치를 중심으로 Google Map과 DBpedia를 매쉬업하여 주변의 DBpedia 개체를 표시하고, 링크를 통해 추가적인 RDF 시맨틱 정보를 탐색할 수 있는 기능을 제공한다. DBpedia는 Wikipedia로부터 구조화된 데이터를 추출하여 RDF 형식으로 저장한 지식베이스로서 오늘날 엄청난 규모의 빅데이터로 발전되고 있는 링크드 오픈 데이터(Linked Open Data)에서 가장 핵심으로 부각되고 있다. DBpedia는 약 73만개의 장소 및 지역에 관한 정보를 포함하여 약 4백 58만 가지의 다양한 개체들에 관한 정보를 가지고 있으며 여러 종류의 위치기반 데이터 세트도 보유하고 있다. 본 연구에서 개발된 브라우저는 이러한 데이터 세트 내용을 스마트폰의 위치정보서비스를 활용하여 주변에 있는 장소나 건물 등을 지도에 표시하고, 해당 개체에 대한 간단한 요약 정보와 추가적인 시맨틱 정보 검색을 위한 링크를 제공한다.

Real-time Text Analysis with Dialogue State Tracking and Summarizing to Assist Emergency Call Reporting (긴급 신고 접수 지원을 위한 대화 상태 추적 및 요약 기반 실시간 텍스트 분석)

  • Oh, Kyo-Joong;Kim, Jinwon;Kim, Ilhoon;Lim, Chae-Gyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.16-21
    • /
    • 2021
  • 소방 본부의 119 종합상황실에서는 24시간 국민의 안전을 위해 긴급 신고를 접수한다. 수보사 분들은 24시간 교대 근무를 하며 신고 전화에 접수 및 응대 뿐만 아니라 출동, 지휘, 관제 업무를 함께 수행한다. 이 논문에서는 이 같은 수보사의 업무 지원을 위해 우리가 구축한 음성 인식과 결합된 실시간 텍스트 분석 시스템에 대해서 소개하고, 출동 지령서 자동 작성을 위한 키워드 검출 및 대화 요약 및 개체명 인식에 기반한 대화 상태 추척 방법에 대해 설명하고자 한다. 대화 요약 기술은 음성 인식 결과를 실시간으로 분석하여 중요한 키워드의 검출 및 지령서 자동 작성을 위한 후처리를 수행하며, 문장 수준에서 개체명 인식 및 관계 분석을 통한 목적 대화의 대화 상태 추적을 수행한다. 이 같은 응용 시스템은 딥러닝 및 기계학습 기반의 자연어 처리 시스템이 실시간으로 텍스트 분석을 수행할 수 있는 기술 수준이 되었음을 보여주며, 긴급한 상황에서 많은 신고 전화를 접수하는 수보사의 업무 효율 증진 뿐만 아니라, 정확하고 신속한 위치 파악으로 신고자를 도와주어 국민안전 증진에 도움을 줄 수 있을 것으로 기대된다.

  • PDF

A Study on Collecting and Structuring Language Resource for Named Entity Recognition and Relation Extraction from Biomedical Abstracts (생의학 분야 학술 논문에서의 개체명 인식 및 관계 추출을 위한 언어 자원 수집 및 통합적 구조화 방안 연구)

  • Kang, Seul-Ki;Choi, Yun-Soo;Choi, Sung-Pil
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.51 no.4
    • /
    • pp.227-248
    • /
    • 2017
  • This paper introduces an integrated model for systematically constructing a linguistic resource database that can be used by machine learning-based biomedical information extraction systems. The proposed method suggests an orderly process of collecting and constructing dictionaries and training sets for both named-entity recognition and relation extraction. Multiple heterogeneous structures for the resources which are collected from diverse sources are analyzed to derive essential items and fields for constructing the integrated database. All the collected resources are converted and refined to build an integrated linguistic resource storage. In this paper, we constructed entity dictionaries of gene, protein, disease and drug, which are considered core linguistic elements or core named entities in the biomedical domains and conducted verification tests to measure their acceptability.

Multilingual Named Entity Recognition with Limited Language Resources (제한된 언어 자원 환경에서의 다국어 개체명 인식)

  • Cheon, Min-Ah;Kim, Chang-Hyun;Park, Ho-min;Noh, Kyung-Mok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

Multilingual Named Entity Recognition with Limited Language Resources (제한된 언어 자원 환경에서의 다국어 개체명 인식)

  • Cheon, Min-Ah;Kim, Chang-Hyun;Park, Ho-min;Noh, Kyung-Mok;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

String Kernel-based Relation Extraction using Lexical Patterns of Predicate-Argument Structure (술어-논항 구조의 어휘 패턴을 이용한 스트링 커널 기반 관계 추출)

  • Jeong, Chang-Hoo;Choi, Sung-Pil;Chun, Hong-Woo;Hong, Soon-Chan;Jung, Han-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.327-329
    • /
    • 2012
  • 문서 내에 존재하는 중요한 개체들 간의 관계를 자동으로 추출할 때 개체와 개체 사이의 상호작용 표현에 중요하게 관여하는 핵심자질을 잘 선택할수록 빠르고 정확하게 관계 추출을 수행할 수 있다. 본 논문에서는 개체 쌍 사이에 존재하는 술어-논항 구조의 어휘 패턴 문자열을 정규화해서 스트링 커널에 적용하는 관계 추출 방법을 제안한다. 제안된 시스템의 성능 평가를 위해서 과학기술문헌에 존재하는 중요한 개체들 간의 연관관계 추출 성능 평가를 수행하는 테스트컬렉션을 자체적으로 구축하였으며 실험을 통하여 제안된 방법의 성능을 측정하였다. 정확도 실험 결과, 스트링 커널의 입력으로 문장 전체를 사용한 경우에는 55.0693%, 개체 쌍 사이의 문자열을 사용한 경우에는 61.0331%, 그리고 술어-논항 구조의 어휘 패턴 문자열을 사용한 경우에는 69.14%로, 술어-논항 구조의 어휘 패턴 문자열을 사용했을 때 성능이 가장 좋게 나타났다. 결론적으로 문장 내의 술어-논항 구조를 분석하여 정규화된 어휘 패턴을 생성하고 이렇게 생성된 문자열을 스트링 커널에 적용하는 방법이 관계 추출에 유용한 방법임을 알 수 있었다.