• Title/Summary/Keyword: 연구 개체

Search Result 4,593, Processing Time 0.025 seconds

Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition (한국어 특질을 고려한 단어 벡터의 Bi-LSTM 기반 개체명 모델 적용)

  • Nam, Sukhyun;Hahm, Younggyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.147-150
    • /
    • 2017
  • Deep learning의 개발에 따라 개체명 인식에도 neural network가 적용된 연구가 활발히 일어나고 있다. 영어권 개체명 인식에서는 F1 score 90%을 웃도는 성능을 내는 연구들이 나오고 있다. 하지만 한국어는 영어와 언어적 특질이 많이 달라 이를 그대로 적용시키는 데는 어려움이 있어 영어권 개체명 인식기에 비해 비교적 낮은 성능을 보인다. 본 논문에서는 "하다" 접사의 동사형이 보존된 워드 임베딩을 사용하고 한국어 개체명의 특징을 담은 one-hot 벡터를 추가하여 한국어의 특질에 보다 적합한 데이터를 deep learning 기술에 적용하였다.

  • PDF

Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition (한국어 특질을 고려한 단어 벡터의 Bi-LSTM 기반 개체명 모델 적용)

  • Nam, Sukhyun;Hahm, Younggyun;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.147-150
    • /
    • 2017
  • Deep learning의 개발에 따라 개체명 인식에도 neural network가 적용된 연구가 활발히 일어나고 있다. 영어권 개체명 인식에서는 F1 score 90%을 웃도는 성능을 내는 연구들이 나오고 있다. 하지만 한국어는 영어와 언어적 특질이 많이 달라 이를 그대로 적용시키는 데는 어려움이 있어 영어권 개체명 인식기에 비해 비교적 낮은 성능을 보인다. 본 논문에서는 "하다" 접사의 동사형이 보존된 워드 임베딩을 사용하고 한국어 개체명의 특징을 담은 one-hot 벡터를 추가하여 한국어의 특질에 보다 적합한 데이터를 deep learning 기술에 적용하였다.

  • PDF

Named Entity Recognition for Patent Data by Machine Learning (특허 개체명 인식에 대한 기계학습 사례)

  • Lee, Tae-Seok;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.183-186
    • /
    • 2014
  • 특허 분석에서 관심 있는 기술명, 서비스명, 제품명을 인식하도록 기계학습 기법을 사용해 개체명 인식기의 성능을 평가해 보았다. 개체인식을 위한 엔진은 스탠포드 대학의 NER과 CRF++을 사용하였다. 그 결과 F1값인 0.5612로 나타났다. 이것은 인명, 지역명, 조직명 개체를 인식하는 다른 연구에서 나타난 0.7857보다 0.2245 떨어지는 결과이다. 특허 개체명 인식에 대한 자질값 선정과 사전처리에 대한 더 많은 연구가 필요하다.

  • PDF

Conditional Random Fields based Named Entity Recognition Using Korean Lexical Semantic Network (한국어 어휘의미망을 활용한 Conditional Random Fields 기반 한국어 개체명 인식)

  • Park, Seo-Yeon;Ock, Cheol-Young;Shin, Joon-Choul
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.343-346
    • /
    • 2020
  • 개체명 인식은 주어진 문장 내에서 OOV(Out of Vocaburary)로 자주 등장하는 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 개체명이 문장 내에서 OOV로 등장하는 문제를 해결하기 위해 외부 리소스를 활용하는 연구들이 많이 진행되었다. 본 논문은 의미역, 의존관계 분석에 한국어 어휘지도를 이용한 자질을 추가하여 성능 향상을 보인 연구들을 바탕으로 이를 한국어 개체명 인식에 적용하고 평가하였다. 실험 결과, 한국어 어휘지도를 활용한 자질을 추가로 학습한 모델이 기존 모델에 비해 평균 1.83% 포인트 향상하였다. 또한, CRF 단일 모델만을 사용했음에도 87.25% 포인트라는 높은 성능을 보였다.

  • PDF

A Business System Analysis Model with Extended Entity Concept (확장된 개체 개념의 비즈니스 시스템 분석 모델)

  • Lee, Seo-Jeong;Ko, Byung-Sun;Choi, Mi-Sook;Park, Jai-Nyun
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.12
    • /
    • pp.885-895
    • /
    • 2001
  • Existing system analysis models suggest various ideas to present entity relations and event flows for consistency between analysis and design paradigms. However, they are preferred to derive and arrange related entities on system flow than to identify entities. To identify entities systematically is a basic and important work of software development, and identified entities can be major assets of business system. In case of business systems the business rules or the computed or derived information like attendance lists of lecture system can be the most important system assets. The management information or meta data are also. In this paper, we suggest a business system analysis models to derive and present entities. System is identified entities, interfaces and event or behaviors through this model then entities are extended to independent entities, dependent entities, which are dependent to independent entities, constraint shows the physical and administrative notices. Various entity identification can reduce the incompleteness of entity analysis.

  • PDF

A Semi-automatic Construction method of a Named Entity Dictionary Based on Wikipedia (위키피디아 기반 개체명 사전 반자동 구축 방법)

  • Song, Yeongkil;Jeong, Seokwon;Kim, Harksoo
    • Journal of KIISE
    • /
    • v.42 no.11
    • /
    • pp.1397-1403
    • /
    • 2015
  • A named entity(NE) dictionary is an important resource for the performance of NE recognition. However, it is not easy to construct a NE dictionary manually since human annotation is time consuming and labor-intensive. To save construction time and reduce human labor, we propose a semi-automatic system for the construction of a NE dictionary. The proposed system constructs a pseudo-document with Wiki-categories per NE class by using an active learning technique. Then, it calculates similarities between Wiki entries and pseudo-documents using the BM25 model, a well-known information retrieval model. Finally, it classifies each Wiki entry into NE classes based on similarities. In experiments with three different types of NE class sets, the proposed system showed high performance(macro-average F1-score of 0.9028 and micro-average F1-score 0.9554).

A Study on Creation of MARC Record for FRBR Implementation (FRBR 실행을 위한 MARC 레코드 생성에 관한 연구)

  • Lee, You-Jeong
    • Journal of Korean Library and Information Science Society
    • /
    • v.38 no.1
    • /
    • pp.299-314
    • /
    • 2007
  • This paper explores the elements of FRBR entities to create entities records from MARC records automatically. Attributes of entities analyzed and embodied in MARC records. FRBR records are cited as examples separately. And problems of applying FRBR model are suggested. The result of this paper is expected to keep up with the shift of cataloging's environment and influence system design.

  • PDF

A Study on Next-Generation Information Service of KISTI (KISTI의 차세대 정보 서비스 연구)

  • Lee, Mi-Kyoung;Jung, Han-Min;Sung, Won-Kyung
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2008.05a
    • /
    • pp.12-17
    • /
    • 2008
  • 시맨틱 웹 기반의 차세대 정보 서비스인 OntoFrame2007은 시맨틱 웹과 웹 2.0 기술을 상호 보완하여 개발한 플랫폼으로 URI기반의 개체 중심적 통합 검색을 통해 Topic, Person, Event 기반의 개체 페이지를 구성한다. 각 페이지에는 Add-on 서비스를 통해 연구자 그룹, 연구자 네트워크, 통계 정보를 제공하며, 매쉬업 기술을 이용하여 매핑 서비스, 도서 서비스를 제공한다. OntoFrame2007은 서비스 설계 과정에서 Google, Google Scholar, CiteSeer, yesKisti 사이트와 비교하여 사용자의 요구사항 및 각 서비스의 장점을 최대한 반영시켰으며, 개발 단계마다 반복적 사용성 평가를 통해 사용자 중심의 서비스를 제공하도록 개선시켰다. 본 시스템에서는 URI를 통해 개체의 모호성을 제거하여 키워드 기반의 통합 검색의 한계를 극복하였으며, 사용자 질의어를 식별하여 단위 서비스로 구성된 최적 개체 페이지를 통해 정교한 검색 서비스를 제공해준다. 개체 페이지들은 키워드 검색 결과, 연구 동향 정보 및 연구자 그룹, 전문가 네트워크 및 지역별 연구 동향 등을 제공해준다.

  • PDF

Korean Named Entity Recognition using ManiFL (ManiFL을 이용한 한국어 개체명 인식)

  • Kim, Wansu;Shin, Joon-choul;Park, Seoyeon;Ock, CheolYoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.633-636
    • /
    • 2021
  • 개체명 인식은 주어진 문장 안의 고유한 의미가 있는 단어들을 인명, 지명, 단체명 등의 미리 정의된 개체의 범주로 분류하는 문제이다. 최근 연구에서는 딥 러닝, 대용량 언어 모델을 사용한 연구들이 활발하게 연구되어 높은 성능을 보이고 있다. 하지만 이러한 방법은 대용량 학습 말뭉치와 이를 처리할 수 있는 높은 연산 능력을 필요로 하며 모델의 실행 속도가 느려서 실용적으로 사용하기 어려운 문제가 있다. 본 논문에서는 얕은 기계 학습 기법을 적용한 ManiFL을 사용한 개체명 인식 시스템을 제안한다. 형태소의 음절, 품사 정보, 직전 형태소의 라벨만을 자질로 사용하여 실험하였다. 실험 결과 F1 score 기준 90.6%의 성능과 초당 974 문장을 처리하는 속도를 보였다.

  • PDF

Butterfly Population Dynamics at Mt, Yudal, Mokpo, Korea (목포 유달산에서의 나비 개체군 동태에 관한 연구)

  • 기경자;최세웅
    • Korean Journal of Environmental Biology
    • /
    • v.22 no.1
    • /
    • pp.35-42
    • /
    • 2004
  • To examine the species composition and population fluctuation of butterflies at Mt. Yudal, Mokpo, we collected butterflies from May, 2001 to April, 2002 by dividing the study site into four subyegions. As a result, seven families comprising 40 species were identified. The patterns of population fluctuations at the four subregions showed that the lower the elevation the higher the number of species and individuals. Monthly fluctuations of buttefly species produced an M-shaped curve, whereas those of individuals produced a monotonic curve with a maximum peak during August. To see effectively the changes of numbers of species and individuals, we calculated the indices of species richness and evenness by subregions and months. As a result, both indices fulfilled the primary criterion of independence and showed more or less negative association: when heterogeneity is higher, evenness is lower. Examination of butterfly populations over long-term periods might provide an evidence of global warming and a guideline to conserve and manage habitats.