Search | Korea Science

Syllables-based Named Entity Extraction and Automatic Corpus Construction using Bidirectional Dynamic LSTM (Bidirectional Dynamic LSTM을 이용한 음절 단위 개체명 추출 및 자동화된 말뭉치 구축)

Oh, Sungsik;Lim, Changdae;Ahn, Keeho;Park, Weijin
- 한국어정보학회:학술대회논문집
- /
- 2017.10a
- /
- pp.317-320
- /
- 2017
개체명 인식은 자연어 문장에서 장소, 제작물, 사람 등 분류를 통한 의미 부여가 가능한 단어를 파악하는 기술로서 의미 분석을 위한 핵심 기술이다. 현재 많은 개체명 분석 관련 연구들은 형태소 분석 결과에 의존적인 형태를 갖고 있어서, 형태소 분석 결과의 정확성이 개체명 분석 결과의 성능에 영향을 미치고 있다. 본 연구에서는 형태소 분석 과정을 거치지 않는 음절 기반의 개체명 분석 기술을 제안하여 형태소 분석의 정확도가 낮은 통신어, 신조어 분석 성능을 향상하였다. 또한, 자동화된 방법으로 음절 단위 개체명 말뭉치 및 개체명 사전을 구축하는 프로세스를 정의하여 개체명 분석의 정확도 향상 및 인지 범주의 확대를 도모하였다. 본 연구에서 제안한 개체명 인식 기술은 한국어 개체명 표준에 기반한 129가지의 개체명 분류가 가능하며, 이는 자연어 처리 기술이 필요한 산업계에서 상용화하는데 큰 기여를 할 것으로 판단된다.
PDF

A Semi-automatic Annotation Tool based on Named Entity Dictionary (개체명 사전 기반의 반자동 말뭉치 구축 도구)

Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Kim, Jae-Kyun;Kim, Jae-Hoon
- Annual Conference on Human and Language Technology
- /
- 2017.10a
- /
- pp.309-313
- /
- 2017
개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.
PDF

A Semi-automatic Annotation Tool based on Named Entity Dictionary (개체명 사전 기반의 반자동 말뭉치 구축 도구)

Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Kim, Jae-Kyun;Kim, Jae-Hoon
- 한국어정보학회:학술대회논문집
- /
- 2017.10a
- /
- pp.309-313
- /
- 2017
개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.
PDF

Syllables-based Named Entity Extraction and Automatic Corpus Construction using Bidirectional Dynamic LST (Bidirectional Dynamic LSTM 을 이용한 음절 단위 개체명 추출 및 자동화된 말뭉치 구축)

Oh, Sungsik;Lim, Changdae;Ahn, Keeho;Park, Weijin
- Annual Conference on Human and Language Technology
- /
- 2017.10a
- /
- pp.317-320
- /
- 2017
개체명 인식은 자연어 문장에서 장소, 제작물, 사람 등 분류를 통한 의미 부여가 가능한 단어를 파악하는 기술로서 의미 분석을 위한 핵심 기술이다. 현재 많은 개체명 분석 관련 연구들은 형태소 분석 결과에 의존적인 형태를 갖고 있어서, 형태소 분석 결과의 정확성이 개체명 분석 결과의 성능에 영향을 미치고 있다. 본 연구에서는 형태소 분석 과정을 거치지 않는 음절 기반의 개체명 분석 기술을 제안하여 형태소 분석의 정확도가 낮은 통신어, 신조어 분석 성능을 향상하였다. 또한, 자동화된 방법으로 음절 단위 개체명 말뭉치 및 개체명 사전을 구축하는 프로세스를 정의하여 개체명 분석의 정확도 향상 및 인지 범주의 확대를 도모하였다. 본 연구에서 제안한 개체명 인식 기술은 한국어 개체명 표준에 기반한 129가지의 개체명 분류가 가능하며, 이는 자연어 처리 기술이 필요한 산업계에서 상용화하는데 큰 기여를 할 것으로 판단된다.
PDF

A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT (반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO)

Kim, Shin-Woo;Hwang, Chang-Hoe;Yoon, Jeong-Woo;Lee, Seong-Hyeon;Choi, Soo-Won;Nam, Jee-Sun
- Annual Conference on Human and Language Technology
- /
- 2020.10a
- /
- pp.304-309
- /
- 2020
본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.
PDF

Fish Community Variation in Lake Hoengseong (횡성다목적댐에서의 어류 군집변화)

Kim, Sung-Won;Lee, Jin-Hee;Choi, Jun-Kil
- Proceedings of the Korea Water Resources Association Conference
- /
- 2011.05a
- /
- pp.209-209
- /
- 2011
본 연구는 횡성다목적댐이 준공되면서 유수역이었던 섬강이 정수역의 환경으로 변하면서 나타난 어류의 군집변화에 대하여 알아보고자 시행하였다. 조사 지역인 횡성다목적댐은 강원도 횡성군 갑천면 대관대리에 위치하고 있으며, 높이 48.5m, 길이 205m, 총저수량 8,690만t의 다목적댐으로 1993년 12월에 착공하여 2000년 11월에 준공되었다. 어류 조사는 2010년 04월부터 2010년 11월까지 총 4회에 걸쳐 횡성다목적댐을 기점으로 상류 2지점(유평교, 매일교), 횡성호 2지점(구방교, 부동교), 하류 2지점(활아지교, 수백교)에서 조사를 실시하였고 과거 문헌과 비교하여 결과를 분석하였다. 횡성다목적댐의 착공 전/후 조사 결과를 비교한 결과 착공하기 전에는 총 8과 29종 2,325개체가 조사되었으며, 참갈겨니(Zacco koreanus) 576개체(24.8%), 쉬리(Coreoleuciscus splendidus) 316개체(13.6%), 피라미(Zacco platypus) 203개체(8.7%), 배가사리(Microphysogobio longidorsalis) 194개체(8.3%) 등의 순으로 기록되었다. 반면, 착공한 후에는 총 8과 24종 2,769개체가 조사되었으며, 피라미(Z. platypus) 2,169개체(78.3%), 밀어(Rhinogobius brunneus) 91개체(3.3%), 참갈겨니(Z. koreanus) 89개체 (3.2%), 돌고기(Pungtungia herzi) 83개체(3.0%) 등의 순으로 조사되었다. 각 조사지점별로 비교한 결과 상류 2지점(유평교, 매일교)에서는 착공하기 전에 총 6과 20종 609개체가 조사되었으며, 참갈겨니(Z. koreanus) 227개체(37.3%), 피라미(Z. platypus) 74개체(12.2%), 쉬리(C. splendidus) 65개체(10.7%), 돌고기(P. herzi) 43개체(7.1%), 납자루(Acheilognathus lanceolatus) 41개체(6.7%) 등의 순으로 기록되었다. 반면, 착공한 후에는 총 6과 16종 1,923개체가 조사되었으며, 피라미(Z. platypus)가 1,707개체(88.8%)로 대부분을 차지하였고, 그 외 참갈겨니(Z. koreanus) 53개체(2.8%), 돌고기(P. herzi) 46개체(2.4%), 참마자(Hemibarbus longirostris) 35개체(1.8%), 모래무지(Pseudogobio esocinus) 23개체(1.2%) 등의 순으로 조사되었다. 횡성호 2지점(구방교, 부동교)에서는 착공하기 전에 총 6과 22종 721개체가 조사되었으며, 참갈겨니(Z. koreanus) 177개체 (24.5%), 배가사리(M. longidorsalis) 91개체(12.6%), 쉬리(C. splendidus) 88개체(12.2%), 묵납자루(A. signifer) 71개체(9.8%), 피라미(Z. platypus) 45개체(6.2%) 등의 순으로 기록되었다. 반면, 착공한 후에는 총 6과 12종 393개체가 조사되었으며, 피라미(Z. platypus) 228개체(58.0%), 붕어(C. auratus) 56개체(14.2%), 밀어(R. brunneus) 46개체(11.7%), 쏘가리(Siniperca scherzeti) 20개체(5.1%), 동자개(Pseudobagrus fulvidraco) 16개체(4.1%) 등의 순으로 조사되었다. 하류 2지점(활아지교, 수백교)에서는 착공하기 전에 총 8과 25종 995개체가 조사되었으며, 참갈겨니(Z. koreanus) 172개체(17.3%), 쉬리(C. splendidus) 163개체(16.4%), 묵납자루(A. signifer) 96개체(9.6%), 배가사리(M. longidorsalis) 91개체(9.1%), 피라미(Z. platypus) 84개체(8.4%) 등의 순으로 기록되었다. 반면, 착공한 후에는 총 7과 19종 453개체가 조사되었으며, 피라미(Z. platypus) 234개체(51.7%), 밀어(R. brunneus) 42개체(9.3%), 돌고기(Pungtungia herzi) 36개체(7.9%), 참갈겨니(Z. koreanus) 36개체(7.9%), 쉬리(C. splendidus) 10개체(4.2%) 등의 순으로 조사되었다. 본 연구의 조사 및 비교분석 결과 유수역이었던 섬강에 횡성다목적댐이 건설되어 주변 환경이 크게 변화하였고 그 결과 각 조사 지점에서의 어류상이 유수역 선호 어종에서 오염 내성종 및 정수역 선호 어종으로 변화되는 것을 확인하였다.
PDF

An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia (개체중의성해소에서 의미관련도 활용 효과 분석: 한국어 위키피디아를 사용하여)

Kang, In-Su
- Journal of the Korean Institute of Intelligent Systems
- /
- v.25 no.2
- /
- pp.111-118
- /
- 2015
Entity linking is to link entity's name mentions occurring in text to corresponding entities within knowledge bases. Since the same entity mention may refer to different entities according to their context, entity linking needs to deal with entity disambiguation. Most recent works on entity disambiguation focus on semantic relatedness between entities and attempt to integrate semantic relatedness with entity prior probabilities and term co-occurrence. To the best of my knowledge, however, it is hard to find studies that analyze and present the pure effects of semantic relatedness on entity disambiguation. From the experimentation on Korean Wikipedia data set, this article empirically evaluates entity disambiguation approaches using semantic relatedness in terms of the following aspects: (1) the difference among semantic relatedness measures such as NGD, PMI, Jaccard, Dice, Simpson, (2) the influence of ambiguities in co-occurring entity mentions' set, and (3) the difference between individual and collective disambiguation approaches.
https://doi.org/10.5391/JKIIS.2015.25.2.111 인용 PDF KSCI

Named Entity Recognition Using Customs Data (관세데이터를 활용한 개체명 인식)

KyoungHun yu
- Proceedings of the Korea Information Processing Society Conference
- /
- 2023.05a
- /
- pp.434-436
- /
- 2023
본 연구는 관세 데이터를 BERT 기반 모델을 활용한 개체명 인식(NER)모델을 제안한다. 관세 분야 국내 첫 시도이며, 선행연구들과 달리 개체명 인식에 초점을 맞춘다. 관세 관련 텍스트에서 고유한 의미의 개체를 인식하는 것이 주요 목표이다. 이 연구는 관세 분야의 개체명 인식에 대한 이해도를 높이고 향후 HS 코드 검색 시스템 개발에 대한 기초 연구를 제공한다.
https://doi.org/10.3745/PKIPS.y2023m05a.434 인용 PDF

A Method to Solve the Entity Linking Ambiguity and NIL Entity Recognition for efficient Entity Linking based on Wikipedia (위키피디아 기반의 효과적인 개체 링킹을 위한 NIL 개체 인식과 개체 연결 중의성 해소 방법)

Lee, Hokyung;An, Jaehyun;Yoon, Jeongmin;Bae, Kyoungman;Ko, Youngjoong
- Journal of KIISE
- /
- v.44 no.8
- /
- pp.813-821
- /
- 2017
Entity Linking find the meaning of an entity mention, which indicate the entity using different expressions, in a user's query by linking the entity mention and the entity in the knowledge base. This task has four challenges, including the difficult knowledge base construction problem, multiple presentation of the entity mention, ambiguity of entity linking, and NIL entity recognition. In this paper, we first construct the entity name dictionary based on Wikipedia to build a knowledge base and solve the multiple presentation problem. We then propose various methods for NIL entity recognition and solve the ambiguity of entity linking by training the support vector machine based on several features, including the similarity of the context, semantic relevance, clue word score, named entity type similarity of the mansion, entity name matching score, and object popularity score. We sequentially use the proposed two methods based on the constructed knowledge base, to obtain the good performance in the entity linking. In the result of the experiment, our system achieved 83.66% and 90.81% F1 score, which is the performance of the NIL entity recognition to solve the ambiguity of the entity linking.
https://doi.org/10.5626/JOK.2017.44.8.813 인용 KSCI

Study of New Entity Discovery and Iterative Entity Linking (새로운 개체 발견과 반복적 개체 연결에 대한 방법 연구)

Lee, Minho;Nam, Sangha;Kim, Donghwan;Choi, Key-sun
- Annual Conference on Human and Language Technology
- /
- 2019.10a
- /
- pp.71-77
- /
- 2019
개체 연결은 자연어 문장 안에서 나타난 개체를 지식베이스의 URI에 연결하는 작업이다. 그러나 지금까지는 새로운 개체를 지식베이스에 등록하여 지식베이스를 확장하려는 시도가 아직 없었다. 본 논문에서는 지식베이스에 새로운 개체를 등록하는 방법인 "개체 발견" 과정과, 이를 평가하는 방법인 "반복적 개체 연결"에 대한 순서와 실험 방법을 정의하였다. 실험 결과를 통해 개체명을 많이 등록할수록 새로운 URI를 잘 찾아내는 장점이 있지만, 기존의 개체 연결 성능에 악영향을 미쳐 적절한 개체 검증 과정이 필요함을 보였다.
PDF

Search Result 4,571, Processing Time 0.03 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)