• Title/Summary/Keyword: 개체명 인식 및 분류

Search Result 32, Processing Time 0.023 seconds

Detecting and classification ADRs using Named Entity Recognition on social media (개체명 인식을 이용한 소셜 미디어에서의 약물 부작용 표현 추출 및 분류)

  • Jeong, Hyeon-jeong;Kim, Hyon Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.443-446
    • /
    • 2021
  • 의약품에 대한 안전성 정보 수집과 관리는 온라인, 오프라인을 통해 약물 이상 사례를 보고받는 형태로 진행되고 있다. 하지만 소비자들의 자발적인 참여로 이루어지므로 실제 발생하는 약물 부작용보다 데이터가 현저히 적다는 단점이 존재한다. 본 논문에서는 약물 이상 데이터 희소성 문제를 해결 할 수 있도록 소셜 미디어에서 약물 부작용 표현을 찾을 수 있도록 하였다. 소셜 미디어의 경우에는 표준 약물 부작용 용어를 사용하기보다는 일반인들이 자연어로 표현한 경우가 많으므로 개체명 인식 기법을 이용해 부작용을 추출할 수 있는 모델을 개발하였다. 또한 추출된 부작용 표현을 표준용어로 분류할 수 있는 모델을 제시하였다. 실험 결과 제안한 두 가지 모델은 0.9 이상의 정확도를 얻을 수 있었으며, 일반 사용자들이 자연어로 표현한 약물 부작용 표현을 효과적으로 찾아내고 표준 부작용 용어로 매핑할 수 있음을 보여준다.

A Study on Automatic Detection and Extraction of Unstructured Security Threat Information using Deep Learning (딥러닝 기술을 이용한 비정형 보안 위협정보 자동 탐지 및 추출 기술 연구)

  • Hur, YunA;Kim, Gyeongmin;Lee, Chanhee;Lim, HeuiSeok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.584-586
    • /
    • 2018
  • 사이버 공격 기법이 다양해지고 지능화됨에 따라 침해사고 발생이 증가하고 있으며, 그에 따른 피해도 확산되고 있다. 이에 따라 보안 기업들은 다양한 침해사고를 파악하고 빠르게 대처하기 위하여 위협정보를 정리한 인텔리전스 리포트를 배포하고 있다. 하지만 인텔리전스 리포트의 형식이 정형화되어 있지 않고 점점 증가하고 있어, 인텔리전스 리포트를 수작업을 통해 분류하기 힘들다는 문제점이 있다. 이와 같은 문제를 해결하기 위해 본 논문에서는 개체명 인식 시스템을 활용하여 비정형 인텔리전스 리포트에서 위협정보를 자동으로 탐지하고 추출할 수 있는 모델을 제안한다.

  • PDF

Resolution of Context Anaphora for Text Summarization (문서요약을 위한 조응 대용 해결)

  • 김상수;김계성;노태길;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.679-681
    • /
    • 2002
  • 한 문서에서 동일한 개체(Entity)를 지칭하는 고유명사가 다른 형태로 출현하는 현상은 문서요약의 품질을 떨어지게 만드는 요소이다. 이런 문제를 해결하기 위해서는 각각의 고유명사 및 지칭어를 인식하고 이들간의 상관 관계를 밝혀야 한다. 본 논문에서는 이런 문제를 개체명 조응 대용 관계로 정의하고 출현 특성에 따라 분류한 후 특성에 맡는 처리 방법을 보인다. 이를 위하여 고유명사의 조응 출현 양상에 따른 휴리스틱을 만들고, 고유명사를 지칭하는 명사들의 시소러스를 구축한 후 이들을 처리하는 방법을 제안한다.

  • PDF

Personal Information Detection and De-identification System using Sentence Intent Classification and Named Entity Recognition (문장 의도 분류와 개체명 인식을 활용한 개인정보 검출 및 비식별화 시스템)

  • Seo, Dong-Kuk;Kim, Gun-Woo;Kim, Jae-Young;Lee, Dong-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.1018-1021
    • /
    • 2020
  • 최근 개인정보가 포함된 비정형 텍스트 문서들이 유출되거나 무분별하게 공개됨으로써 정보의 주체는 물론 기업들까지 피해를 받고 있다. 데이터를 공개 및 활용하기 위해 개인정보 검출 및 비식별화 과정이 필수적이지만 정형 데이터와는 달리 비정형 데이터의 경우 해당 과정을 자동으로 처리하는 데 한계가 있다. 이를 위해 딥러닝 모델들을 사용하여 자동화하려는 연구들이 있었지만 문장 내 단어의 모호성에 대한 고려 없이 단어 개체명 정보에만 의존하여 개인정보를 검출하는 형태로 진행되었다. 따라서 문장 내 단어들 중 식별 대상인 단어들도 비식별화 되어 데이터에 대한 유용성을 저해할 수 있다는 문제점을 남겼다. 본 논문에서는 문장의 의도 정보를 단어의 개체명 학습 과정에 부가적인 정보로 활용하는 개인정보 검출 모델과 개인정보 데이터의 유용성을 고려한 비식별화 기법을 제안한다.

Deep learning-based Answer Type Classifier Considering Topicality in Korean Question Answering (한국어 질의 응답에서의 화제성을 고려한 딥러닝 기반 정답 유형 분류기)

  • Cho, Seung Woo;Choi, DongHyun;Kim, EungGyun
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.103-108
    • /
    • 2019
  • 한국어 질의 응답의 입력 질문에 대한 예상 정답 유형을 단답형 또는 서술형으로 이진 분류하는 방법에 대해 서술한다. 일반적인 개체명 인식으로 확인할 수 없는 질의 주제어의 화제성을 반영하기 위하여, 검색 엔진 쿼리를 빈도수로 분석한다. 분석된 질의 주제어 정보와 함께, 정답의 범위를 제약할 수 있는 속성 표현과 육하원칙 정보를 입력 자질로 사용한다. 기존 신경망 분류 모델과 비교한 실험에서, 추가 자질을 적용한 모델이 4% 정도 향상된 분류 성능을 보이는 것을 확인할 수 있었다.

  • PDF

A Study on the Identification Method of Security Threat Information Using AI Based Named Entity Recognition Technology (인공지능 기반 개체명 인식 기술을 활용한 보안 위협 정보 식별 방안 연구)

  • Taehyeon Kim;Joon-Hyung Lim;Taeeun Kim;Ieck-chae Euom
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.34 no.4
    • /
    • pp.577-586
    • /
    • 2024
  • As new technologies are developed, new security threats such as the emergence of AI technologies that create ransomware are also increasing. New security equipment such as XDR has been developed to cope with these security threats, but when using various security equipment together rather than a single security equipment environment, there is a difficulty in creating numerous regular expressions for identifying and classifying essential data. To solve this problem, this paper proposes a method of identifying essential information for identifying threat information by introducing artificial intelligence-based entity name recognition technology in various security equipment usage environments. After analyzing the security equipment log data to select essential information, the storage format of information and the tag list for utilizing artificial intelligence were defined, and the method of identifying and extracting essential data is proposed through entity name recognition technology using artificial intelligence. As a result of various security equipment log data and 23 tag-based entity name recognition tests, the weight average of f1-score for each tag is 0.44 for Bi-LSTM-CRF and 0.99 for BERT-CRF. In the future, we plan to study the process of integrating the regular expression-based threat information identification and extraction method and artificial intelligence-based threat information and apply the process based on new data.

The Recognition and Normalization of Korean Temporal Expression for Question-Answering System (질의-응답 시스템을 위한 한국어 시간 표현의 인식 및 정규화)

  • Yoon, Do-Sang;Lee, Do-Gil;Chung, Hoo-Jung;Rim, Hea-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.46-52
    • /
    • 2004
  • 본 논문에서는 질의-응답 시스템의 질의에서 많이 나타나는 시간 표현을 인식하고, 인식한 시간 표현에 대해서 정규화 하는 방법을 제안한다. 본 논문에서 사용하는 질의-응답 시스템의 도메인은 TV방송 스케줄, 날씨 정보이며, 이러한 도메인에서는 시간 표현이 매우 빈번하게 사용되기 때문에 질의에 나타나는 시간 표현을 정확하게 인식해서 정규화 하는 것이 중요하다. 제안하는 방법은 시간 표현을 의미와 기능에 따라 분류하고 각 유형마다 적절한 인식 및 정규화 기법을 사용한다. 질의에서 시간 표현은 시간 개체명 태거. 품사 태거, 시간 파서를 사용하여 인식하고, 시간 추론기와 시간 표현 사전을 이용하여 정규화 한다. TV방송 스케줄과 날씨 정보 도메인의 280개 질의에서 184개의 시간표현을 이용하여 평가한 결과, 시간 표현의 인식과 정규화는 각각 93%와 96%의 정확률, 97%와 93%의 재현율을 보였다.

  • PDF

Digital Evidence Identification/Classification Study Using Causal Information Organization System (인과관계 정보 구성 체계를 활용한 디지털 증거 식별/분류 연구)

  • 정종진;박종빈;김경원;이지현
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.236-239
    • /
    • 2023
  • 본 논문에서는 디지털증거 분석을 위해 확보한 증거파일 들로부터 범죄 정황에 해당하는 단어 및 어휘를 추출하여 해당 범죄를 인과관계 분석을 하기 위해 핵심 단서와 원인을 효과적으로 파악하기 위해 필요한 인과정보를 제안한다. 이 정보들은 개체명 인식 및 분류를 할 수 있도록 구성되어 범죄 관계인, 관계인간 관계, 범죄 수법과 범죄관련 정보를 추출하고 유형화하여, 향후 해당 범죄에 대한 인과 분석 기법을 활용한 범죄 예방 분석과 수사에 기여할 수 있도록 도움을 준다.

A Out-of-vocabulary Processing Technology for the Spoken Language Understanding Module of a Dialogue Based Private Secretary Software (대화형 개인 비서 시스템의 언어 인식 모듈(SLU)을 위한 미등록어(OOV) 처리 기술)

  • Lee, ChangSu;Ko, YoungJoong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.3-8
    • /
    • 2014
  • 대화형 개인 비서 시스템은 사람의 음성을 통해 인식된 음성 인식 결과를 분석하여 사용자에게 제공할 정보가 무엇인지 파악한 후, 정보가 포함되어 있는 앱(app)을 실행시켜 사용자가 원하는 정보를 제공하는 시스템이다. 이러한 대화형 개인 비서 시스템의 가장 중요한 모듈 중 하나는 음성 대화 인식 모듈(SLU: Spoken Language Understanding)이며, 발화의 "의미 분석"을 수행하는 모듈이다. 본 논문은 음성 인식결과가 잘못되어 의미 분석이 실패하는 것을 방지하기 위하여 음성 인식 결과에서 잘못 인식된 명사, 개체명 단어를 보정 시켜주는 미등록어(OOV:Out-of-vocabulary) 처리 모듈을 제안한다. 제안하는 미등록어 처리 모듈은 미등록어 탐색 모듈과 미등록어 변환 모듈로 구성되며, 미등록어 탐색 모듈을 통해 사용자의 발화에서 미등록어를 분류하고, 미등록어 변환 모듈을 통해 미등록어를 사전에 존재하는 유사한 단어로 변환하는 방법을 제안한다. 제안한 방법을 적용하였을 때의 실험 결과, 전체 미등록어 중 최대 52.5%가 올바르게 수정되었으며, 음성 인식 결과를 그대로 사용했을 경우 "원본 문장"과 문장 단위 67.6%의 일치율을 보인 것에 반해 미등록어 처리 모듈을 적용했을 때 17.4% 개선된 최대 85%의 문장 단위 일치율을 보였다.

  • PDF

A Comparative Study on Building Korean & Chinese Music Request Sentence Patterns for AI Assistant Platforms (AI 어시스턴트 플랫폼의 한국어와 중국어 음악청취 요청문 패턴구축 비교 연구)

  • Yun, Soeun;Li, Jiabin;Nam, Jeesun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.383-388
    • /
    • 2020
  • 본 연구에서는 AI 어시스턴트의 음악청취 도메인 내 요청문을 인식 및 처리하기 위해 한국어와 중국어를 중심으로 도메인 사전 및 패턴문법 언어자원을 구축하고 그 결과를 비교분석 하였다. 이를 통해 향후 다국어 언어자원 구축의 접근 방법을 모색할 수 있으며, 궁극적으로 패턴 기반 문법으로 기술한 언어자원을 요청문 인식에 직접 활용하고 또한 주석코퍼스 생성을 통해 기계학습 성능 향상에 도움을 줄 수 있을 것으로 기대된다. 본 연구에서는 우선 패턴문법의 구체적인 양상을 살펴보기에 앞서, 해당 도메인의 요청문 유형의 카테고리를 결정하는 과정을 거쳤다. 이를 기반으로 한국어와 중국어 요청문의 실현 양상과 패턴유형을 LGG 프레임으로 구조화한 후, 한국어와 중국어 패턴문법 간의 통사적, 형태적, 어휘적 차이점을 비교분석 하여 음악청취 도메인 요청문의 언어별 생성 구조 차이점을 관찰할 수 있었다. 구축한 패턴문법은 개체명을 변수(X)로 설정하는 경우, 한국어에서는 약 2,600,600개, 중국어에서는 약 11,195,600개의 표현을 인식할 수 있었다. 결과적으로 본 연구에서 제안한 언어자원의 언어별 차이에 대한 통찰을 통해 다국어 차원의 요청문 인식 자원과 기계학습 데이터로서의 효용을 확인하였다.

  • PDF