• 제목/요약/키워드: automatic annotation

검색결과 78건 처리시간 0.018초

Improving classification of low-resource COVID-19 literature by using Named Entity Recognition

  • Lithgow-Serrano, Oscar;Cornelius, Joseph;Kanjirangat, Vani;Mendez-Cruz, Carlos-Francisco;Rinaldi, Fabio
    • Genomics & Informatics
    • /
    • 제19권3호
    • /
    • pp.22.1-22.5
    • /
    • 2021
  • Automatic document classification for highly interrelated classes is a demanding task that becomes more challenging when there is little labeled data for training. Such is the case of the coronavirus disease 2019 (COVID-19) clinical repository-a repository of classified and translated academic articles related to COVID-19 and relevant to the clinical practice-where a 3-way classification scheme is being applied to COVID-19 literature. During the 7th Biomedical Linked Annotation Hackathon (BLAH7) hackathon, we performed experiments to explore the use of named-entity-recognition (NER) to improve the classification. We processed the literature with OntoGene's Biomedical Entity Recogniser (OGER) and used the resulting identified Named Entities (NE) and their links to major biological databases as extra input features for the classifier. We compared the results with a baseline model without the OGER extracted features. In these proof-of-concept experiments, we observed a clear gain on COVID-19 literature classification. In particular, NE's origin was useful to classify document types and NE's type for clinical specialties. Due to the limitations of the small dataset, we can only conclude that our results suggests that NER would benefit this classification task. In order to accurately estimate this benefit, further experiments with a larger dataset would be needed.

개체명 사전 기반의 반자동 말뭉치 구축 도구 (A Semi-automatic Annotation Tool based on Named Entity Dictionary)

  • 노경목;김창현;천민아;박호민;윤호;김재균;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

개체명 사전 기반의 반자동 말뭉치 구축 도구 (A Semi-automatic Annotation Tool based on Named Entity Dictionary)

  • 노경목;김창현;천민아;박호민;윤호;김재균;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

Identification and Functional Analysis of Differentially Expressed Genes Related to Metastatic Osteosarcoma

  • Niu, Feng;Zhao, Song;Xu, Chang-Yan;Chen, Lin;Ye, Long;Bi, Gui-Bin;Tian, Gang;Gong, Ping;Nie, Tian-Hong
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제15권24호
    • /
    • pp.10797-10801
    • /
    • 2015
  • Background: To explore the molecular mechanisms of metastatic osteosarcoma (OS) by using the microarray expression profiles of metastatic and non-metastatic OS samples. Materials and Methods: The gene expression profile GSE37552 was downloaded from Gene Expression Omnibus database, including 2 human metastatic OS cell line models and 2 two non-metastatic OS cell line models. The differentially expressed genes (DEGs) were identified by Multtest package in R language. In addition, functional enrichment analysis of the DEGs was performed by WebGestalt, and the protein-protein interaction (PPI) networks were constructed by Hitpredict, then the signal pathways of the genes involved in the networks were performed by Kyoto Encyclopaedia of Genes and Genomes (KEGG) automatic annotation server (KAAS). Results: A total of 237 genes were classified as DEGs in metastatic OS. The most significant up- and down-regulated genes were A2M (alpha-2-macroglobulin) and BCAN (brevican). The DEGs were significantly related to the response to hormone stimulus, and the PPI network of A2M contained IL1B (interleukin), LRP1 (low-density lipoprotein receptor-related protein 1) and PDGF (platelet-derived growth factor). Furthermore, the MAPK signaling pathway and focal adhesion were significantly enriched. Conclusions: A2M and its interactive proteins, such as IL1B, LRP1 and PDGF may be candidate target molecules to monitor, diagnose and treat metastatic OS. The response to hormone stimulus, MAPK signaling pathway and focal adhesion may play important roles in metastatic OS.

시맨틱 갭을 줄이기 위한 딥러닝과 행위 온톨로지의 결합 기반 이미지 검색 (Image retrieval based on a combination of deep learning and behavior ontology for reducing semantic gap)

  • 이승;정혜욱
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제9권11호
    • /
    • pp.1133-1144
    • /
    • 2019
  • 최근 스마트 기기의 발전으로 인터넷상에 존재하는 이미지 데이터의 양이 급속하게 증가하는 상황에서 효과적인 이미지 검색을 위한 다양한 방법들이 연구되고 있다. 기존의 이미지 검색 방법들은 이미지에 존재하는 물체들을 단순하게 검출하여 각 물체들의 라벨 정보에 근거한 검색을 수행하기 때문에 사용자가 원하는 이미지와 검색 결과로 얻은 이미지 간에 의미적 차이인 시맨틱 갭(Semantic Gap)이 발생된다. 이미지 검색에서 발생하는 시맨틱 갭을 줄이기 위해, 본 논문에서는 딥러닝 기반의 다중 객체 분류 모듈과 사람의 행위를 분류하는 모듈을 연결하고, 이 모듈들에 행위 온톨로지를 결합하였다. 즉, 딥러닝과 행위 온톨로지의 결합을 기반으로 객체들 간의 연관성을 고려한 이미지 검색 시스템을 제안한다. 이미지에 포함된 동적인 행위를 고려하기 위해 Walking과 Running 데이터를 이용하여 실험한 결과를 분석하였다. 제안한 방법은 향후 이미지 검색 결과의 정확도를 높일 수 있는 영상의 자동 주석 생성 연구에 확장하여 적용할 수 있다.

미소 픽셀을 갖는 비행 객체 인식을 위한 데이터베이스 구축 및 관리시스템 연구 (Database Generation and Management System for Small-pixelized Airborne Target Recognition)

  • 이호섭;신희민;심현철;조성욱
    • 항공우주시스템공학회지
    • /
    • 제16권5호
    • /
    • pp.70-77
    • /
    • 2022
  • 본 논문에서, 데이터베이스 생성 및 관리 시스템은 미소 픽셀 공중 표적 인식을 위해 제안된다. 제안된 시스템은 1)비행 테스트 비디오 프레임에 의한 직접 이미지 추출, 2) 자동 이미지 보관, 3) 이미지 데이터 레이블링 및 메타 데이터 주석, 4) 컬러 채널 변환, 5) HOG/LBP 기반 소화소 대상 증강 이미지 데이터 생성의 다섯가지 주요 기능으로 구성된다. 제안하는 프로그램은 파이썬 기반의 PyQt5와 OpenCV를 이용하여 구성하였고 공중 표적 인식을 위한 이미지 데이터셋은 제안한 시스템을 이용해 생성했으며 비행 실험으로 부터 수집된 영상을 입력영상으로 사용하였다.

대화 수준 FrameNet 구축을 위한 생략된 프레임 논항 복원 연구 (A Study of Null Instantiated Frame Element Resolution for Construction of Dialog-Level FrameNet)

  • 노영빈;허철훈;함영균;정유성;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.227-232
    • /
    • 2020
  • 본 논문은 의미역 주석(Semantic Role Labeling) 자원인 FrameNet을 준구어 말뭉치인 드라마 대본에 주석하는 과정과 주석 결과에 대해 서술한다. 본 논문에서는 프레임 - 프레임 논항 구조의 주석 범위를 한 문장에서 여러 발화로 이루어진 장면 (Scene) 단위의 대본으로 확장하여 문장 내에서 생략된 프레임 논항(Null-Instantiated Frame Elements)을 장면 단위 대본 내의 다른 발화에서 복원하였다. 본 논문은 프레임 자동 분석기를 통해 동일한 드라마의 한국어, 영어 대본에 FrameNet 주석을 한 드라마 대본을 선발된 주석자에 의해 대상 어휘 적합성 평가, 프레임 적합성 평가, 생략된 프레임 논항 복원을 실시하고, 자동 주석된 대본과 주석자 작업 후의 대본 결과를 비교한 결과와 예시를 제시한다. 주석자가 자동 주석된 대본 중 총 2,641개 주석 (한국어 1,200개, 영어 1,461개)에 대하여 대상 어휘 적합성 평가를 실시하여 한국어 190개 (15.83%), 영어 226개 (15.47%)의 부적합 대상 어휘를 삭제하였다. 프레임 적합성 평가에서는 대상 어휘에 자동 주석된 프레임의 적합성을 평가하여 한국어 622개 (61.68%), 영어 473개 (38.22%)의 어휘에 대하여 새로운 프레임을 부여하였다. 생략된 프레임 논항을 복원한 결과 작업된 평균 프레임 논항 개수가 한국어 0.780개에서 2.519개, 영어 1.290개에서 2.253개로 증가하였다.

  • PDF

교육용 비디오의 ToC 자동 생성 방법 (A Method of Generating Table-of-Contents for Educational Video)

  • 이광국;강정원;김재곤;김회율
    • 방송공학회논문지
    • /
    • 제11권1호
    • /
    • pp.28-41
    • /
    • 2006
  • 양방향 맞춤형 방송의 실현으로 인해 비디오의 내용을 자동으로 분석하여 그 구조를 기술하거나 요약을 생성하는 등의 내용 기반 비디오 분석 기술의 필요성이 요구되고 있다. 본 논문에서는 온라인에서 수요가 높고 특히 맞춤형 방송에 적합한 방송 콘텐츠인 교육용 비디오의 ToC를 자동으로 생성하기 위한 방법을 제안한다. 제안한 ToC 생성 방법은 씬 분할과 씬 서술의 두 단계로 이루어져 있다. 씬 분할 단계에서는 삿 분할을 수행한 후 샷 간의 연결관계 분석을 통해 입력 영상을 씬 단위로 분할하게 된다. 씬 서술 단계에서는 분할된 각 씬이 장면 분류, 자막 검출, 화자 인식 등에 의해 그 내용이 자동으로 서술된다. 제안된 방법을 통해 생성된 ToC는 씬과 샷의 계층 구조를 통해 비디오의 구성을 표현하고, 검출된 여러 특정을 이용해 각 씬과 샷의 내용을 서술함으로써 사용자가 비디오의 내용을 한눈에 알아볼 수 있고 원하는 내용에 손쉽게 접근할 수 있도록 도와줄 수 있다. 또 보다 상세한 ToC가 요구되는 경우에는 유용한 정보들이 포함되어 있는 초기 형태의 ToC로써 이용되어 수작업에 의한 ToC 생성에 필요한 시간을 효과적으로 줄이는 것이 가능하다. 실험을 통해 제안한 방법으로 여러 개의 교육용 비디오에서 ToC를 효과적으로 생성될 수 있음을 확인하였다.