• 제목/요약/키워드: Recall and Precision

검색결과 724건 처리시간 0.024초

대사경로 재구축을 위한 텍스트 마이닝 기법 (Text-mining Techniques for Metabolic Pathway Reconstruction)

  • 권혁렬;나종화;유재수;조완섭
    • 한국산업정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.138-147
    • /
    • 2007
  • 대사 공학의 발전과 함께 생물체에 유전자 재조합기술과 관련 분자생물학 및 화학공학적 기술을 이용하여 새로운 대사회로를 도입하거나 기존의 대사회로를 제거 증폭 변경시켜 세포나 균주의 대사 특성을 조절하는(directed modification) 일련의 기술들이 가능해지고 있다. 하지만 이러한 대사회로를 조절하기 위해서는 많은 선행 연구에 대한 고찰이 필요하며, 일선 연구자들은 방대한 선행 자료를 검색하고 일일이 읽으면서 자신에게 필요한 정보를 수집하고 있다. 따라서 효율적으로 대사 모델을 구축하고, 방대한 대사관련 연구논문으로부터 대사흐름 관련 정보를 자동으로 추출하는 기술의 개발이 중요한 이슈로 부각되고 있다. 본 논문에서는 대사경로 재구축을 위한 서열과 패턴 기반의 텍스트 마이닝 기법을 제안한다. 제안된 기법은 웹 로봇을 이용하여 최신의 논문을 반자동적으로 수집하고 이를 이용하여 최신의 논문을 로컬 데이터베이스로 구축한다. 또한 생물학 개체명의 인식율을 높이기 위해 유전자 온토로지를 이용하며, NCBI에서 제공하는 Tokenizer 라이브러리를 이용하여 개체명의 파괴 없이 인식할 수 있게 하였다. 본 연구에서 제안한 텍스트 마이닝 기법에서는 패턴을 이용하여 논문으로부터 대사경로 지식을 추출하게 되므로 올바른 패턴을 확보하는 것이 중요한 문제이다. 논문에서는 패턴의 수집을 위하여 대표적인 대사 경로 전문 사이트인 일본의 KEGG 경로 데이터베이스에서 추출한 Glycosphingolip건 종에 대한 20,000 여건의 논문에서 66개의 패턴을 추출하였다. 제안된 기법의 유효성을 입증하기 위하여 Glycosphingolipid종의 GLS 대사경로 19개 개체명을 이용하여 시스템을 평가하였다. 그 결과 논문 125,907건에 대하여 정확도 96.3%, 재현을 95.1%, 처리시간 15초의 성능을 보였다. 본 논문에서 제안된 시스템은 대사 경로 재구축에 유용하게 활용될 수 있을 것으로 기대된다.

  • PDF

CNN 모델을 이용한 프로그램 코드 변경 예측 (Predicting Program Code Changes Using a CNN Model)

  • 김동관
    • 한국융합학회논문지
    • /
    • 제12권9호
    • /
    • pp.11-19
    • /
    • 2021
  • 소프트웨어 시스템은 생명주기동안 기능 추가, 버그 수정, 새로운 컴퓨팅 환경 수용 등의 다양한 이유로 프로그램 코드 변경이 요구된다. 이러한 코드 수정 과정에서 새로운 오류 발생을 가져올 수 있으므로 프로그램 코드 수정 과정은 새로운 시스템 개발 못지 않게 신중하게 처리되야 한다. 또한, 오픈 소스 프로그램에 대한 재사용이 일반화된 소프트웨어 개발환경에서 오픈 소스 프로그램의 코드 변경 가능성을 예측할 수 있다면, 보다 양질의 프로그램 개발 효과를 기대할 수 있을 것이다. 본 논문은 소스 코드 변경을 예측하는 Convolutional Neural Network (CNN) 기반의 딥러닝 모델을 제안한다. 소스 코드 변경을 예측하는 문제는 딥러닝의 이진 분류 문제이며 레이블된 데이터가 요구되는 지도학습을 사용한다. 코드 예측 모델의 학습 및 시험을 위해 깃허브에서 수집한 Java 소스 코드와 코드 변경 로그를 데이터로 사용한다. 수집된 Java 소스 코드에서 소프트웨어 메트릭스를 계산한 후 제안된 코드 변경 예측 모델의 입력 데이터로 사용한다. 제안된 모델의 성능 평가를 위해 정밀도, 재현율, F1점수, 정확도가 측정되었으며 각각의 평가 지표에 있이서 CNN 모델은 95%, 다층 퍼셉트 기반의 DNN 모델은 92%를 달성했다.

Coreference Resolution을 위한 3인칭 대명사의 선행사 결정 규칙 (Antecedent Decision Rules of Personal Pronouns for Coreference Resolution)

  • 강승식;윤보현;우종우
    • 정보처리학회논문지B
    • /
    • 제11B권2호
    • /
    • pp.227-232
    • /
    • 2004
  • 정보 검색 시스템에서 문서의 내용을 대표하는 용어를 추출하거나 정보 추출 및 텍스트 마이닝에서 특정 정보만을 추출하려면 고유명사에 대한 대용어 문제가 해결되어야 한다. 대용어 해소 문제는 인칭 명사에 대한 대명사의 선행사 결정 문제가 대표적이다. 본 논문에서는 한국어에서 문서의 내용을 보다 정확히 분석하기 위해 3인칭 대명사 “그/그녀/그들/그녀들”의 선행사를 결정하는 방법을 제안한다. 일반적으로 3인칭 대명사의 선행사는 현재 문장 또는 이전 문장의 주어인 경우가 많고, 또한 3인칭 대명사가 2회 이상 반복되는 경우가 자주 발생한다. 이러한 특성을 이용하여 현재 문장과 이전 문장에 출현한 인칭 명사들 중에서 선행사로 사용되는 경우를 조사하여 선행사 결정 규칙을 발견하였다. 이 경험 규칙은 3인칭 대명사의 격에 따라 조금씩 달라지기 때문에 대명사의 격에 따라 주격, 목적격, 소유격으로 구분하여 기술하였다. 제안한 방법의 타당성을 검증하기 위하여 신문 기사의 정치 관련 문서에서 대명사의 격에 따라 100개씩 총 300개의 실험 대상을 선정하였으며, 실험 결과로 3인칭 대명사의 선행사 결정 정확도는 재현율이 79.0%, 정확률이 86.8%로 나타났다.

Contactless User Identification System using Multi-channel Palm Images Facilitated by Triple Attention U-Net and CNN Classifier Ensemble Models

  • Kim, Inki;Kim, Beomjun;Woo, Sunghee;Gwak, Jeonghwan
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.33-43
    • /
    • 2022
  • 본 논문에서는 기존의 스마트폰 카메라 센서를 사용하여 비접촉식 손바닥 기반 사용자 식별 시스템을 구축하기 위해 Attention U-Net 모델과 사전 훈련된 컨볼루션 신경망(CNN)이 있는 다채널 손바닥 이미지를 이용한 앙상블 모델을 제안한다. Attention U-Net 모델은 손바닥(손가락 포함), 손바닥(손바닥 미포함) 및 손금을 포함한 관심 영역을 추출하는 데 사용되며, 이는 앙상블 분류기로 입력되는 멀티채널 이미지를 생성하기 위해 결합 된다. 생성된 데이터는 제안된 손바닥 정보 기반 사용자 식별 시스템에 입력되며 사전 훈련된 CNN 모델 3개를 앙상블 한 분류기를 사용하여 클래스를 예측한다. 제안된 모델은 각각 98.60%, 98.61%, 98.61%, 98.61%의 분류 정확도, 정밀도, 재현율, F1-Score를 달성할 수 있음을 입증하며, 이는 저렴한 이미지 센서를 사용하고 있음에도 불구하고 제안된 모델이 효과적이라는 것을 나타낸다. 본 논문에서 제안하는 모델은 COVID-19 펜데믹 상황에서 기존 시스템에 비하여 높은 안전성과 신뢰성으로 대안이 될 수 있다.

DeepLabV3+와 Swin Transformer 모델을 이용한 Sentinel-2 영상의 구름탐지 (Cloud Detection from Sentinel-2 Images Using DeepLabV3+ and Swin Transformer Models)

  • 강종구;박강현;김근아;윤유정;최소연;이양원
    • 대한원격탐사학회지
    • /
    • 제38권6_2호
    • /
    • pp.1743-1747
    • /
    • 2022
  • Sentinel-2는 분광파장대나 공간해상도 측면에서 우리나라 차세대중형위성 4호(농림위성)의 모의영상으로 활용될 수 있다. 이 단보에서는 향후 농림위성영상에 적용하기 위한 예비실험으로, 딥러닝 기술을 이용한 Sentinel-2 영상의 구름탐지를 수행하였다. 전통적인 Convolutional Neural Network (CNN) 모델인 DeepLabV3+와 최신의 Transformer 모델인 Shifted Windows (Swin) Transformer를 이용한 구름탐지 모델을 구축하고, Radiant Earth Foundation (REF)에서 제공하는 22,728장의 학습자료에 대한 암맹평가를 실시하였다. Swin Transformer 모델은 0.886의 정밀도와 0.875의 재현율로, 과탐지와 미탐지가 어느 한쪽으로 치우치지 않는 경향을 보였다. 딥러닝 기반 구름탐지는 향후 우리나라 중심의 실험을 거쳐 농림위성 영상에 활용될 수 있을 것으로 기대된다.

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘 (Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person)

  • 석수영;정현열
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.250-258
    • /
    • 2007
  • 현재의 음성인식 기술은 하드웨어 기술의 발전과 더불어 여러 분야에 응용되고 있지만 음성구동 휠체어와 같은 고신뢰성이 요구되는 응용분야에서는 아직도 그 성능이 불충분하다. 실 환경에서 음성을 통해 안전하게 휠체어를 제어하기 위해서는 도로의 소음 등과 같은 주변잡음의 영향에 의한 음성인식 성능의 저하, 사용자의 기침소리나 숨소리 등과 같은 비음성 입력시의 오동작, 명령어의 불명확한 발성과 일반인과는 다른 발성 속도 및 발성 주파수 등을 고려한 인식시스템이 필요하다. 이를 위하여 본 논문에서는 비음성 입력시의 오동작을 방지하기 위해 인식기의 전처리 단에서 YIN 기본주파수 추출방법을 적용한 후 프레임 별 신뢰도에 기반한 고정도로 음성/비음성을 판별할 수 있는 방법을 제안하고, 불명확한발성에 대한 인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어사전을 구성하여 인식성능 제고를 도모하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아내는 재현율은 62%로 나타났으나 본 논문에서 제안한 YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%를 나타나 우수한 성능을 나타내었다. 실 환경에서 수집된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용한 경우 인식률이 78.6%로 나타났으나 MAP적응화 방법 및 다중 후보 인식사전을 적용한 결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

효율적인 문서 분류를 위한 혼합 특징 집합과 하이브리드 특징 선택 기법 (Combined Feature Set and Hybrid Feature Selection Method for Effective Document Classification)

  • 인주호;김정호;채수환
    • 인터넷정보학회논문지
    • /
    • 제14권5호
    • /
    • pp.49-57
    • /
    • 2013
  • 본 연구에서는 효율적인 온 라인 문서 자동 분류를 위해 매우 중요한 분류 작업의 전처리 단계인 특징선택을 위한 새로운 방법이 제안된다. 대부분의 기존 특징선택 방법 연구에서는 특징 집합의 모집단이 단일 모집단으로써 한 모집단이 가지는 정보만으로 분류에 적합한 특징들을 선택하여 특징 집합을 구성하였다. 본 연구에서는 단일 모집단에 한하여 수행되는 특징선택 뿐 만 아니라, 다중 모집단을 가지는 혼합 특징 집합에 대해서 특징선택을 함으로써 다양한 정보를 바탕으로 한 특징 집합을 구성하였다. 혼합 특징 집합은 두 종류의 특징 집합으로 구성된다. 즉 각각 문서로부터 추출한 단어로 구성된 원본 특징 집합과 원본 특징 집합으로부터 LSA를 이용하여 새로 생성한 변형 특징 집합이다. 혼합 특징 집합으로부터 필터 방법과 래퍼 방법을 이용한 하이브리드 방식의 특징 선택을 통해 최적의 특징 집합을 찾고, 이를 이용하여 문서 분류 실험을 수행하였다. 다양한 모집단의 특징들의 정보를 모두 고려함으로써 보다 향상된 분류 성능을 보일 것이라고 기대하였고, 인터넷 뉴스 기사를 대상으로 분류 실험한 결과 90% 이상의 향상된 분류성능을 확인하였다. 특히, 재현율과 정밀도 모두 90%이상의 성능을 보였으며, 둘 사이의 편차가 낮은 것을 확인하였다.

Na$\ddot{i}$ve Bayes 방법론을 이용한 개인정보 분류 (Personal Information Detection by Using Na$\ddot{i}$ve Bayes Methodology)

  • 김남원;박진수
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.91-107
    • /
    • 2012
  • 인터넷의 성장과 개인의 참여는 사생활 정보 보호에 관련된 비효율적 관리 방안에 대한 문제의식을 불러일으키고 있으며 이를 해결하기 위한 여러 연구들이 이루어지고 있다. 본 연구에서는 기존에 존재하는 문서 분류 방법론을 이용하여 개인의 사적 공간을 나타내는 프라이버시의 항목 중 개인을 식별할 수 있거나 개인이 민감해 할 수 있는 사생활 정보를 담고 있는 문서를 탐지 혹은 분류하는 방법에 대해서 다룬다. 논문의 실험에서 기존의 학습데이터에 추가적으로 개인정보의 유형에 관련된 하위 학습 데이터를 추가함으로써 자동 문서 분류 알고리즘의 성능 측정치를 높이는 것을 시도하였다. 또한 개인정보의 유형에 따라 알고리즘에 효과적으로 적용하는 방향을 제시하기 위하여 기존 논문에서 나타난 개인정보의 유형들을 분석하였다. 개인정보 관련 문서로 분류된 학습 대상과 함께 개인정보에 영향력이 있는 개인정보 유형들을 추가 학습시켜 알고리즘이 학습하는 문서 자질(feature)의 질(quality)을 높였다. 높아진 학습 자질의 질로 인하여 기존의 Na$\ddot{i}$ve Bayes 방법론을 이용한 평가 측정치가 높아질 수 있었다.

한국어 자연어 요구문서에서 구문 구조 기반의 조응어 처리 시스템 (Anaphora Resolution System for Natural Language Requirements Document in Korean based on Syntactic Structure)

  • 박기선;안동언;이용석
    • 정보처리학회논문지B
    • /
    • 제17B권3호
    • /
    • pp.255-262
    • /
    • 2010
  • 시스템 개발에 있어서 요구문서(requirements document)를 생성하고 정형 명세를 작성하는 것은 요구 분석 전문가와 명세 전문가에 의해 수행되고 있다. 만약 요구문서 생성과 정형 명세 작성 과정을 자동화 한다면 시스템 개발 비용 및 기간을 단축할 수 있고, 또한 전문가 사이의 잘못된 이해로 인한 오류를 줄일 수 있다. 대명사는 인칭대명사와 지시대명사로 분류될 수 있다. 일반적으로 요구문서의 특성상 인칭대명사는 사용되지 않기 때문에 본 논문은 지시대명사의 지시어 결정에 초점을 두고 있다. 지시대명사를 포함하는 요구문서에서 자연어처리 기법을 통해 정형화된 요구사항을 자동으로 추출하기 위해서는 대명사의 지시어 결정이 매우 중요하다. 본 연구의 최종 목표는 자연어 처리 기법을 통하여 자연어 요구문서로부터 시스템 개발에 필요한 정형 명세를 자동으로 생성하는데 있다. 이를 위해 본 논문은 선행연구를 기반으로 한국어로 기술된 자연어 요구문서에서 대명사에 대한 지시어를 결정하는 조응어 해소(anaphora resolution) 시스템을 제안한다. 본 시스템의 개발을 위해 조응어 해소를 위한 경험 규칙을 정의하고, 이를 통해 10개의 요구문서에 대해 실험한 결과 평균 재현율 92.45%, 정확률 69.68%의 성능을 보였다.

DeepLabV3+ 모델을 이용한 PlanetScope 영상의 해상 유출유 탐지 (Detection of Marine Oil Spills from PlanetScope Images Using DeepLabV3+ Model)

  • 강종구;윤유정;김근아;박강현;최소연;양찬수;이종혁;이양원
    • 대한원격탐사학회지
    • /
    • 제38권6_2호
    • /
    • pp.1623-1631
    • /
    • 2022
  • 유출유는 해양 생태계에 큰 위협이 되므로 피해 최소화를 위해 신속한 현황정보파악이 필요하다. 위성원격탐사는 항공기에 비해 광역적 모니터링이 가능하기 때문에 시공간적 범위에서 장점을 가진다. 최근에는 딥러닝 영상인식 기술의 발전으로 인해 딥러닝을 활용한 유출유 탐지의 필요성이 대두되고 있으나, 기존의 Synthetic Aperture Radar (SAR) 영상 위주의 유출유 탐지와는 달리 고해상도 광학영상에 딥러닝 기법을 적용하는 경우는 많지 않았다. 이에, 본 연구에서는 PlanetScope 위성의 광학영상을 활용하여 유출유 레이블을 제작하고, 이를 기반으로 DeepLabV3+모델을 활용하여 유출유 탐지 모델을 구축하였으며, 암맹평가에서 정확도 0.885, 정밀도 0.888, 재현율 0.886, F1점수 0.883, 평균 교집합 대 합집합 비율(Mean Intersection over Union, mIOU) 0.793 등의 상당히 높은 정확도를 나타냈다.