• 제목/요약/키워드: 지식베이스 추출

검색결과 156건 처리시간 0.021초

정확도 높은 검색 엔진을 위한 문서 수집 방법 (A Document Collection Method for More Accurate Search Engine)

  • 하은용;권희용;황호영
    • 정보처리학회논문지A
    • /
    • 제10A권5호
    • /
    • pp.469-478
    • /
    • 2003
  • 인터넷상의 정보 검색 엔진들은 웹 로봇을 이용해서 인터넷에 연결되어 있는 수 많은 웹 서버들을 주기적 또는 비주기적으로 방무나여 자체적인 인텍싱 방법에 따라 자료를 추출하고 분류해서 검색 엔진의 기초가 되는 데이터 베이스를 구축하고 변겨아는 작업을 계속하고 있다. 이런 일련의 작업은 인터넷 상에 분산되어 있는 막대한 정보를 쉽고 정확하게 찾을 수 있는 게이트 사이트로서의 역할을 담당하기 위한 전략적인 목적으로 진행되고 있다. 수천만 이상의 웹 사이트들을 상대로 하는 정보 수집은 검색 엔진 사이트 중심으로 기존 데이터의 수정과 삭제 등과 같은 데이터 베이스 유지 관리와 신규 사이트들에 대한 자료 수집 작업이 이루어지고 있다. 이러한 작업은 웹 서버에 대한 사전 지식 없이 정보 추출을 위해 웹 로봇을 실행하므로 인터넷 상에 수많은 요구가 전송되고 이는 인터넷 트래픽을 증가 시키는 원인이 되고 있다. 따라서 웹 서버가 사전에 자신이 공개할 문서에 대한 변경 정보를 웹 로봇에게 통보하고 웹 로봇은 이 정보를 이용해서 웹 서버의 해당 문서에 대한 정보 수집 작업을 한다면 불필요한 인터넷 트래픽을 감소시킬 수 있을 뿐만 아니라 검색 엔진의 정보의 신뢰도도 높아지고 웹 서버의 해당 문서에 대한 정보수집 작업을 한다면 불필요한 인터넷 트래픽을 감소 시킬 수 있을 뿐만 아니라 검색 엔진의 정보의 신뢰도도 높아지고 웹 서버의 시스템 부하와 검색 엔진의 시스템 부하를 줄일 수 있는 효과를 가질 수 있을 것이다. 본 논문에서는 웹 서버상의 웹 문서 파일의 변동 사항을 자동으로 검사하고 변동 사항들을 종합 정리해서 변경 문서에 대한 정보를 통보 받기 원하는 등록된 각 웹 로봇에게 전송하는 검사 통보 시스템을 설계 구현하였다. 웹 로봇을 운영하는 검색 엔진에서는 통보된 요약 정보를 이용해서 웹 서버로부터 해당 문서를 전송 받아 필요로 하는 인덱스 정보를 추출해서 데이터베이스를 구축하는 효율적인 웹 로봇을 설계 구현하였다.

사례기반추론과 텍스트마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템 연구 (An Intelligence Support System Research on KTX Rolling Stock Failure Using Case-based Reasoning and Text Mining)

  • 이형일;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.47-73
    • /
    • 2020
  • KTX 차량은 수많은 기계, 전기 장치 및 부품들로 구성되어 있는 하나의 시스템으로 차량의 유지보수에는 상당히 많은 전문성과 유지보수 작업자들의 경험을 필요로 한다. 차량 고장발생 시 유지보수자의 지식과 경험에 따라 문제 해결의 시간과 작업의 질적 차이가 발생하며 그에 따른 차량의 가용율이 달라진다. 일반적으로 문제해결은 고장 매뉴얼을 기반으로 하지만 경험이 많고 능숙한 전문가의 경우는 이와 더불어 개인의 노하우를 접목하여 신속하게 진단하고 조치를 취한다. 이러한 지식은 암묵지 형태로 존재하기 때문에 후임자에게 완전히 전수되기 어려우며, 이를 위해 사례기반의 철도차량 전문가시스템을 개발하여 데이터화된 지식으로 바꾸려고 하는 연구들이 있어왔다. 하지만, 간선에 가장 많이 투입되고 있는 KTX 차량에 대한 연구나 텍스트의 특징을 추출하여 유사사례를 검색하는 시스템 개발은 아직 미비하다. 따라서, 본 연구에서는 이러한 차량 유지보수 전문가들의 노하우를 통해 수행된 고장들에 대한 진단과 조치 이력을 문제 해결의 사례로 활용하여 새롭게 발생하는 고장에 대한 조치가이드를 제공하는 지능형 조치지원시스템을 제안하고자 한다. 이를 위하여, 2015년부터 2017년동안 생성된 차량고장 데이터를 수집하여 사례베이스를 구축하였고, 차원축소 기법인 비음수 행렬 인수분해(NMF), 잠재의미분석(LSA), Doc2Vec을 통해 고장의 특징을 추출하여 벡터 간의 코사인 거리를 측정하는 방식으로 유사 사례를 검색하였으며, 위의 알고리즘에 의해 제안된 조치내역들 간 성능을 비교하였다. 분석결과, 고장 내역의 키워드가 적은 경우의 유사 사례 검색과 조치 제안은 코사인 유사도를 직접 적용하는 경우에도 좋은 성능을 낸다는 것을 알 수 있었고 차원 축소 기법들의 성능 비교를 통해 문맥적 의미를 보존하는 차원 축소 방식 중 Doc2Vec을 적용하는 것이 가장 좋은 성능을 나타낸다는 것을 알 수 있었다. 텍스트 마이닝 기술은 여러 분야에서 활용을 위한 연구들이 이루어지고 있는 추세이나, 본 연구에서 활용하고자 하는 분야처럼 전문적인 용어들이 다수이고 데이터에 대한 접근이 제한적인 환경에서 이러한 텍스트 데이터를 활용한 연구는 아직 부족한 실정이다. 본 연구는 이러한 관점에서 키워드 기반의 사례 검색을 보완하고자 텍스트 마이닝 기법을 접목하여 고장의 특징을 추출하는 방식으로 사례를 검색해 조치를 제안하는 지능형 진단시스템을 제시하였다는 데에 의의가 있다. 이를 통해 현장에서 바로 사용 가능한 진단시스템을 단계적으로 개발하는데 기초자료로써 시사점을 제공할 수 있을 것으로 기대한다.

이동 객체 경로 탐색을 위한 시공간 클러스터링 기법 (A Spatio-Temporal Clustering Technique for the Moving Object Path Search)

  • 이기영;강홍구;윤재관;한기준
    • 한국공간정보시스템학회 논문지
    • /
    • 제7권3호
    • /
    • pp.67-81
    • /
    • 2005
  • 최근 들어 지리 정보 시스템이 발전함에 따라 경로 검색, 주변 정보 검색, 응급 서비스 등을 제공하는 위치 기반 서비스, 텔레매틱스 등의 새로운 응용 서비스 개발에 대한 관심과 연구가 증대되고 있다. 위치 기반 서비스 및 텔레매틱스에서 사용되는 시공간 데이타베이스에서의 사용자의 검색은 시간 축을 현재의 시간으로 고정하고 공간 및 비공간 속성을 검색하기 때문에 시간 축에 대한 검색 범위가 넓을 경우에는 이를 효율적으로 처리하기 어렵다. 이를 해결하기 위하여 이동 객체의 위치 데이타를 요약하는 기법인 스냅샷이 소개되었다. 그러나, 이러한 스냅샷 기법은 저장해야 되는 총간 영역이 넓을 경우 저장 공간이 많이 필요하며 검색에 자주 사용되지 않는 불필요한 영역까지 스냅샷을 생성하므로 저장 공간 및 메모리를 많이 사용하게 된다. 이에 본 논문에서는 기존의 스냅샷 기법의 단점을 극복하기 위하여 이전에 공간 클러스터링을 위해 사용되던 2차원의 공간 해시 알고리즘을 시공간으로 확장한 해시-기반 시공간 클러스터링 알고리즘(H-STCA)과 과거 위치 데이타로부터 이동 객체 경로 탐색을 위한 지식을 추출하기 위해 H-STCA 알고리즘에 근거한 지식 추출 알고리즘을 제안한다. 그리고, 대용량의 이동 객체 데이터에 대한 검색 시간, 저장 구조 생성 시간, 최적 경로 탐색 시간 등에서 H-STCA를 사용한 스냅샷 클러스터링 방법, 기존의 시공간 인덱스 방법, 스냅샷 방법과의 성능평가에 대하여 설명한다. 성능평가 결과로 H-STCA를 사용한 스냅샷 클러스터링 방법은 기존의 시공간 인덱스 방법이나 스냅샷 방법 보다 이동 객체의 개수가 증가하면 할수록 성능 향상이 더욱 큰 것으로 나타났다.

  • PDF

Bulk tank milk의 품질평가를 위한 퍼지기반 추론 (Fuzzy reasoning for assessing bulk tank milk quality)

  • 김태운;정대유
    • 지능정보연구
    • /
    • 제10권3호
    • /
    • pp.39-57
    • /
    • 2004
  • 우유생산 농가에서는 그들 젖소의 우유를 저장하는 탱크 (bulk tank milk: BTM)로부터 채취된 샘플로부터 분석된 우유에 대한 품질관련 항목들, 즉 체세포 수 (somatic cell count: SCC), 표준 plate count (standard plate count: SPC), 사전 incubation count (preliminary incubation count: PIC) 등에 관한 정보를 정기적으로 제공 받는다. 이러한 정보는 일정기간 쌓이게 되면 우유의 품질을 유지하고 목장을 관리할 수 있는 중요한 지식 베이스가 될 수 있다. 그러나 우유 품질이나 목장의 관리상태를 평가하는 기준은 모호하고 퍼지한 용어로 많이 표현되고 있다. 즉 우유 품질을 최상급, 상급, 중간, 불량으로 표시하거나 목장의 관리상태를 아주 양호, 양호, 미흡 등으로 표시한다. 이러한 서술방식은 퍼지이론에서의 모호한 상태를 표현하는 기준과 많이 부합되고 있다. 본 연구의 목적은 BTM으로부터 추출한 샘플로부터 미생물학적 분석을 통해서 나온 결과를 이용해서 BTM의 품질과 목장의 관리상태에 대하여 추론하는 것을 목표로 하고 있다. 따라서 퍼지추론엔진에 기초하여 퍼지로직 기반의 추론방법을 개발하고 실제 데이터를 이용해서 평가하였다. 입력 데이터로는 Bulk Tank SCC, SPC, PIC, laboratory pasteurization count (LPC), non agalactiae Streptococci, Streptococci like organisms, Staphylococcus aureus등이다. 이러한 입력자료에 근거하여 BTM의 품질상태를 아주 양호, 양호, cooling문제, 청결문제, 환경적 mastitis, 환경적/청결 복합문제로 분류하고, 낙농가로부터 채취한 실제 데이터를 이용하여 추론하였다. 본 퍼지 추론 결과는 낙농생산자, 컨설턴트, 수의사 등 관련 종사자들에게 의사결정을 위한 참고자료로서 활용이 가능하다.

  • PDF

온톨로지 지식 기반 특성치를 활용한 Bidirectional LSTM-CRF 모델의 시퀀스 태깅 성능 향상에 관한 연구 (Improving Bidirectional LSTM-CRF model Of Sequence Tagging by using Ontology knowledge based feature)

  • 진승희;장희원;김우주
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.253-266
    • /
    • 2018
  • 본 연구는 질의 응답(QA) 시스템에서 사용하는 개체명 인식(NER)의 성능을 향상시키기 위하여 시퀀스 태깅 방법론을 적용한 새로운 방법론을 제안한다. 사용자의 질의를 입력 받아 데이터베이스에 저장된 정답을 추출하기 위해서는 사람의 언어를 컴퓨터가 알아들을 수 있도록 구조화 질의어(SQL)와 같은 데이터베이스의 언어로 전환하는 과정이 필요한데, 개체명 인식은 사용자의 질의에서 데이터베이스에 포함된 클래스나 데이터 명을 식별하는 과정이다. 기존의 데이터베이스에서 질의에 포함된 단어를 검색하여 개체명을 인식하는 방식은 동음이의어와 문장성분 구를 문맥을 고려하여 식별하지 못한다. 다수의 검색 결과가 존재하면 그들 모두를 결과로 반환하기 때문에 질의에 대한 해석이 여러 가지가 나올 수 있고, 계산을 위한 시간복잡도가 커진다. 본 연구에서는 이러한 단점을 극복하기 위해 신경망 기반의 방법론을 사용하여 질의가 가지는 문맥적 의미를 반영함으로써 이러한 문제를 해결하고자 했고 신경망 기반의 방법론의 문제점인 학습되지 않은 단어에 대해서도 문맥을 통해 식별을 하고자 하였다. Sequence Tagging 분야에서 최신 기술인 Bidirectional LSTM-CRF 모델을 도입함으로써 신경망 모델이 가진 단점을 해결하였고, 학습되지 않은 단어에 대해서는 온톨로지 기반 특성치를 활용하여 문맥을 반영한 추론을 사용하였다. 음악 도메인의 온톨로지(Ontology) 지식베이스를 대상으로 실험을 진행하고 그 성능을 평가하였다. 본 연구에서 제안한 방법론인 L-Bidirectional LSTM-CRF의 성능을 정확하게 평가하기 위하여 학습에 포함된 단어들뿐만 아니라 학습에 포함되지 않은 단어들도 포함한 질의를 평가에 사용하였다. 그 결과 L-Bidirectional LSTM-CRF 모형을 재학습 시키지 않아도 학습에 포함되지 않은 단어를 포함한 질의에 대한 개체명 인식이 가능함을 확인하였고, 전체적으로 개체명 인식의 성능이 향상됨을 확인할 수 있었다.

호스피스 전자기록을 위한 데이터베이스 개발 (Database for Hospice Nursing in Electronic Medical Record)

  • 김영순;이창걸;이경옥;김옥겸;김인혜;김미정;황애란;이원희
    • Journal of Hospice and Palliative Care
    • /
    • 제7권2호
    • /
    • pp.200-213
    • /
    • 2004
  • 목적: 호스피스 간호기록의 문제점을 개선하고 병원 U-Hospital 개념의 전자의무기록 시스템 개발 초기에 간호사의 입장과 요구사항과 특성이 고려된 호스피스 간호과정 데이터베이스를 개발하고자 함에 있다. 방법: 단계별로 나누어 조사하였는데 1단계로 3개 호스피스기관에서 사용하고 있는 간호 기록지를 종합. 분석하여 임상경력 10년 이상의 전문간호사 5인의 경험을 추출하여 합의한 후 정확하고 간편하고 기록 누락성이 보완된 전자형 간호기록지를 생성하였다. 2 단계는 생성된 간호기록지를 본 연구 목적을 적극 수용하고 협조하는 가정호스피스 3기관에 의뢰하여 2004년 4월부터 8월까지, 81명의 환자기록에 적용한 후 프로토콜의 적중률을 검증하였다. 3 단계는 적중률 검사 후 그 결과를 갖고 3개기관의 10년 이상의 임상전문가와, 호스피스 의사, 호스피스 전공 간호학교수들의 90% 이상 합의를 거쳐 최종 데이터베이스를 생성하였다. 결과: 1. 연계성이 있고, 간편하고, 기록누락성을 보완한 전자형 간호기록지를 생성하였다. 2. 가정호스피스 서비스의 표준화된 프로토콜의 적중률은 95.86%로 매우 높았다. 3. 최종 수정 보완된 호스피스 간호과정 연계목록표는 Table 7과 같다. 결론: 본 연구의 결과는 기록시간의 단축, 가정호스피스 서비스의 질적향상에 기여할 것이며, 호스피스 숫가화와 교육의 기초자료로 활용될 것이다. 또한 타호스피스 기관에서 적극 활용되어 호스피스 간호 지식체계 발전과 말기 암환자 삶의 질향상에 크게 기여할 것이다. 앞으로는 1) 호스피스 간호과정 결과가 보완된 연구가 진행되기를 바라며 2) 개발된 데이터 베이스를 이용하여 입원형이나 시설용 모델 등으로 다양하게 변형하여 활용할 수 있기를 제언한다.

  • PDF