• 제목/요약/키워드: 분류별 검색

검색결과 308건 처리시간 0.028초

시맨틱 주석을 이용한 내용 기반 데이터 검색 (Content based data search using semantic annotation)

  • 김병곤;오성균
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권4호
    • /
    • pp.429-436
    • /
    • 2011
  • 인터넷검색의 대상이 되는 각종 문서, 이미지, 동영상 등의 자료가 늘어날수록 이에 대한 효율적인 검색의 문제가 중요시되고 있다. 효율적인 검색의 관점은 초기의 키워드 중심의 검색에서 자료가 지니는 의미적인 요소들을 종합적으로 판단하여 이들의 연관성을 찾아 검색하는 의미적 검색의 방향으로 진행되고 있다. 이에 따라, 각종 자료에 대한 의미적 검색을 위하여 메타데이터 처리를 위한 시맨틱 주석을 생성, 운영하는 시스템들이 연구되어 왔다. 그러나, 동일한 종류의 자료에 대한 주석 위주로 진행되었고, 각기 다른 방법과 형태로 생성된 주석 데이터 간에는 호환적인 검색이나 처리가 어렵다. 본 연구에서는 이 문제를 해결하기 위하여 다양한 주석문서를 내용분석에 따라 단계별 형태로 분류하고, 상이한 종류의 자료 간에도 검색이 가능하도록 문서간의 유사도를 측정하는 방법을 제시하였다. 주석문서간의 유사도 측정은 소스문서와 유사도가 높은 주석문서를 검색하여 결과적으로 자료의 종류나 형태에 상관없이 가장 유사한 내용을 지니는 문서나 이미지, 동영상 등을 검색하는데 사용할 수 있다.

법령 정보검색 시스템 구현에 관한 연구 (A Study on the Implementation of Law Information Retrieval System)

  • 민재홍;조평동;양진혁;박평구;정인정
    • 한국정보처리학회논문지
    • /
    • 제7권11S호
    • /
    • pp.3702-3713
    • /
    • 2000
  • 정보통신 표준은 기술기준과 권고표준으로 구성된다. 기술기준은 강제표준으로서 정부가 이의 준수를 의무화하는 표준을 말하며, 권고표준은 국가 또는 표준화 단체가 표준을 제정하여 이를 권고하는 것으로서 이에 대한 준수의 강제성은 없다. 기술기준은 공통된 판단과 평가근거가 되는 조건, 수준, 한계 등을 규정함으로써 엄격히 준수되어야 할 규칙으로 정의된다. 본 논문은 기술기준의 제·개정과 관련된 업무의 생산성을 높이고, 기술기준 정보의 대국민 서비스를 지원하기 위하여 법규의 제·개정과 관련된 정보의 데이터 베이스화를 통한 정보의 연속성 및 공용성을 확보하고, 법규 제정과 관련된 국내·외 웹사이트의 최신정보를 분류하여 제공할 수 있는 정보검색 및 관리 시스템의 구현에 관한 논문이다. 본 논문에서 구현된 정보검색 및 관리 시스템은 온라인 정보검색 시스템으로서 정보통신 기술기준에 관련된 법령정보를 조항별 키워드 검색, 계층적 검색, 법령별 키워드 검색 및 제·개정 연혁별 검색이라는 네 가지의 다양한 검색방법을 제공할 뿐만 아니라, 법률 제·개정과 관련한 사이버 공동작업 공간에서는 정보의 공용성을 확보하고 있다. 마지막으로, 본 논문에서 구현된 정보시스템의 가장 두드러진 특징은 인터넷상에서 실시간으로 법령 정보를 갱신할 수 있다는 것이다.

  • PDF

점진적으로 계산되는 분류정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 방법 (A Hypertext Categorization Method using Incrementally Computable Class Link Information)

  • 오효정;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권7호
    • /
    • pp.498-509
    • /
    • 2002
  • 본 논문은 하이퍼텍스트가 갖는 중요한 특성인 링크 정보를 활용한 문서 분류 모델을 제안한다. 제안된 모델의 주안점은 대상 문서와 링크로 연결된 이웃한 문서의 내용 및 범주를 분석하여 대상 문서 벡터를 조정하고, 이를 근거로 대상 문서가 어느 범주에 해당하는지를 결정한다. 또한, 이웃 문서에 포함된 용어를 반영함으로써 대상 문서의 내용을 확장 해석하고, 이웃 문서의 가용 분류 정보가 있는 경우 이를 참조함으로써 정확도 향상을 기한다. 이러한 접근 방법은 일반 웹 환경에 적용할 수 있는데, 특히 하이퍼텍스트를 주제별로 분류하여 관리하는 검색 엔진의 경우 매일 쏟아져 나오는 새로운 문서와 기존 문서간의 링크를 활용함으로써 전체 시스템의 점진적인 분류에 매우 유용하다. 제안된 모델을 검증하기 위하여 Reuter-21578과 계몽사(ETRl-Kyemong) 자료를 대상으로 실험한 결과 최고 18.5%의 성능 향상을 얻었다.

단어 조합 검색을 이용한 불법·유해정보 탐지 기법 (Illegal and Harmful Information Detection Technique Using Combination of Search Words)

  • 한병우;윤지원
    • 정보보호학회논문지
    • /
    • 제26권2호
    • /
    • pp.397-404
    • /
    • 2016
  • 최근 국내에서 불법 유해정보의 양은 꾸준히 증가하고 있으며, 중소기업, 공공기관 등의 게시판에 불법 유해정보 글들이 많이 게시되고 있다. 불법 유해정보를 통해 범죄로 이어질 가능성이 크기 때문에 이를 탐지하는 시스템이 필요하다. 현재 국내의 불법 유해정보 탐지는 인력에 의해 수동적으로 진행되고 있다. 본 논문에서는 공개출처정보(OSINT)를 통해 불법 유해정보 중 마약 판매 게시글의 URL 탐지를 자동화하는 연구를 진행하였다. 이 시스템은 마약 판매 게시글의 단어를 분석하고, 해당 단어로 검색어 사전을 만들었다. 검색어 사전 기반으로 검색되는 마약판매 의심 URL을 구글 검색엔진을 활용하여 자동으로 수집하였다. 수집 URL을 도메인별로 분류하였으며, 도메인을 수집 URL 개수별로 도식화하여 실제 불법 유해정보를 찾아내었다. 이 자동화 탐지 시스템을 활용하면 모니터 요원의 수동적인 탐지업무로 인한 시간과 노력의 소비 문제를 해결할 것으로 기대된다.

온톨로지 기반에서 연관 마이닝 방법을 이용한 지식 추론 알고리즘 연구 (A Study of a Knowledge Inference Algorithm using an Association Mining Method based on Ontologies)

  • 황현숙;이준연
    • 한국멀티미디어학회논문지
    • /
    • 제11권11호
    • /
    • pp.1566-1574
    • /
    • 2008
  • 정보 검색에 대한 연구는 방대한 데이터에서 원하는 검색 정보를 제공할 뿐 만 아니라 개인의 취향에 따른 맞춤 검색 및 추론된 지식을 제공하는 데 초점을 두고 있다. 본 논문의 목적은 데이터를 개념화하여 분류 및 정의할 수 있는 온톨로지 구조를 기반으로 숨어있는 지식을 발견하여 개인 맞춤 검색을 제공하는 추론 알고리즘에 대해 연구하는 것이다. 현재의 검색에서는 방대한 데이터에서 너무 많은 검색 결과를 제공 하거나 검색 결과를 제공하지 못하는 경우도 발생하고 여다. 이러한 정보 검색의 단점을 보완하기 위해 OWL 온톨로지 제약조건과 연관 마이닝 방법으로 추론된 연관 지식을 SWRL 추론 언어로 표현하여 Jess 엔진을 통한 새로운 지식을 발견하여 효율적인 검색을 지원하는 알고리즘을 제안한다. 식당, 주유소, 제과점 등의 도메인에 따른 개인별 선호 온톨로지를 구축하고, 주유소 개인 선호 데이터를 예제로 하여 연관 및 온톨리지 기반에서 정보를 검색할 때, 연관 및 추론 정보를 제공함을 보여준다.

  • PDF

유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구 (A Study on the Development of Search Algorithm for Identifying the Similar and Redundant Research)

  • 박동진;최기석;이명선;이상태
    • 한국콘텐츠학회논문지
    • /
    • 제9권11호
    • /
    • pp.54-62
    • /
    • 2009
  • 국가적으로 그리고 각 연구기관에서는 투자의 효율성을 기하기 위하여 연구사업 선정과정에서 데이터베이스로부터 중복과제 혹은 유사과제를 검색하는 과정을 거친다. 최근 부얼리언 기반의 키워드 매칭 검색알고리즘의 발전 및 이를 채택한 검색엔진의 개발로 인하여 검색의 정확도가 많이 향상되었지만, 사용자가 입력하는 제한된 수의 키워드들에 의한 검색은 유사과제 파악과 우선순위의 결정에 어려움이 있다. 본 연구에서는 제안된 과제의 문서를 분석하여 다수의 색인어들을 추출하고, 이들에게 가중치를 부여한 후, 기존의 문서들과 비교하여 유사과제를 찾아내는 문서단위의 검색 알고리즘을 제안한다. 구체적으로 벡터공간검색(Vector-Space Retrieval)모델의 한 종류인 TFIDF(Term Frequency Inverse document Frequency)를 기본 구조로 채택한다. 또한 개발되는 알고리즘에는 연구과제 제안문서의 구조에 적합한 속성별 가중치(feature weighting)를 반영하고 검색속도의 향상을 위하여 K-최근접 문서(KNN: K-Nearest Neighbors) 기법도 반영한 알고리즘을 제시한다. 실험을 위하여 실제 연구제안 문서와 구조가 동일한 기존의 보고서를 사용하였는데, KISTI에서 운영하는 과학기술정보포털서비스인 NDSL에서 이미 분류해 놓은 4분야의 1,000 개 연구 보고서 문서를 발췌하여 실험을 하였다.

고품질 슬라이드 선별을 위한 지식구조 기반 분류 기법 (Proposing and Validating a Classification Method based on Knowledge Structure to Identify High-Quality Presentation Slides)

  • 정원철;김성찬;이문용
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.676-681
    • /
    • 2014
  • 본 연구는 내용적으로 고품질인 슬라이드를 구분하고 분류하기 위해, 슬라이드의 지식정보를 내포하는 지식구조를 이용하는 분류 방법을 제안한다. 지식구조가 슬라이드의 내용적 품질정보를 내포하는지에 대해서 분석한 후, 그 결과로부터 지식구조를 이용한 분류 방법을 개발하였고, 슬라이드의 품질별로 분류한 결과를 비교하였다. 비교를 통해 고품질군에 속하는 슬라이드일수록 높은 품질의 슬라이드 위주로 분류할 수 있다는 점을 검증하였다. 이는 품질이 높은 슬라이드 위주로 검색하거나 추천하고자 할 때, 지식구조라는 인지적 모형을 활용하여 그 효과를 높일 수 있음을 보여준다.

형태소 사이의 유사도를 이용한 용례의 의미별 분류 (Conceptual Clustering of Korean Concordances using Similarities between Morphemes)

  • 백대호;이호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.235-240
    • /
    • 1996
  • 본 논문에서는 정보 검색에서 사용하는 계층적 클러스터링 기법을 이용하여 용례들을 중심어의 의미에 따라 분류하고자 한다. 분류에 필요한 용례 사이의 유사도는 형태소 사이의 유사도를 이용하여 계산한다. 형태소 사이의 유사도 계산에는 상호 정보, 상호 정보의 유사도, 벡터 유사도 등을 사용한다. 품사 태깅된 17만 코퍼스에서 명사 4개와 동사 4개를 중심어로 사용하여 추출된 용례에 대해서 각 방법의 정확도를 실험한 결과 상호 정보와 상호 정보 유사도를 더한 값을 형태소 사이의 유사도로 사용한 방법이 90.16%의 정확도를 보였다. 제안된 방법에서 사용하는 정보들은 의미 태깅되지 않은 코퍼스에서 추출할 수 있기 때문에, 정보의 획득이 쉬운 장점이 있다.

  • PDF

국가R&D정보활용을 위한 전문용어사전 구축 (Construction of the Terminology Dictionary for National R&D Information Utilization)

  • 김태현;양명석;최광남
    • 한국콘텐츠학회논문지
    • /
    • 제19권10호
    • /
    • pp.217-225
    • /
    • 2019
  • 국가연구개발(R&D, Research and Development) 정보는 정부부처로부터 발주되는 사업 과제를 수행하는 과정에서 발생되는 다양한 연구분야의 정보들이 포함되어 있다. 따라서 효율적인 R&D정보 검색을 위해서는 이러한 국가R&D정보의 특성을 반영할 수 있는 국가R&D 전문용어사전 구축이 필요하다. 본 연구에서는 국가R&D정보에서 연구분야를 명시하기 위해 활용되는 국가과학기술표준분류를 적용하여 국가R&D용어사전을 구축하기 위한 방안을 제안한다. 국가R&D 과제정보의 구조적 특성과 그에 따른 과제 키워드의 유용성에 대해 언급하고, 국가과학기술표준분류별 국가R&D정보 현황과 국가R&D 용어의 특성에 대해 살펴보고자 한다. 그리고 이를 바탕으로 국가R&D용어사전을 구축하기 위한 방법을 용어사전의 유형과 구조, 사전구축 절차, 정제규칙의 관점에서 정의한다. 본 연구를 기반으로 구축되는 국가R&D용어사전은 국가R&D정보 검색 시 한 영 대역어, 동의어 등을 활용한 검색어 확장과 국가과학기술표준분류를 활용한 검색 범위 명확화, 용어설명 정보를 활용한 이용자 편의기능 제공 등에 다양하게 활용될 수 있다.

세계기록유산 국채보상운동기록물의 수집현황과 기술규칙 제안 (Survey of the Archives of NDRM, Memory of the World and a Proposal of their Rules for Archival Description)

  • 김경남
    • 기록학연구
    • /
    • 제71호
    • /
    • pp.91-130
    • /
    • 2022
  • 본 연구는 최근에 등재된 국채보상운동기록물 2,475건을 대상으로 생산배경과 그 출처를 분석하여 분류 체계에 대한 새로운 방식을 제기하고, ISAD(G) 2ND EDITION, ISSAR, NAK를 참조하여 매뉴스크립트 컬렉션형 기록물 기술 규칙을 만들어 제안하였다. 이를 통해 최근 다수 기록물이 세계기록유산으로 등재되고, 등재된 이후에도 기록물이 추가되는 추세에 따라, 기록학적 관점에서 세계기록유산에 대한 기술 규칙을 만들어 관리해야 할 필요성을 제기하였다. 국채보상운동기록물은 인위적 수집 컬렉션이다. 매뉴스크립트 컬렉션은 쉘렌버그의 출처주의에 입각하여 기록의 작성 주체를 중심으로 분류하는 것이 가장 체계적이라고 할 수 있다. 이를 기본으로 하여 활동별, 시간별, 자료의 종류별, 매체별, 주제별 등으로 다양하게 분류하여 제시한다면 세계기록유산 기록물을 더욱 효율적으로 검색하고 이해할 수 있을 것이다.