• 제목/요약/키워드: 내포된 문서

검색결과 56건 처리시간 0.024초

중첩 클러스터를 이용한 피드백 문서의 재샘플링 기법 (Resampling Feedback Documents Using Overlapping Clusters)

  • 이경순
    • 정보처리학회논문지B
    • /
    • 제16B권3호
    • /
    • pp.247-256
    • /
    • 2009
  • 대부분의 잠정적 적합피드백기법들은 질의에 대해 검색된 상위검색문서들이 적합하다고 가정하고, 그 문서들을 질의 확장을 위한 피드백 문서로 이용하고 있다. 그러나 초기검색결과에는 상당한 양의 부적합 문서를 포함하고 있는 것이 현실이다. 이 논문에서는 보다 좋은 피드백 문서를 선택하기 위해서 중첩클러스터를 이용한 피드백문서의 재샘플링 기법을 제안한다. 주요 아이디어는 질의 중심적인 초기검색문서집합에 대해서 중첩이 허용된 문서클러스터를 이용하여 문서들 사이의 관계를 반영하여 질의에 핵심역할을 하는 지배적 문서를 찾고, 이 문서들을 반복적으로 피드백 하여 질의가 내포하는 핵심 주제를 강조하는 것이다. 대규모 실험집합인 TREC GOV2와 WT10g에 대한 실험비교에서, 최근 잠정적 적합피드백 기법들 중에서 가장 좋은 성능을 보이고 있는 적합모델보다 재샘플링기법이 우수한 성능향상을 보였다. 제안기법에 대한 검증을 위해서 피드백문서에 포함된 적합문서의 정도를 나타내는 적합밀도를 측정하였다. 재샘플링 기법이 TREC 실험집합에 대해서 적합모델에 비해 높은 적합밀도를 보였고, 이 결과 적합피드백에서 검색성능을 향상시키게 되었다. 이는 제안 기법이 잠정적 적합피드백에서 유효한 방법임을 알 수 있다.

XML 트리의 노드와 레벨을 사용한 군집화 방법 (Clustering Technique Using a Node and Level of XML tree)

  • 김우생
    • 한국정보통신학회논문지
    • /
    • 제17권3호
    • /
    • pp.649-655
    • /
    • 2013
  • 최근 들어 인터넷에서 많이 사용되는 XML 문서들을 효율적으로 접근, 질의, 관리하는 방법들이 연구되고 있다. 본 논문은 XML 문서들을 효율적으로 군집화 하는 새로운 기법을 제안한다. XML 문서의 원소는 대응하는 트리의 노드에 대응하며, 문서에서의 내포 관계는 대응하는 트리의 레벨 관계에 대응한다. 따라서 유사한 XML 문서들은 대응하는 트리들에서 노드의 이름과 레벨이 유사하다. 본 논문에서는 XML 문서의 특징으로 대응하는 트리의 노드 이름과 레벨을 사용하여 군집화를 수행하였다. 제안하는 기법이 좋은 결과를 얻을 수 있음을 실험을 통하여 보였다.

Support Vector Machine을 이용한 온라인 리뷰의 용어기반 감성분류모형 (Terms Based Sentiment Classification for Online Review Using Support Vector Machine)

  • 이태원;홍태호
    • 경영정보학연구
    • /
    • 제17권1호
    • /
    • pp.49-64
    • /
    • 2015
  • SNS의 확산으로 온라인 상점에서는 상품에 대한 주관적인 의견이 내포되어 있는 고객리뷰 정보가 빠르게 생성되고 확산되어 다른 고객들에게 큰 영향을 미치고 있다. 이와 더불어, 고객들의 긍정적 또는 부정적 의견을 분석하여 개선방안을 모색하려는 오피니언마이닝(opinion mining)이 주목 받고 있다. 고객리뷰에 내포된 감성정보를 가진 용어들은 감성분류를 하는데 가장 중요한 역할을 하기 때문에 영향력이 높은 용어를 선별하는 것이 가장 중요하다. 본 연구에서는 품사태깅을 이용하여 최적의 용어들을 선별하고 용어정보에 기반한 문서수준에서의 감성분류모형을 제안하고자 한다. 고객리뷰의 감성분류모형에 대표적인 기계학습기법인 SVM을 적용하고, SVM의 입력변수 선정과정에 품사태깅 방식과 용어추출기법을 다르게 조합하고 사용하여 긍정적/부정적 문서를 분류하였다. 본 연구에서 제안한 감성분류모형의 성과를 검증하기 위해 아마존(Amazon.com)의 영화와 도서에 대한 고객리뷰 80,000개를 수집하여 불필요한 용어들을 제거한 후 품사태깅을 통해 용어를 추출하였다. 추출된 용어는 문서빈도, TF-IDF, 정보획득량, 카이제곱 통계량의 값을 산출하여 값을 통해 용어들을 순위화하고, 각 상위 20개에 해당하는 최적의 용어를 선정한 후 SVM을 이용하였다. 제안된 감성분류모형을 통해 기존 연구에서 언급한 형용사만을 사용한 예측변수와 4품사를 사용한 예측변수에서의 실험결과를 통해 비교 분석하였다. 카이제곱 통계량 기반의 감성분류모형이 다른 모형보다 예측성과가 가장 우수하게 나타나는 것을 확인할 수 있었다. 본 연구에서 제안된 문서수준에서의 용어기반 감성분류모형을 이용함으로써 온라인 상점에서의 서비스 개선과 경쟁력 확보에 많은 도움이 될 것으로 기대된다.

통합형 ebXML 문서 편집 시스템의 설계 및 구현 (Design and Implementation of Integration ebXML Document Editing System)

  • 임지훈;김창수;정회경;오수영;정문영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (A)
    • /
    • pp.364-366
    • /
    • 2002
  • 인터넷/웹 비즈니스의 확산과 더불어, 기업간(B2B) 거래 처리에도 혁명적인 변화가 일어나고 있다. 그러나, 이러한 변화의 이면에는 해결해야 할 많은 기술적인 제약이 내포되어 있다. 무엇보다도, 전자적인 기업간 거래처리를 위해서는 컴퓨터 시스템간에 구조화된 정보를 교환할 수 있도록 공통의 언어가 제공되어야 한다. 이런 공동의 민어에 대한 문제를 해결하기 위해서 UN/CEFACT와 OASIS에서는 XML(extensible Markup Language)을 기반으로 한 ebXML(electronic business XML)을 차세대 e-비즈니스의 표준으로 제정하고 공동 개발하기로 함에 따라 전서계 단일 전자상거래시장 구축이 XML기반으로 이루어 질 수 있게 되었다. 이에 본 논문에서는 ebXML 도큐먼트 편집을 위해 XML을 기반으로 한 e-business 문서 생성을 위한 XML 편집기, XML DTD 생성기, XML Schema를 작성하기 위한 Schema 편집기 등의 통합 ebXML문서 편집 시스템을 설계 및 구현 하였다.

  • PDF

선박 ECDIS의 올바른 사용을 위한 지침 분석

  • 이보경;김대해;조익순
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2016년도 춘계학술대회
    • /
    • pp.64-66
    • /
    • 2016
  • 국제항해에 종사하는 500GT 이상의 상선에서는 SOLAS에 의해 2012년부터 ECDIS 사용이 강제화 됨에 따라 선박에서는 기존의 종이해도 대신 전자해도를 가지고 항해해야하는 극적인 변화를 맞이하였다. ECDIS는 H/W, S/W, data가 어우러진 복합전자장비로서 안전항해를 위해서는 ECDIS에서 제공받는 데이터의 신뢰성, 시스템 안전성을 확보하고 ECDIS에 대한 사용자의 올바른 이해와 숙련이 매우 중요하다. 하지만 선박에 새로운 항해 장비가 등장함으로서 예측하지 못한 다양한 문제가 식별되었고 또다른 문제가 추가적으로 발견될 수 있는 위험성을 내포하고 있다. 이러한 문제점을 보완하고 ECDIS 장비의 안정적인 선박 도입이 진행되도록 IMO에서는 식별된 ECDIS의 이상현상과 주의사항에 대한 회람문서가 하나의 통합된 문서로 발행되었다. 이 연구에서는ECDIS의 올바른 사용을 위해서 2015년 발행된 통합 ECDIS 회람문서 'ECDIS-Good Practice'를 바탕으로 선박에서 ECDIS를 안정적으로 사용하고 받아들일 수 있는 방법에 대해서 분석하였다.

  • PDF

유전자 알고리즘을 통한 XML 군집화 방법 (XML Clustering Technique by Genetic Algorithm)

  • 김우생
    • 전자공학회논문지CI
    • /
    • 제49권3호
    • /
    • pp.1-7
    • /
    • 2012
  • 최근 들어 인터넷에서 많이 사용되는XML 문서들을 효율적으로 접근, 질의, 관리하는 방법들이 연구되고 있다. 본 논문은 XML 문서들을 효율적으로 군집화 하는 새로운 기법을 제안한다. XML 문서의 원소는 대응하는 트리의 노드에 대응하며, 문서에서 내포 관계는 트리의 부모와 자식 노드간의 관계에 대응한다. 따라서 유사한 XML 문서들은 대응하는 트리들에서 노드의 이름과 레벨 등이 유사하다. 이러한 성질을 유전 알고리즘의 평가 함수로 만들어 군집화를 시도하였다. 실험 결과를 통하여 제안하는 기법이 기존 방법들보다 좋은 결과를 얻을 수 있음을 보였다.

SGML(Standardized Genernal Markup Language)에 대한 기본 파서의 구현 (Implementation of SGML Basic Parser)

  • 홍은선;정회경;이수연
    • 한국통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.495-508
    • /
    • 1992
  • 이 논문은 SGML(Standardized General Markup Larguage)을 적용하여 작성된 SGML 문서와 DTD(Document Type Definition)를 분석하는 SGML파서(parser)의 설계를 기술한다. 먼저 SGML 규칙을 내포하는 yacc 정의 파일을 구성하였고, 이 파일에 의하여 SGML DTD와 문서를 적합한 토큰(token)으로 파싱하였다. 이 토근으로 SGML문서의 논리적 구조를 내부 구조화하고, 엔터티(entity)테이블(table),엘리먼트(element)테이블등을 생성하여 데이터베이스(database)를 구축하였으며,이를 이용하여 속성값 입력등의 다음 단계처리에 이용 할 수 있게 하였다. 또한 이 파서는 소규모 참조를 변화하여 확장하는 기능도 갖는다. 이 파서에 몇몇 SGML문서를 시험 적용하여 바르게 시행됨을 확인하였다.

  • PDF

XML의 RDF 변환과 저장 및 질의 처리에 관한 연구 (The Study of Storing and Query Processing Strategy based on Transition of XML to RDF)

  • 김연희;김병곤;이재호;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.154-156
    • /
    • 2003
  • 웹 상의 데이터 표현 및 교환의 표준으로 각광받는 XML은 논리적 구조와 내용 정보를 이용하여 보다 정확한 검색이 가능하다. 그러나 더욱 빠른 속도로 증가하는 많은 양의 데이터에 대해 보다 정확하고 풍부한 검색을 하기 위해서 메타데이터를 활용하는 방법이 고려되었고, RDF와 같은 메타데이터 기술 언어들에 대한 연구가 많이 이루어지고 있다. RDF는 XML의 문법 구조를 이용하여 작성되므로 XML 문서를 RDF 형태로 작성한다던가, 약간의 수정을 통해 기존 XML 문서를 RDF 형태로 변환하는 것이 가능하다. XML의 RDF 변환은 여러 이점 때문에 앞으로 활성화될 가능성이 크기 때문에 RDF의 특성을 고려한 저장 및 검색에 대한 연구가 필요하다. 따라서 본 논문에서는 XML을 기본적인 RDF 형태로 변환하는 기본적인 규칙을 소개하고 변환된 RDF 문서를 위한 저장 구조를 제안한다. 제안한 저장 구조는 기존 웹 애플리케이션과의 쉬운 연동을 위하여 관계형 데이터베이스를 기반으로 구성되며, 리소스/속성/값의 RDF 기본 구조를 고려한 세 종류의 테이블로 구성된다. 또한 본 논문에서는 RDF 문서에 대한 키워드 질의 처리를 고려하여, 질의 처리 결과의 단위를 리소스로 정의한다. 그리고 주어진 키워드들에 대한 질의 처리 결과로 반환된 리소스들 간의 중요도를 평가하기 위하여 키워드간의 근접도, 키워드 내포 정도, 다양한 속성 관계를 맺고 있는 다른 리소스들을 고려한 랭킹 평가 기법을 제안한다.

  • PDF

유해어 필터링과 SVM을 이용한 유해 문서 분류 시스템 (Harmful Document Classification Using the Harmful Word Filtering and SVM)

  • 이원휘;정성종;안동언
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.85-92
    • /
    • 2009
  • 오늘날 웹이 일반화되면서 사람들은 원하는 정보를 웹을 통해 얻고, 또한 제공하고 있다. 웹이 다양한 정보의 제공과 습득의 장이라는 편의성을 제공하고 있지만, 반면에 너무 많은 정보, 무분별한 유해 정보의 범람 등 여러 가지 문제를 내포하고 있다. 현재 유해 웹 문서를 분류하기 위한 다양한 방법이 연구되고 사용되고 있다. 그러나 각각의 방법들이 갖는 단점들로 인해 획기적인 성과를 내지 못하고 있다. 본 논문에서는 유해 정보로부터 사회적으로 보호를 받아야 할 사용자들을 보호하기 위한 수단으로 유해 웹 문서 차단 방법에 대해 제안하고자 한다. 본 논문에서는 키워드 필터링과 SVM 알고리즘을 이용한 2단계 분류 과정을 통해 분류의 정확률을 높이고자 하였다.

퍼지추론을 이용한 소수 문서의 대표 키워드 추출 (Representative Keyword Extraction from Few Documents through Fuzzy Inference)

  • 노순억;김병만;허남철
    • 한국지능시스템학회논문지
    • /
    • 제11권9호
    • /
    • pp.837-843
    • /
    • 2001
  • 본 논문은 사용자의 관심 내용을 포함하는 소수 문서들로부터 대표 용어들을 추출하고 가중치를 부여하는 새로운 방법을 제시한다. 대표 용어들의 추출 방법에서는 우선 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 초기 대표 용어들을 선택한 수 예제 문서 내에서의 이들 용어들과 후보 용어들의 발생 빈도의 유사성을 이용하여 가중치를 재산정하고 대표 용어들을 자동 확장하였다. 제안 방법의 성능은 초기 대표 용어들을 선책하는 방법에 의해 영향을 크게 받는다. 따라서 문서집합에서 대표 용어를 추출하는 문제는 불확실성을 내포하고 있으므로 이러한 문제 해결에 효과적인 퍼지 추론을 초기 대표 용어의 선택 방법에 적용하였다. 본 논문에서 다루는 문제는 문서 집합의 중심 벡터를 계산하는 것으로 볼 수가 있다. 성능 평가를 위해 기존의 대표적인 Rocchio 알고리즘과 Widrow-Hoff 알고리즘과의 문서 분류 실험을 하였다. 실험 결과 우수한 성능을 보여줌으로서 제안 방법의 유용성을 확인 할 수 있었다.

  • PDF