• 제목/요약/키워드: 문서구조추출

검색결과 334건 처리시간 0.03초

XML 문서 검색을 위한 구조 기반 클러스터링 (Structure-based Clustering for XML Document Retrieval)

  • 황정희;류근호
    • 정보처리학회논문지D
    • /
    • 제11D권7호
    • /
    • pp.1357-1366
    • /
    • 2004
  • 웹에서 효율적인 정보 관리와 데이터 교환을 위해 XML의 중요성이 증가함에 따라 XML의 구조 통합과 구조 검색에 대한 연구가 진행되고 있다. 구조가 정의되어 있는 XML 문서의 구조 검색은 스키마 또는 DTD를 통해 가능하다 그러나 DTD나 스키마가 정의되어 있지 않은 XML 문서에 대한 검색은 기존의 검색 방법을 적용할 수 없다. 그러므로 이 논문에서는 구조 정보가 주어지지 않은 많은 양의 XML 문서를 대상으로 구조를 빠르게 검색하기 위한 기반 연구로써 새로운 클러스터링 기법을 제안한다. 먼저 각 문서로부터 빈발한 구조의 특성을 추출한다. 그리고 추출된 빈발 구조를 문서의 대표 구조로 하여 유사 구조기반의 클러스터링을 수행한다. 이것은 서로 다른 구조의 전체 문서를 대상으로 검색하는 것보다 신속하게 구조 검색을 할 수 있도록 한다. 또한 유사한 구조들로 그룹화되어 있는 클러스터들을 기반으로 XML 문서에 대한 구조 검색을 수행한다. 아울러 구조 검색의 적용 방법을 기술하고, 그에 대한 결과의 예를 보여 제안 기법의 효율성을 증명한다.

XML 문서의 DTD를 이용한 릴레이션 스키마 추출 기법 (A Relational Schema Extracting Technique Using DTD XML in Documents)

  • 안성은;최황규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.105-108
    • /
    • 2002
  • XML은 웹 상에서 데이터를 표현하고 교환하기 위한 표준으로 등장하고 있다. 최근에 웹 상에서 다루어지는 데이터의 양이 급격하게 증가함에 따라 XML 문서들간의 의미적 구조적 관계를 설정하는 스키마를 추출하여 그에 따라 데이터를 구조화시켜 정보로써의 가치를 만들 수 있는 새로운 저장 기법들이 필요하다. 본 논문에서는 XML 문서의 DTD를 이용하여 동일한 DTD를 사용하는 XML 문서들의 공통구조를 추출하여 관계 데이터베이스 시스템에 XML 문서를 저장하기 위한 릴레이션 스키마 추출 기법을 제안하였다. 제안된 기법은 성능비교에서 기존의 방법에 비하여 생성되는 릴레이션의 수가 적고 릴레이션 생성 시 발생하는 널 값의 출현을 감소시킬 수 있다.

  • PDF

텍스트 이해 모델에 기반한 정보 검색 시스템 (Text Undestanding System for Summarization)

  • 송인석;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

문서의 의미론적 분석에 기반한 키워드 추출에 관한 연구 (A Study on Keywords Extraction based on Semantic Analysis of Document)

  • 송민규;배일주;이수홍;박지형
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.586-591
    • /
    • 2007
  • 지식 관리 시스템, 정보 검색 시스템, 그리고 전자 도서관 시스템 등의 문서를 다루는 시스템에서는 문서의 구조화 및 문서의 저장이 필요하다. 문서에 담겨있는 정보를 추출하기 위해 가장 우선시되어야 하는 것은 키워드의 선별이다. 기존 연구에서 가장 널리 사용된 알고리즘은 단어의 사용 빈도를 체크하는 TF(Term Frequency)와 IDF(Inverted Document Frequency)를 활용하는 TF-IDF 방법이다. 그러나 TF-IDF 방법은 문서의 의미를 반영하지 못하는 한계가 존재한다. 이를 보완하기 위하여 본 연구에서는 세 가지 방법을 활용한다. 첫 번째는 문헌 속에서의 단어의 위치 및 서론, 결론 등의 특정 부분에 사용된 단어의 활용도를 체크하는 문헌구조적 기법이고, 두 번째는 강조 표현, 비교 표현 등의 특정 사용 문구를 통제 어휘로 지정하여 활용하는 방법이다. 마지막으로 어휘의 사전적 의미를 분석하여 이를 메타데이터로 활용하는 방법인 언어학적 기법이 해당된다. 이를 통하여 키워드 추출 과정에서 문서의 의미 분석도 수행하여 키워드 추출의 효율을 높일 수 있다.

  • PDF

구조분석 에이전트를 사용한 웹사이트의 평가 (Web Site Evaluation Using Structure Analysis Agents)

  • 정윤경;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.143-145
    • /
    • 2000
  • 인터넷이 보편화되면서 그에 따른 정보량도 급증하고 있다. 웹문서량이 많아짐에 따라 웹문서를 구조를 이용하여 저장, 분석하는 연구가 활발히 이루어지고 있다. 본 논문에서는 웹사이트를 사용자가 평가하기 위해 계층적인 웹문서들의 관계를 사이트맵으로 구성하며 웹문서 내의 계층구조를 추출, 저장하고 그래픽적으로 표시하였다. 이를 위해 웹문서 내의 계층구조를 위해 W3기관의 공용으로 사용되는 Tidy 라이브러리를 이용하여 URL에 대한 HTML 문서를 얻고 이를 XML로 변환하였다. 변환된 XML 결과로 이진트리를 구성하고 계층구조를 표현하였다. 웹문서들의 사이트맵은 그래프형식과 계층구조형식으로 표현했는데 그래프형식을 이용하여 사이트맵의 연결구조를 파악할 수 있게 하였으며, 계층구조를 이용하여 웹문서간의 계층구조에 따른 정보를 얻을 수 있었다. 사이트맵을 구성하기 위해 URL들의 구조를 인접리스트로 저장하였으며, 방향성 그래프형식을 이용하였다. 또한 웹문서 구조를 계층적으로 구성하기 위해 웹문서의 그래프형식에 대해 BFS(Breadth First Search)방식을 이용했다. 또한 계층적 사이트맵을 이용한 평가항목을 이용하여 증권사이트에 대해 실험하였다. 실험을 통해 본 시스템이 웹사이트 평가에 유용성함을 입증하였다.

  • PDF

BRS/Search 시스템을 이용한 XML 문서 검색시스템 설계 및 구현 (Design and Implementation of a XML Document Retrieval System Using the BRS/Search System)

  • 손충범;이병엽;유재수
    • 인터넷정보학회논문지
    • /
    • 제2권2호
    • /
    • pp.51-63
    • /
    • 2001
  • 본 논문에서는 상용 검색 엔진인 BRS/Search 시스템을 이용하여 XML문서에 대한 구조 기반 검색이 가능하도록 XML문서 검색시스템을 설계하고 구현한다. 본 논문에서 구현한 시스템은 XML문서의 논리적인 구조를 Unix 파일시스템의 디렉토리 구조로 표현한다. 이렇게 표현된 XML 문서를 BRS/Search 시스템의 데이터베이스에 정보의 손실 없이 저장하기 위해 데이터베이스 스키마를 정의하고 내용 검색뿐만 아니라, 구조 검색, 혼합 검색, 애트리뷰트 검색이 가능하도록 BRS/search 시스템에 부가적으로 필요한 ETID 추출기, 구조정보 추출기, 저장 관리기, 질의 처리기를 설계하고 구현한다.

  • PDF

TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약 (Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks)

  • 정석원;이현구;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-50
    • /
    • 2017
  • 문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.

  • PDF

TextRank 알고리즘과 주의 집중 순환 신경망을 이용한 하이브리드 문서 요약 (Hybrid Document Summarization using a TextRank Algorithm and an Attentive Recurrent Neural Networks)

  • 정석원;이현구;김학수
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.47-50
    • /
    • 2017
  • 문서 요약은 입력 문서가 가진 주제를 유지하면서 크기가 축약된 새로운 문서를 생성하는 것이다. 문서 요약의 방법론은 크게 추출 요약과 추상 요약으로 구분된다. 추출 요약의 경우 결과가 문서 전체를 충분히 대표하지 못하거나 문장들 간의 호응이 떨어지는 문제점이 있다. 최근에는 순환 신경망 구조의 모델을 이용한 추상 요약이 활발히 연구되고 있으나, 이러한 방법은 입력이 길어지는 경우 정보가 누락된다는 문제점을 가지고 있다. 본 논문에서는 이러한 단점들을 해소하기 위해 추출 요약으로 입력 문서의 중요한 일부 문장들을 선별하고 이를 추상 요약의 입력으로 사용했을 때의 성능 변화를 관찰한다. 추출 요약을 통해 원문 대비 30%까지 문서를 요약한 후 요약을 생성했을 때, ROUGE-1 0.2802, ROUGE-2 0.1294, ROUGE-L 0.3254의 성능을 보였다.

  • PDF

메타 검색엔진을 위한 HTML 문서 변경 탐지기의 설계 및 구현 (Design and Implementation of an HTML Pages Modification Detector for Meta-search Engines)

  • 박상위;오정석;이상호
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.345-354
    • /
    • 2002
  • 검색엔진의 HTML문서는 수시로 변경되고 있으며, 이는 각 검색엔진의 결과 문서를 통합하여 사용자에게 제공하는 메타 검색엔진의 기능을 저하시키는 요인이 된다. 이에 대한 해결방법으로 본 논문에서는 HTML 문서의 변경을 탐지하는 HTML문서 변경 탐지기를 설계하고 구현한다. 문서 변경 탐지기는 문서 구조를 추출하기 위해 위치 정보 알고리즘과 수정된 Jaak Vilo 알고리즘을 사용하고, 그 결과로 패턴을 추출한다. 문서 변경 탐지기는 HTML문서에서 반복적으로 출현하는 구조를 표현하는 패턴을 사용한다. 또한, 문서 변경 탐지기의 정확성을 측정하기 위하여 문서 변경에 대한 전략을 세우고 이를 기반으로 실험을 수행한다.

엔지니어링 문서의 문장 자동 계층정의 방법론 (A Methodology for Automatic Hierarchy Definition of Sentences in Engineering Documents)

  • 박상일;김봉근;김경환;이상호
    • 한국전산구조공학회논문집
    • /
    • 제22권4호
    • /
    • pp.323-330
    • /
    • 2009
  • 본 논문은 엔지니어링 문서에서 각 제목의 머리기호가 그 문서의 논리적 계층 구조를 표현한다는 점을 이용하여 문서 내 각 제목의 계층을 자동으로 분류하는 방법론을 제시하였다. 제시한 방법론은 일반 텍스트 문서에서 세부 제목을 추출하는 방법과 추출된 제목의 계층을 정의하는 방법으로 구성된다. 문서의 세부 제목은 문장의 맨 앞에 위치한 머리기호의 형태를 미리 정의된 머리기호 그룹과 비교하여 추출하며, 추출된 제목의 계층은 머리기호 형태의 변화에 따라 각 제목간의 상대적 위치를 파악함으로써 정한다. 제시된 방법론을 이용하여 일반 텍스트 문서를 세부 제목에 따라 구조화된 XML 문서로 변환하는 시범 모듈을 개발하였으며, 20개의 엔지니어링 문서를 대상으로 그 성능을 분석하였다.