• 제목/요약/키워드: document topic

검색결과 190건 처리시간 0.029초

웹 문서로부터 논리적 구조 추출 (Extracting Logical Structure from Web Documents)

  • 이민형;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1354-1369
    • /
    • 2004
  • 본 논문에서는 웹 문서를 XML 문서로 변환하기 위한 논리적 구조분석 방법을 제안한다. 제안된 방법은 비주얼 그룹화, 요소 식별, 그리고 논리적 그룹화의 세 단계로 구성된다. 특히 정교한 수준의 논리적 구조분석을 지원하기 위하여 특정 주제에 속하는 문서 유형의 논리적 계층 구조를 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법은 비주얼 그룹화를 통해서 추출된 시각적 계층구조와 문서 유형에 대한 논리적 구조 정보를 기술한 문서 모델에 기반하기 때문에 보다 정교한 수준의 구조 분석을 지원한다. 제안된 방법의 성능을 평가하기 위하여 웹으로부터 추출한 다수의 HTML 문서를 대상으로 실험한 결과, 기존 연구와 비교하여 논리적 구조분석을 성공적으로 수행하였다. 제안된 방법은 논리적 구조분석의 최종 결과로서 XML문서를 생성하기 때문에 문서의 재 사용성을 높인다.

  • PDF

가상문서를 XTM 문서로 변환해 주는 자동변환시스템 설계 및 구현 (Design and Implementation of an Automatic Translator for Converting a Virtual Document to a XTM Document)

  • 윤여준;조숙현;김태현;맹성현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1131-1134
    • /
    • 2001
  • 가상문서 개념에 기반을 둔 디지털도서관에서는 기존의 멀티미디어 문서를 활용하여 새로운 view를 생성하고 지식을 창출할 수 있는 기능을 제공한다. 이 접근 방법의 초점은 링크를 사용하여 기존의 자원을 연결하여 가상문서를 생성하고 필요한때 필요한 부분만 가져다가 통합하여 재현시킬 수 있는 기능과 이렇게 생성된 가상문서를 총체적으로 혹은 부분적으로 검색할 수 있다는 것이다. 반면에 W3C에서는 Topic Maps라는 개념을 표준안으로 하였는데, 이 개념은 근본 취지에 있어 가상문서의 개념과 매우 유사하나 문서를 끌어서 통합하는 기능이나 부분문서를 가져오는 기능 등이 없다. 여기서도 기존 문서에 링크를 걸어 사용자가 원하는 토픽이 연결될 수 있도록 하는 기능을 규정하고 있는데, 지식 표현 및 추론 등 다양한 응용에 관한 연구가 진행되어 오고 있다. 따라서 본 연구에서는 충남대학교에서 개발한 가상문서 기반 디지털도서관 개념에 이 Topic Maps 기능을 연결하여 호환성을 제공하는 것을 목표로 한다. 이러한 호환성은 디지털도서관 분야에서의 핵심 이슈이며, 실용적인 관점에서 가상문서 기반 디지털도서관의 가용성을 향상시켜 궁극적으로 외부 시스템과도 연계될 수 있는 기반을 제공할 것이다.

  • PDF

태그 기반 토픽맵 생성 시스템의 설계 및 구현 (Design and Implementation of Topic Map Generation System based Tag)

  • 이시화;이만형;황대훈
    • 한국멀티미디어학회논문지
    • /
    • 제13권5호
    • /
    • pp.730-739
    • /
    • 2010
  • 웹2.0환경에서의 핵심적인 기술은 태깅이며, 현재 블로그와 같은 웹 문서에서부터 이미지, 동영상 등과 같은 멀티미디어 데이터에 이르기까지 폭넓게 적용되고 있다. 그러나 태깅에 사용된 태그가 정보 검색에 재사용되어 검색의 효율성을 극대화 시킬 것이라는 기대와는 달리 실제로는 태그가 가지는 근본적인 한계들로 인해 만족스럽지 못한 검색결과가 나타나고 있다. 이에 본 연구에서는 태그 클러스터링을 통한 이미지 검색에 대한 선행연구를 기반으로 의미론적 지식체계인 토픽맵 생성 시스템을 설계 및 구현하였다. 구현 결과 클러스터 내의 태그 정보들은 토픽맵에서의 토픽으로 자동 생성되었으며, 생성된 토픽맵의 토픽들 간에는 WordNet을 적용하여 의미연관관계를 부여하였다. 또한 토픽 쌍에 적합한 어커런스 정보들을 추출하여 토픽들에 부여함으로서 의미론적 지식체계인 토픽맵을 생성하였다. 이와 같이 생성된 토픽맵은 사용자의 정보검색 요구에 대한 시맨틱 내비게이션의 제공을 가능하게 할 뿐만 아니라 풍부한 정보제공이 가능하다.

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.

문장군집의 응집도와 의미특징을 이용한 포괄적 문서요약 (Generic Document Summarization using Coherence of Sentence Cluster and Semantic Feature)

  • 박선;이연우;심천식;이성로
    • 한국정보통신학회논문지
    • /
    • 제16권12호
    • /
    • pp.2607-2613
    • /
    • 2012
  • 지식 기반의 포괄적 문서요약은 문장집합의 구성이 요약 결과에 영향을 받는다. 이러한 문제를 해결하기 위해서 본 논문은 의미특징에 의한 군집과 문장군집의 응집도를 이용하여 포괄적 문서요약을 하는 새로운 방법을 제안한다. 제안 방법은 비음수행렬분해에서 유도되는 의미특징을 이용하여 문장을 군집하고, 문서의 내부구조를 잘 표현하는 문장군집들로 문서의 주제 그룹을 분류할 수 있다. 또한 문장군집의 응집도와 재군집에 의한 군집의 정재를 이용하여 중요한 문장을 추출함으로써 요약의 질을 향상시킬 수 있다. 실험결과 제안방법은 다른 포괄적 문서요약 방법에 비하여 좋은 성능을 보인다.

영어 작문 자동채점에서 ConceptNet과 작문 프롬프트를 이용한 주제-이탈 문서의 자동 검출 (Automatic Detection of Off-topic Documents using ConceptNet and Essay Prompt in Automated English Essay Scoring)

  • 이공주;이경호
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1522-1534
    • /
    • 2015
  • 본 연구에서는 미리 구축해 놓은 학습데이터 없이도 입력된 작문이 주어진 작문 주제에 적합한 내용인지 아닌지를 자동으로 판단할 수 있는 방법을 제안한다. ConceptNet은 다양한 종류의 문서에서 추출한 자연언어 문장들로부터 구축된 그래프 형태의 지식베이스이다. 본 연구에서는 작문 주제에 해당하는 작문 프롬프트(essay prompt)와 ConceptNet만을 이용하여 문서의 주제-이탈 여부를 판별하는 방법을 제안한다. ConceptNet에서 두 개념간의 최단 경로를 찾고 이에 대한 의미 유사도를 계산하는 방법을 제안한다. 이를 이용하여 작문 프롬프트와 수험생 작문 내용을 ConceptNet의 개념들로 매핑하고 이 개념들 사이의 의미 유사도를 계산하여 작문 프롬프트와 수험생 작문 사이의 주제 부합 여부를 판단한다. 8개의 작문 시험을 수행하여 얻은 수험생 작문 데이터에 대하여 평가를 수행한 결과 기존의 연구에 비해 좋은 성능을 얻을 수 있었다. ConceptNet을 활용하면 유의미한 단순 추론이 가능하기 때문에 본 연구에서 제안한 방법은 추론을 요하는 작문 문제에도 적용 가능함을 보였다.

퍼지이론을 이용한 자동문서 요약 기술 (Automatic Document Summary Technique Using Fuzzy Theory)

  • 이상훈;문승진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권12호
    • /
    • pp.531-536
    • /
    • 2014
  • 인터넷에서 사용 가능한 수많은 정보로 인해서 대용량의 문서를 다루는 기술은 점차 그 필요성이 증가되어 왔지만, 효과적으로 문서 내 정보를 처리하기 위한 기술의 문제는 여전히 풀어야 할 과제로 남아 있다. 자동문서 요약 기술은 문서 내 중요한 부분을 유지하고, 중복된 내용을 제거함으로써 이러한 대용량의 문서를 처리하는 데 중요한 방법으로 인식되어 왔다. 본 논문에서는 이러한 요약문을 만들 때 중요도를 결정하는 문제를 해결하기 위해서 퍼지 이론을 이용한 문서 요약 기술을 제안한다. 제안된 요약 기술은 중요도를 결정하는 여러 특징들의 애매모호한 문제를 해결하고, 그 실험결과는 기존의 다른 방법과 비교해서 전반적으로 높은 결과를 보인다.

군집과 위키피디아를 이용한 문서군집 (Document Clustering using Clustering and Wikipedi)

  • 박선;이성호;박희만;김원주;김동진;산드라 아벨;이성로
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.392-393
    • /
    • 2012
  • 본 논문은 군집과 위키피디아(Wikipedia)를 이용하여 문서를 군집하는 새로운 방법을 제안한다. 제안된 방법은 비음수행렬분해를 이용하여 군집을 대표할 수 있는 군집 주제(topic)의 개념을 잘 표현할 수 있으며, 위키피디아의 동음이의어를 사용함으로써 문서와 군집 간의 의미관계를 고려하지 않는 용어집합(bag-of-words) 문제를 해결할 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

  • PDF

국가R&D정보에 대한 온톨로지 기반 지식맵 서비스 (Knowledge Map Service based on Ontology of Nation R&D Information)

  • 김선태;이원구
    • 디지털융복합연구
    • /
    • 제14권3호
    • /
    • pp.251-260
    • /
    • 2016
  • 과학기술 및 R&D 연구자는 선행 연구와 그 개발 결과에 대해 조사 분석하는데 많은 시간을 소비한다. 그리고 최근에는 효과적인 정보검색을 위해 시맨틱 웹을 비롯한 다양한 검색기술을 제공하고 있으며, 특히 온톨로지를 이용한 검색기술은 가장 효과적인 방법으로 알려져 있다. 이에, 본 연구는 국가 R&D정보(사업 및 과제정보), 그 사업 및 과제 수행을 통한 성과물(논문, 특허, 보고서, 기술이전 정보 등), 그리고 사업 및 과제와 연관된 정보(동향, 연구자, 용어 정보 등)를 연계하여 지식베이스(RDF-Triple)를 모델링하고, 이를 지식맵 서비스로 구현하여 연구자에게 국가 R&D정보를 한 눈에, 한 곳에서 국가 R&D정보를 살펴볼 수 있게 하는 것이다. 이를 통해, 정책가(정책입안자)에게는 R&D 전략 수립 과정 및 의사 결정을 지원할 수 있으며, 연구자에게는 선행 연구에 대한 조사 분석 시간 단축 및 새로운 연구 주제를 도출할 수 있는 기회를 제공할 수 있다.

토픽 모델링을 활용한 한의원 리뷰 분석과 마케팅 제언 (Reviews Analysis of Korean Clinics Using LDA Topic Modeling)

  • 김초명;조아람;김양균
    • 대한한의학회지
    • /
    • 제43권1호
    • /
    • pp.73-86
    • /
    • 2022
  • Objectives: In the health care industry, the influence of online reviews is growing. As medical services are provided mainly by providers, those services have been managed by hospitals and clinics. However, direct promotions of medical services by providers are legally forbidden. Due to this reason, consumers, like patients and clients, search a lot of reviews on the Internet to get any information about hospitals, treatments, prices, etc. It can be determined that online reviews indicate the quality of hospitals, and that analysis should be done for sustainable hospital marketing. Method: Using a Python-based crawler, we collected reviews, written by real patients, who had experienced Korean medicine, about more than 14,000 reviews. To extract the most representative words, reviews were divided by positive and negative; after that reviews were pre-processed to get only nouns and adjectives to get TF(Term Frequency), DF(Document Frequency), and TF-IDF(Term Frequency - Inverse Document Frequency). Finally, to get some topics about reviews, aggregations of extracted words were analyzed by using LDA(Latent Dirichlet Allocation) methods. To avoid overlap, the number of topics is set by Davis visualization. Results and Conclusions: 6 and 3 topics extracted in each positive/negative review, analyzed by LDA Topic Model. The main factors, consisting of topics were 1) Response to patients and customers. 2) Customized treatment (consultation) and management. 3) Hospital/Clinic's environments.