• 제목/요약/키워드: 웹 문서 장르 분류

검색결과 5건 처리시간 0.027초

STW를 이용한 웹 문서 장르 분류에 관한 연구 (A Research for Web Documents Genre Classification using STW)

  • 고병규;오군석;김판구
    • 정보화연구
    • /
    • 제9권4호
    • /
    • pp.413-422
    • /
    • 2012
  • 웹 문서의 지속적인 증가로 인해 텍스트 기반, Page Rank 등의 방법으로 한 연구들이 증가하고 있다. 특히 웹 문서 내 URL 정보, HTML Tag 정보 등을 활용하는 연구들이 다시 주목을 받고 있다. 따라서 웹 문서 장르 분류를 위해 앞서 언급한 웹 문서 내 특징 요소들을 바탕으로 본 논문에서는 STW(Semantic Term Weight)를 적용하여 웹 문서 장르 분류하는 연구를 기술한다. 웹 문서 장르 분류에 사용되는 데이터 셋은 학습 문서와 테스트 문서로 구성되고, SVM 알고리즘을 사용하여 웹 문서 분류 실험을 수행한다. 학습 과정을 위해 20-Genre-collection corpus 내 1,000여개의 문서를 선정하여 SVM 알고리즘을 통해 학습하였고, 테스트 과정에서 사용된 데이터 셋은 KI-04 corpus를 사용하였다. 테스트 과정 후 STW를 사용한 실험과 STW를 사용하지 않은 실험으로 분류하여 정확도를 측정하였다. 또한 이를 바탕으로 1,212개의 테스트 문서를 분류하였다. 그 결과 STW를 사용한 실험 이 그렇지 않은 실험 보다 약 10.2% 높은 정확도를 보였다.

스타일에 따른 웹 문서의 자동 분류 (Automatic Classification of Web documents According to their Styles)

  • 이공주;임철수;김재훈
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.555-562
    • /
    • 2004
  • 스타일 또는 장르는 문서의 주제와는 다른 문서를 보는 또 하나의 관점이 될 수 있다. 그렇기 때문에 문서의 스타일은 문서 분류의 기준으로 사용될 수 있다. 문서의 스타일에 따른 자동 분류 시스템에 대한 여러 연구들이 수행되어 왔다. 그러나 이런 연구들의 대부분이 일반 문서를 대상으로 수행하였으며, 몇몇 일부의 연구만이 웹 문서를 대상으로 스타일 분류에 대한 연구를 수행하였다. 웹 문서는 일반 문서와는 달리 URL HTML을 갖고 있다. 본 연구에서는 이와 같은 URL과 HTML로부터 추출한 자질들을 웹 문서의 스타일 분류에 사용해 보고자 한다. 실험을 통해서 이와 같은 자질들이 웹 문서의 스타일 분류에 어떤 영향을 미치는지를 밝혀보고자 한다.

장르기반 분류와 주제기반 분류를 이용한 웹 로봇의 설계 및 구현 (A Design and Implementation of Web Robot by Using Genre-based Categorization and Subject-based Categorization)

  • 이용배
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.499-506
    • /
    • 2005
  • 특수 전문화된 정보를 자동으로 수집하기 위해서는 인터넷 상을 순회하면서 대규모 자료를 모아오는 현재의 웹 로봇의 기능만으로는 그 역할을 수행하기에 부족함이 있다 따라서 본 논문에서는 현재의 웹 로봇의 기능과 활용도를 분석하여 보고 전문정보를 수집하는데 있어서 한계점을 알아보았다 또한 특수화된 분야의 전문정보를 수집하기 위하여 웹 로봇인 갖추어야 할 기능들을 도출해 내고 이를 설계한 내용을 기술하였다. 웹 로봇에 접목된 주요기능은 문서를 유형기반으로 분류할 수 있는 장르기반 분류와 주제기반으로 분류하는 내용기반 분류이다. 특히 장르기반 분류는 웹 로봇이 목적 문서를 효과적으로 수집할 수 있도록 하는 주요 기능으로 작용하였다.

MPEG-7 기반 웹 이미지 색인 및 검색 (MPEG-7 Based Web Image Indexing and Searching)

  • 임재형;김문철;김진웅;현순주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.1285-1288
    • /
    • 2000
  • 인터넷의 양적 질적 성장을 통해 인터넷상에 존재하는 웹 문서의 숫자는 엄청난 속도로 증가하여 왔다. 이러한 방대한 웹 문서를 대상으로 한 검색 방법은, 지금까지 일반적으로 텍스트 기반의 방법이 주류를 이루어 왔다. 그러나 웹 문서는 멀티미디어 형태로 존재하며 텍스트, 이미지, 동영상, 컴퓨터 그래픽 둥 다양한 미디어들로 구성되어 있다. 본 논문에서는 인터넷에 존재하는 웹 문서를 대상으로 내용 기반 이미지 검색방법을 제시한다. 내용기반 웹 이미지 검색 시스템은 웹 상의 텍스트 기반의 기존 상용 검색엔진을 이용하여 주요 검색어에 대한 이미지를 수집하는 웹 이미지 수집기와 수집된 이미지에 대해 MPEG-7 비주얼 기술자를 이용하여 데이터베이스에 색인하는 데이터베이스 불리기(population), 그리고 내용 기반 이미지 검색엔진으로 구성된다. 사용자는 장르, 주제 및 주요단어에 의해 분류되어 데이터베이스에 색인된 웹 이미지를 대상으로 검색이 가능하다. 이는 웹 문서를 직접 대상으로 한 특정 단어에 대한 내용 기반 이미지 검색이 가능하며 검색이 데이터베이스를 대상으로 이루어지기 때문에 빠른 검색 속도를 얻을 수 있으며, 또한 기존 웹에서 제공되는 텍스트 기반의 상용 검색엔진을 이용하여 주요단어에 대한 웹 이미지를 수집하여 색인하기 때문에 별도의 텍스트 검색엔진 구현을 필요로 하지 않는다.

  • PDF

무용공연작품 의상을 위한 디지털 뮤지엄 아카이빙 구축 (A Study on Construction of Digital Museum Archiving Regarding Dance Costume)

  • 정유진;유지영;백현순
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권1호
    • /
    • pp.81-88
    • /
    • 2019
  • 본 연구는 무용공연의상에 대해 체계적으로 수집하고 분류하여 저장할 수 있는 디지털 뮤지엄 형식의 아카이빙을 구축함으로써 무용공연의상에 대한 인물이나 작품주제를 파악하고, 또 교육적으로 활용할 수 있도록 하고자 한 것이다. 먼저 이론적 배경으로 디지털 뮤지엄 아카이빙이 무엇인지를 서술하고, 연구내용으로 디지털 뮤지엄을 어떻게 만들 수 있는 지에 대해 구체적인 예를 들어 설계해 보았다. 그리고 이러한 아카이빙의 역할이나 효용성에 대해 가치를 논한 뒤 다음과 같은 결론을 내렸다. 아카이브란 텍스트 문서로 국한되어 있던 자료의 전반, 또는 자료의 저장 공간을 포괄적으로 의미하는 용어로 컴퓨터라는 가상공간에서 이루어지는 전시통합모델을 말한다. 따라서 무용공연작품의상을 디지털 뮤지엄으로 만든다면 무용공연작품의상이라는 웹상의 가상공간에 하우스를 만들고, 그 뮤지엄으로 들어가면 다시 대분류, 중분류, 소분류로 카테고리 창을 구분하였다. 대분류에서는 무용공연작품의 장르를 한국무용, 현대무용, 발레로 구분하고, 중분류에서는 안무가, 의상디자이너를 구분하여 들어갈 수 있게 하였으며, 소분류에서는 안무가나 의상디자이너의 기타자료인 신문, 방송 인터뷰, 공연사진, 프로그램 등을 보는 것으로 아카이빙 해 보았다. 이러한 디지털 뮤지엄의 가치로는 공간활용의 가치, 창작의 가치, 역사 문화적 가치, 다양한 교육프로그램으로 활용 가치, 디지털 뮤지엄 콘텐츠의 제공 및 이해의 가치, 쌍방 소통의 가치, 그리고 새로운 전시형태 프로그램 개발의 가치를 지닌다.