• 제목/요약/키워드: 다차원 텍스트 데이터베이스

검색결과 3건 처리시간 0.019초

다차원 텍스트 큐브를 이용한 호텔 리뷰 데이터의 다차원 키워드 검색 및 분석 (Multi-Dimensional Keyword Search and Analysis of Hotel Review Data Using Multi-Dimensional Text Cubes)

  • 김남수;이수안;조선화;김진호
    • 정보화연구
    • /
    • 제11권1호
    • /
    • pp.63-73
    • /
    • 2014
  • 웹의 발달로 텍스트 등으로 이루어진 비정형 데이터의 활용에 대한 관심이 높아지고 있다. 웹상에서 사용자들이 작성한 대부분의 비정형 데이터는 사용자의 주관이 담겨져 있어 이를 적절히 분석할 경우 사용자의 취향이나 주관적인 관점 등의 아주 유용한 정보를 얻을 수 있다. 이 논문에서는 이러한 비정형 텍스트 문서를 다양한 차원으로 분석하기 하는데 OLAP(온라인 분석 처리)의 다차원 데이터 큐브 기술을 활용한다. 다차원 데이터 큐브는 간단한 문자나 숫자 형태의 정형적인 데이터에 대해 다차원 분석하는데 널리 사용되었지만, 텍스트 문장으로 이루어진 비정형 데이터에 대해서는 활용되지 않았다. 이러한 텍스트 데이터베이스에 포함된 정보를 다차원으로 분석하기 위한 방법으로 텍스트 큐브 모델이 최근에 제안되었는데, 이 텍스트 큐브는 정보 검색에서 널리 사용하는 용어 빈도수(Term Frequency)와 역 인덱스(Inverted Index)를 측정값으로 이용하여 텍스트 데이터베이스에 대한 다차원 분석을 지원한다. 이 논문에서는 이러한 다차원 텍스트 큐브를 활용하여 실제 서비스되고 있는 호텔 정보 공유 사이트의 리뷰 데이터 분석에 활용하였다. 이를 위해 호텔 리뷰 데이터에 대한 다차원 텍스트 큐브를 생성하였으며, 이를 이용하여 다차원 키워드 검색 기능을 제공하여 사용자 중심의 의미있는 정보 검색이 가능한 시스템을 설계 및 구현하였다. 또한, 본 논문에서 제안하는 시스템에 대해 다양한 실험을 수행하였으며 이를 통해 제안된 시스템의 실효성을 검증하였다.

범주형 데이터에 대한 스카이라인 질의 알고리즘 (Skyline Query Algorithm in the Categoric Data)

  • 이우기;최중호;송종수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.819-823
    • /
    • 2010
  • 스카이라인 질의는 다차원, 대량의 데이터 검색에서 효율적인 방법이다. '지배한다'의 개념을 활용하여 약 95%이상으로 알려진 불필요한 데이터 집합을 검색 대상에서 제외하고 필요한 데이터에 집중하게 만들기 때문이다. 지금까지의 스카이라인 질의 알고리즘들은 데이터 집합이 모두 수치형 데이터일 경우에만 한정하여 개발되었다. 따라서 데이터베이스 등에 저장된 대부분의 텍스트 데이터들은 기존 스카이라인 질의 알고리즘을 사용하여 결과를 얻을 수 없었다. 본 연구는 스카이라인 질의의 대상을 범주형 데이터라는 전혀 새로운 영역을 개척한 점에서 의미가 있다. 우선 범주형 데이터 거리를 2종류를 개발하고 이를 스카이라인 질의에 적용하였고, 실험에서는 ACM의 실제 논문데이터를 사용하여 처리시간 및 정확도 비율 등에서 그 효과성을 입증하였다.

개화기 조선 체류 서양인 기록물의 디지털 아카이브 시스템 구축 (Construction of the Digital Archive System from the Records of Westerners Who Stayed in Korea during the Enlightenment Period of Chosun)

  • 정희선;김희순;송현숙;이명희
    • 한국비블리아학회지
    • /
    • 제27권4호
    • /
    • pp.229-249
    • /
    • 2016
  • 본 연구는 개화기 조선 체류 서양인 기록물의 디지털 아카이브를 구축하여 지역문화콘텐츠로 활용하기 위하여 수행되었다. 서양인 기록물 22권을 대상으로 선정하여 10개의 대주제, 40개의 중주제, 239개의 소주제로 된 분류체계를 구성하고 38개 메타데이터 항목을 추출하였다. 텍스트 내용의 분석과 입력자료 유형을 분류하여 엑셀로 된 데이터베이스를 구축하고, 다양한 접근점에 의한 검색과 정보 제공을 위하여 웹기반의 디지털 아카이브 시스템을 개발하였다. 추후연구를 위하여 서양인 기록물 자료의 지속적인 발굴을 통한 아카이브 내용의 양적 확대방안, 개별 아카이브 시스템을 연계한 디지털 한국학 아카이브의 통합정보시스템 구축, 문화유산분야 분류체계 표준화와 패싯구조를 고려한 다차원적인 분류체계 개발, 메타데이터 포맷의 표준화를 통한 콘텐츠의 일관성 유지, 의미검색 기능과 데이터마이닝 기능을 활용한 온톨로지 구축을 제안하였다.