• 제목/요약/키워드: schema extraction

검색결과 46건 처리시간 0.023초

HTML5 문서로부터 OWL 온톨로지 구축 기법 (A Conversion from HTML5 to OWL Ontology)

  • 손태모;윤이연;김우주
    • 한국전자거래학회지
    • /
    • 제18권3호
    • /
    • pp.143-158
    • /
    • 2013
  • 웹의 발전으로 말미암아 새롭게 부상하고 있는 차세대 웹 언어인 HTML5의 웹 기술 언어 표준화가 현재 진행 중이다. 웹의 관점에서 볼 때 HTML5에 새롭게 추가된 구조적 시맨틱 요소들로 인하여 예전보다 웹의 기술에서 웹에서의 데이터들을 더욱 의미적으로 표현할 수 있게 해주는 것이 가능하게 되었다. 이는 또한 새로운 HTML5로 기술된 웹 문서에서 유용한 정보를 쉽게 추출할 수 있음을 나타내기도 한다. 따라서 웹 문서에 새롭게 추가된 시맨틱 요소들에 대한 온톨로지화를 통하여 웹 문서 정보에 대한 직관적이고 구조적인 접근방식이 필요하다. 본 연구에서는 HTML5에 새로 추가된 시맨틱 요소들에 입각하여 웹 문서 요소들의 온톨로지 모델과 인스턴스들의 매핑 방법론을 통하여 효과적인 HTML5 문서의 온톨로지화 방법론을 제안하고자 한다.

Rule-based Normalization of Relative Temporal Information

  • Jeong, Young-Seob;Lim, Chaegyun;Lee, SeungDong;Mswahili, Medard Edmund;Ndomba, Goodwill Erasmo;Choi, Ho-Jin
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권12호
    • /
    • pp.41-49
    • /
    • 2022
  • 문서에는 상대적인 시간표현이 포함되어있으며, 이를 다루기 위한 시간표현 체계를 구축하고 상대시간정보를 추출하는 모델을 개발하는 것은 중요하다. 본 연구에서는 timex3 태그에서 상대적인 시간표현의 정규값을 담을 수 있도록 하기 위해 연, 월, 일, 주, 시, 분, 초 단위에 대하여 총 7가지의 새로운 속성을 새롭게 제시하였으며, 이전, 이후, 번째 등에 대한 정규값의 기술방법도 함께 제시하였다. 또한, 새롭게 추가된 속성들의 정규값을 추출하는 규칙 모음을 설계하였다. 추가된 속성들을 바탕으로 구축한 데이터셋은 일상대화, 뉴스, 역사와 관련된 총 1,041개의 문서를 포함하고 있으며, 본 연구에서 설계한 규칙 모음을 전체 데이터셋에 대하여 적용하여 전반적으로 70% 이상의 정확도를 보이는 것을 확인하였다. 특히, 데이터셋에 자주 등장한 상대시간표현인 year, day, week 속성에 대한 성능이 비교적 높은 것을 확인할 수 있었다. 본 연구의 결과물인 추가적인 timex3 속성과 규칙기반 모델은 질의응답시스템, 챗봇 등의 서비스 개발에 유용하게 활용될 수 있을 것이다.

RSS와 OLAP 큐브를 이용한 FOAF의 동적 관리 기법 (A Dynamic Management Method for FOAF Using RSS and OLAP cube)

  • 손종수;정인정
    • 지능정보연구
    • /
    • 제17권2호
    • /
    • pp.39-60
    • /
    • 2011
  • 웹 2.0 기술이 소개된 이후 소셜 네트워크 서비스는 미래 정보기술의 기초로서 중요하게 인식되고 있다. 이에, 웹2.0 환경에서 소셜 네트워크를 구축하기 위하여 온톨로지 기반의 사용자 프로필 기술 도구인 FOAF를 활용하기 위한 다양한 연구가 이뤄지고 있다. 그러나 FOAF를 이용하여 소셜 네트워크를 생성 및 관리하는 대부분의 방법은 시간의 흐름에 따라 변화하는 사용자의 소셜 네트워크를 자동적으로 반영하기 어려운 단점이 있으며 다양한 소셜 미디어 서비스가 제공되는 환경에서는 FOAF를 동적으로 관리하기가 쉽지 않다. 따라서 본 논문에서는 기존 FOAF를 이용한 소셜 네트워크 추출방법의 한계를 극복하기 위하여 사용자 프로파일 기술 언어인 FOAF와 웹 저작물 출판 매커니즘인 RSS를 OLAP 시스템에 적용시켜 동적으로 FOAF를 갱신하고 관리하기 위한 방법을 제안한다. 본 논문에서 제안하는 방법은 수집한 FOAF와 RSS 파일들을 스타스키마로 설계된 데이터베이스에 넣어 OLAP 큐브를 생성한다. 그리고 OLAP 연산을 이용하여 사용자의 연결관계를 분석하고 FOAF에 그 결과를 반영한다. 본 논문에서 제안하는 방법은 이기종 분산처리 환경 하에서 데이터의 상호호환성을 보장할 뿐만 아니라 시간의 흐름에 따른 사용자의 관심 및 이슈 등의 변화를 효과적으로 반영한다.

MPEG-7 기반 의미적 메타데이터 모델을 이용한 멀티미디어 주석 및 검색 시스템의 개발 (Development of Multimedia Annotation and Retrieval System using MPEG-7 based Semantic Metadata Model)

  • 안형근;고재진
    • 정보처리학회논문지D
    • /
    • 제14D권6호
    • /
    • pp.573-584
    • /
    • 2007
  • 최근 멀티미디어 정보의 양이 매우 빠른 속도로 증가함에 따라 멀티미디어 데이터에 대한 다양한 검색은 매우 중요한 이슈가 되고 있다. 멀티미디어 데이터를 효율적으로 처리하기 위해서는 멀티미디어 데이터가 가지고 있는 의미 내용을 추출할 수 있는 의미 기반 검색 기법이 필요하다. 기존 연구되어온 멀티미디어 데이터의 검색은 주석 기반 검색, 특징 기반 검색, 주석과 특징 기반 검색의 통합 검색시스템이 있다. 이러한 시스템들은 검색 데이터의 생성을 위해 주석자의 많은 노력과 시간을 요구하고 특징 추출을 위한 복잡한 계산을 요구하며, 생성된 데이터는 변화되지 않는 정적인 검색을 수행하는 단점이 있다. 또한, 인간에게 좀 더 친숙하고 의미적인 형태의 검색 방법을 제공하지 못하고 있는 실정이다. 본 논문에서는 MPEG-7을 이용하여 멀티미디어 데이터를 구조적으로 표현하고 효율적으로 추출하기 위한 의미적 메타데이터 기반의 멀티미디어 주석 및 검색시스템(S-MARS)을 구현 제안한다. 본 시스템은 멀티미디어 데이터에 대한 주석이나 검색, 브라우징을 위한 그래픽 인터페이스를 제공하며 멀티미디어 정보를 표현하기 위해 의미적 메타데이터 모델을 기반으로 구현하였다. 멀티미디어 데이터에 대한 의미적 메타데이터 모델은 MPEG-7 표준에 정의되어 있는 멀티미디어 묘사 스키마를 기반으로 XML 스키마를 이용하여 작성하였다. 결론적으로, 제시한 멀티미디어 데이터에 대한 의미적 메타데이터를 XML 형태로 표현하고, XML을 지원하는 데이터베이스 시스템을 이용하여 표준적인 데이터의 상호 교환이 용이하게 이루어질 수 있으며, 의미적 메타데이터를 활용하여 삽입 기반 검색 알고리즘 방법을 제공함으로써 검색에 대한 정확성과 사용자의 검색 만족도를 극대화 시킬 수 있다. 마그마 저장소로의 유입과 마그마 저장소 아래에서 공급되는 모마그마의 성분변화에 의해서 미량원소 함량이 급격하게 변한 것으로 해석된다./^4He$ 비와 $^4He/^{20}Ne$ 비는 $0.0143{\times}10^{-6}{\sim}0.407{\times}10^{-6}$ 범위와 $6.49{\sim}584{\times}10^{-6}$ 범위를 각각 보여주어 대기와 지각성분의 혼합선상에 도시된다. 이는 온천수내 헬륨가스의 대부분이 지각기원임을 의미한다. 죽림온천(JR1)의 경우 맨틀기원의 헬륨가스의 혼합율이 다른 온천에 비해 다소 높은 비율을 보여준다. 이들 동위원소비와 온천수의 pH와는 대체적으로 정의 상관관계가 확인되었다. 아울러 $^{40}Ar/^{36}Ar$비가 $292.3{\times}10^{-6}{\sim}304.1{\times}10^{-6}$ 범위로 대기기원임을 지시한다. Gram 양성, Gram 음성 균주는 Escherichia coli KCCM 11591를 제외하고는 0.8 - 0.95 cm로 항균력이 강했으며, Gram negitive의 Pseudomonas aeruginosa KCTC 1750 에서는 43% 발효주에는 0.95 cm, 45% 고은 발효주에는 0.95 cm의 항균성을 나타냈으며 관능평가에서도 가장 높게 났다. 관능평가에서는 45% 고온 발효주가 가장 높게 나타났으며, 항산화성 실험에 나타난 저온 45%의 갈색도의 측정과는 항산화성에서는 좀 다른 결과를 나타낸다. 그러나 항균성이 가장 높게 나타난 43-45%와 관능평가에서 가장 높게 나타난 45% 고온 발효주를 볼 때 본 연구에서는 고온 발효주 45%가

데이터 웨어하우스 성능 관리를 위한 DBMax의 확장 (An Extension of the DBMax for Data Warehouse Performance Administration)

  • 김은주;용환승;이상원
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.407-416
    • /
    • 2003
  • 데이터베이스의 사용이 증가하고 다루어야 하는 데이터의 양이 방대해지면서 데이터베이스 시스템을 효율적으로 사용하기 위한 성능 관리 기술이 중요해지고 있다. 특히 데이터 웨어하우스는 대용량의 데이터를 대상으로 복잡한 분석을 수행하거나 전략적 의사 결정을 위해 사용하기 때문에 신속한 질의 응답을 위한 성능 관리가 무엇보다 중요하다. 데이터 웨어하우스는 일반 운영계 시스템과는 다른 목적과 특성을 가지기 때문에 그에 적합한 성능 모니터링 방법 및 튜닝 기술이 필요하다. 본 연구에서는 OLTP(On-Line Transaction Processing)용 오라클 데이터베이스를 위한 국산 성능 관리 도구인 DBMax를 데이터 웨어하우스 환경에 적합하도록 기능을 확장한다. 우선 데이터 웨어하우스 응용 분야를 지원하기 위한 오라클 9i의 요약 관리(summary management) 기능과 ETL(Data Extraction, Transformation and Loading) 기능을 중심으로 데이터 웨어하우스 시스템의 성능 관리시 고려해야 할 요구 사항을 분석하고 이를 지원하는 DBMax의 확장 아키텍처를 설계 및 구현한다. 구체적으로 요약 관리와 ETL 작업을 지원하기 위한 오라클 9i의 다양한 스키마 객체에 대한 정보와 성능 관련 지표를 제시하여 데이터 웨어하우스 환경에서 수행되는 질의에 대한 SQL 튜닝 기능을 강화한다. 또한 사후 분석을 위한 BBMax의 로그 파일에서 의미 있는 SQL 문을 추출하여 잠재적으로 유용한 실체화된 뷰를 추천하는 요약 권고 기능을 추가한다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.