• 제목/요약/키워드: Data schema

검색결과 690건 처리시간 0.034초

비정형 빅데이터의 실시간 복합 이벤트 탐지를 위한 기법 (The Method for Real-time Complex Event Detection of Unstructured Big data)

  • 이준희;백성하;이순조;배해영
    • Spatial Information Research
    • /
    • 제20권5호
    • /
    • pp.99-109
    • /
    • 2012
  • 최근 소셜 미디어의 발달과 스마트폰의 확산으로 SNS(Social Network Service)가 활성화가 되면서 데이터양이 폭발적으로 증가하였다. 이에 맞춰 빅데이터 개념이 새롭게 대두되었으며, 빅데이터를 활용하기 위한 많은 방안이 연구되고 있다. 여러 기업이 보유한 빅데이터의 가치창출을 극대화하기 위해 기존 데이터와의 융합이 필요하며, 물리적, 논리적 저장구조가 다른 이기종 데이터 소스를 통합하고 관리하기 위한 시스템이 필요하다. 빅데이터를 처리하기 위한 시스템인 맵리듀스는 분산처리를 활용하여 빠른게 데이터를 처리한다는 이점이 있으나 모든 키워드에 대해 시스템을 구축하여 저장 및 검색 등의 과정을 거치므로 실시간 처리에 어려움이 따른다. 또한, 이기종 데이터를 처리하는 구조가 없어 복합 이벤트를 처리하는데 추가 비용이 발생할 수 있다. 이를 해결하는 방안으로 기존에 연구된 복합 이벤트 처리 시스템을 활용하여 실시간 복합 이벤트 탐지를 위한 기법을 제안하고자 한다. 복합 이벤트 처리 시스템은 서로 다른 이기종 데이터 소스로부터 각각의 데이터들을 통합하고 이벤트들의 조합이 가능하며 스트림 데이터를 즉시 처리할 수 있어 실시간 처리에 유용하다. 그러나 SNS, 인터넷 기사 등 텍스트 기반의 비정형 데이터를 텍스트형으로 관리하고 있어 빅데이터에 대한 질의가 요청될 때마다 문자열 비교를 해야 하므로 성능저하가 발생할 여지가 있다. 따라서 복합 이벤트 처리 시스템에서 비정형 데이터를 관리하고 질의처리가 가능하도록 문자열의 논리적 스키마를 부여하고 데이터 통합 기능을 제안한다. 그리고 키워드 셋을 이용한 필터링 기능으로 문자열의 키워드를 정수형으로 변환함으로써 반복적인 비교 연산을 줄인다. 또한, 복합 이벤트 처리 시스템을 활용하면 인 메모리(In-memory)에서 실시간 스트림 데이터를 처리함으로써 디스크에 저장하고 불러들이는 시간을 줄여 성능 향상을 가져온다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

단일머신 환경에서의 논리적 프로그래밍 방식 기반 대용량 RDFS 추론 기법 (Scalable RDFS Reasoning using Logic Programming Approach in a Single Machine)

  • 바트셀렘 작바랄;김제민;이완곤;박영택
    • 정보과학회 논문지
    • /
    • 제41권10호
    • /
    • pp.762-773
    • /
    • 2014
  • 시맨틱 웹상에서 RDFS로 표현된 데이터의 사용 증가로 인하여, 대용량 데이터의 추론에 대한 많은 요구가 생겨나고 있다. 많은 연구자들은 대용량 온톨로지 추론을 수행하기 위해서 하둡과 같은 고가의 분산 프레임워크를 활용한다. 그러나, 적절한 사이즈의 RDFS 트리플 추론을 위해서는 굳이 고가의 분산 환경 시스템을 사용하지 않고 단일 머신에서도 논리적 프로그래밍을 이용하면 분산 환경과 유사한 추론 성능을 얻을 수 있다. 본 논문에서는 단일 머신에 논리적 프로그래밍 방식을 적용한 대용량 RDFS 추론 기법을 제안하였고 다중 머신을 기반으로 한 분산 환경 시스템과 비교하여 2억개 정도의 트리플에 대한 RDFS 추론 시스템을 적용한 경우 분산환경과 비슷한 성능을 보이는 것을 실험적으로 증명하였다. 효율적인 추론을 위해 온톨로지 모델을 세부적으로 분리한 메타데이터 구조와 대용량 트리플의 색인 방안을 제안하고 이를 위해서 전체 트리플을 하나의 모델로 로딩하는 것이 아니라 각각 온톨로지 추론 규칙에 따라 적절한 트리플 집합을 선택하였다. 또한 논리 프로그래밍이 제공하는 Unification 알고리즘 기반의 트리플 매칭, 검색, Conjunctive 질의어 처리 기반을 활용하는 온톨로지 추론 방식을 제안한다. 제안된 기법이 적용된 추론 엔진을 LUBM1500(트리플 수 2억개) 에 대해서 실험한 결과 166K/sec의 추론 성능을 얻었는데 이는 8개의 노드(8 코아/노드)환경에서 맵-리듀스로 수행한 WebPIE의 185K/sec의 추론 속도와 유사함을 실험적으로 증명하였다. 따라서 단일 머신에서 수행되는 본 연구 결과는 트리플의 수가 2억개 정도까지는 분산환경시스템을 활용하지 않고도 분산환경 시스템과 비교해서 비슷한 성능을 보이는 것을 확인할 수 있었다.

시각적 정보력이 향상된 수치지도 Ver. 2.0제작 (Manufacturing Digital Map Version 2.0 Increased Visual Information)

  • 박경식;이재기
    • 한국측량학회지
    • /
    • 제23권3호
    • /
    • pp.221-231
    • /
    • 2005
  • 수치지도 Ver. 2.0은 지리정보시스템에 적합하지만 수치지도로부터 외형적으로 정보를 취득하거나, 종이지도 제작을 위한 용이성 등은 오히려 퇴보되었다. 본. 연구에서는 이러한 문제점을 고려하여 지리정보시스템에서 요구하는 기하하적, 논리적 데이터구조를 가지면서 종이지도 또는 수치지도 Ver. 1.0 수준의 정보력을 갖는 수치지도 Ver. 2.0을 제작하고자 한다. 연구를 위하여 동일지역의 종이지형도, 수치지도 Ver 1.0 및 수치지도 Ver 2.0을 대상으로 지형코드, 색상, 지형코드우선순위 등을 분석하였다. 지형코드의 우선순위에 대해서는 실제지형과 같은 순위로 배열함을 원칙으로 하되 위치에 따라 순위가 뒤바뀌는 경우에 대해서는 별도의 코드를 생성하였다. 본 연구의 특성상 색상 등과 같이 주관적인 감각이 포함되는 요소에 대해서는 기존의 도식규정을 준수하며, 지형지물의 외형적 표현방식과 전산자료구조가 서로 대치될 때는 자료구조에 우선순위를 두었다.

헬스케어 홈 서비스를 위한 데이터베이스 및 응용 서비스 구현 (Design and Implementation of Process Management Model applying Agent Technology)

  • 이충섭;정창원;주수종
    • 인터넷정보학회논문지
    • /
    • 제8권1호
    • /
    • pp.57-70
    • /
    • 2007
  • 본 논문은 헬스케어 홈 환경에서 얻어진 정보를 헬스케어 데이터베이스로 구축하고, 이를 헬스케어 홈 서비스에 활용하는데 목적을 둔다. 특히, 본 논문에서 우리는 헬스케어 데이터베이스 스키마의 설계 및 이전에 우리가 개발한 헬스케어 통합 서비스를 지원하는 프레임워크(FSHIS)상에서 구축된 데이터베이스를 어떻게 사용할 것인가에 초점을 둔다. 헬스케어 정보는 다양한 센서로부터 수집한 데이터의 특정 저장타입에 맞추어 설계하였고, 헬스케어 홈 서비스의 사용목적에 따라 구축된 헬스케어 데이터베이스는 실제 스키마를 가진 기본 정보와 뷰 스키마로 제공되는 상황정보로 분류하였다. 첫 번째 기본 정보는 물리적 센서로부터 얻어지는 위치, 건강, 환경관련 가공없는 데이터와 개인 건강관련 프로파일 정보로 이루어진다. 두 번째의 상황정보는 기본 정보들을 이용하여 혼합 가공한 정보이다. 이 상황정보는 헬스케어 응용 서비스에 따라 다양한 뷰 스키마를 통해 얻어진다. 마지막으로, 구축된 헬스케어 데이터베이스의 실질적인 활용을 검증하기 위해, 우리는 본 연구실에서 개발된 FSHIS상에 구축된 데이터베이스와의 연동을 통해, 독거노인을 위해 생활 활동 영역으로 부터 필요한 기본정보와 상황정보를 이용하여 응급상황 호출 그리고 홈 가전 제어 등의 헬스케어 홈 모니터링 서비스를 보였다.

  • PDF

XML-GDM을 기반으로 한 UML 클래스 다이어그램으로 사상을 위한 XML문서와 질의의 객체 모델링 (Object Modeling for Mapping from XML Document and Query to UML Class Diagram based on XML-GDM)

  • 박대현;김용성
    • 정보처리학회논문지D
    • /
    • 제17D권2호
    • /
    • pp.129-146
    • /
    • 2010
  • 최근 다양한 분야에서 폭넓게 활용되고 있는 XML 문서는 유연하고도 개방적인 특성으로 인해 정보교환이나 전송을 위한 수단으로 널리 이용되고 있다. 한편 XML 문서를 위한 시각적, 직관적 질의 언어인 XML-GL은 질의에 대한 의미와 결과 문서의 구조를 시각적으로 표현할 수 있기 때문에 XML 문서에 대한 구조 검색과 정보의 공유가 용이하다. 그리고 UML은 정해진 표기법과 다양한 다이어그램을 이용하여 객체지향 분석과 설계를 위한 도구로 사용되고 있다. 따라서 본 논문은 XML-GL의 데이터 모델인 XML-GDM을 기반으로 표현된 XML 문서를 UML 클래스 다이어그램으로 사상하기 위한 새로운 객체 모델링 방안을 제안한다. 이를 통해서 XML 문서를 직관적인 방법으로 객체지향데이터로 변환하고 저장/관리할 수 있다. 또한 객체지향 검색방법을 적용하면 보다 효율적으로 XML 문서를 검색할 수가 있다.

XML 기반 디지털 방송용 메타데이타 관리시스템 (Metadata Management System for XML-based Digital Broadcasting)

  • 박종현;김병규;이용희;이민우;정민옥;강지훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권4호
    • /
    • pp.334-348
    • /
    • 2005
  • 차세대 디지털 방송은 다양한 서비스와 함께 방송 사용자와 제공자 사이의 양방향 통신을 가능하게 한다. 새로운 방송 환경을 위한 중요한 요소 중 하나는 분산되어있는 환경에서 여러 소비자와 공급자 간의 상호운용성의 유지에 있다. 이를 위하여 디지털 방송을 위한 메타데이타의 표준이 제안되었고, TV-Anytime 메타데이타는 이러한 요구를 만족시키기 위한 차세대 방송 표준 메타데이타의 하나이다. TV-Anytime 메타데이타는 향후 다양한 서비스로의 확장을 위하여 그 말단이 MPEG-7으로 정의되어 있다. MPEG-7은 멀티미디어 컨텐츠를 기술하기 위한 메타데이타 표준으로, 방송용 컨텐츠를 기술하기 위해서 사용된다면 내용기반 검색과 같은 다양한 서비스를 제공한다. 이러한 방송용 메타데이타를 효율적으로 관리하기 위한 시스템은 실제 방송 환경에서 사용자에게 보다 질 좋은 서비스를 제공하기 위해서 필수적이다. 방송용 메타데이타의 가장 큰 특징 중 하나는 단일의 XML 스키마를 기반으로 XML로 기술된다는 것이다. 이러한 점은 기존의 XML 관리 시스템을 사용하여 방송용 메타데이타를 관리할 수 있다는 가능성을 보인다. 그러나 이들 대부분은 범용적인 방법을 사용하여 XML데이타를 관리하고 있으므로 방송용 메타데이타를 관리하기 위한 특화된 방법으로 보기는 어렵다. 본 논문에서는 방송용 메타데이타의 특성을 파악하여 방송 환경에 적절한 방송용 메타데이타 관리 시스템을 설계하고 구현한다. 우리의 메타데이타 관리 시스템은 실제 방송 환경에서 사용되는 표준 메타데이타를 기반으로 구현하므로, 방송 환경에 최적의 기능을 수행할 수 있을 것으로 기대된다. 또한, 우리는 방송용 메타데이타의 검색을 위한 질의어로 XML 표준 질의어인 XQuery를 사용하여 시스템 간의 상호 운용성을 확보할 수 있도록 한다.

HL7 표준임상문서구조를 사용한 전자퇴원요약의 생성, 저장, 관리 시스템 (Generation, Storing and Management System for Electronic Discharge Summaries Using HL7 Clinical Document Architecture)

  • 김화선;김일곤;조훈
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.239-249
    • /
    • 2006
  • 병원정보시스템(Hospital Information System)은 다른 병원정보시스템과 서로 독립적으로 운영되므로 상호운영성(Interoperability)이 배제되어 왔다. 이 연구는 HL7 표준임상문서구조(Health Level 7, Clinical Document Architecture)와 XML 스키마의 분석과 설계를 통하여 새로운 패러다임의 병원정보시스템을 제안한다. 퇴원요약지로부터 필수 항목을 규정하여 템플릿을 정의한 후 임상문서구조를 설계하여 자동적으로 임상문서를 생성되도록 하였다. XML 스키마는 HL7에서 정의한 참조정보모델(Reference Information Model)을 기반으로 분석하였고, 전송 프로토콜은 HL7 V2.4를 사용하였다. 본 연구가 가지는 의의는 첫째, 국제 표준인 HL7 표준임상문서구조를 사용하기 위한 확장과 정제과정의 연구를 했으며, 둘째, 표준임상문서구조를 사용할 수 있는 웹 기반의 차세대 병원정보시스템의 구조를 제안하였다. 결론적으로, 한국의 퇴원요약 표준임상문서구조에 대한 본 연구로 말미암아 평생전자의무기록(Electronic Health Record)과 임상데이타저장소(Clinical Data Repository)를 포함하여 다양한 보건의료기관 간 의료정보 공유의 기반이 될 것이다.

창업경험과 창업의도의 관계에 대한 연구: 사회인지적 요인의 매개효과 및 성별의 조절효과 (The Influence of Entrepreneurial Experience on Entrepreneurial Intention: Mediation Effect of Social Cognitive Attributes)

  • 박정현
    • 벤처창업연구
    • /
    • 제17권3호
    • /
    • pp.51-76
    • /
    • 2022
  • 창업의도(Entrepreneurial intention)를 형성하는 데 영향을 주는 요인이 무엇인지 밝혀내는 것은 창업가를 양성하고 국가 내 기업가적 혁신이 활발히 일어나도록 유도하는 데 있어서 참고할 수 있는 중요한 일이다. 그동안의 연구들이 사회인지 속성을 예측인자로 활용해 창업의도 혹은 기업가적 활동에 직접적으로 미치는 영향을 주로 제시해왔지만, 이러한 사회인지 속성들이 무엇에서 비롯되는지 근본적 요인에 대해서는 기업가정신 분야에서 충분히 다뤄지지 않았다. 본 연구는 사회인지이론과 스키마이론을 기반으로 개인의 창업경험(Entrepreneurial experience)이 사회인지 속성을 형성하는 중요한 선행요인임을 가정하며, 경험이 창업의도를 어떻게 형성하는지에 대한 메커니즘을 밝힌다. 이를 위하여 기업가의 창업경험이 사회인지이론에서 창업의도를 형성하는 주요 변수로 꼽히는 기업가적 자기효능감(Entrepreneurial Self-efficacy), 기회인식(Opportunity recognition), 실패두려움(Fear of failure) 등에 미치는 영향을 분석하며, 이러한 요인이 어떻게 창업의도에 유의한 영향을 미치는지 분석한다. 이와 함께 창업 경험과 창업의도 사이에 이어지는 경로를 파악하기 위하여 이러한 사회인지속성이 어떤 매개 역할을 하는지를 분석한다. 또한 성별에 따라 생물학적 차이 뿐만 아니라 사회적 상호 작용의 결과로 나타나는 사회적 차이, 그리고 인지적 차이가 만들어지는 점을 고려, 성별에 따라 개인의 창업경험이 사회인지 속성 및 창업의도에 미치는 영향이 어떻게 조절되는지를 분석한다. Global Entrepreneurship Monitor(GEM)의 87개국의 25,047명 기업가 데이터에 기반한 계량 분석을 한 결과, 창업경험은 기업가적 자기효능감과 기회인식을 높이고, 실패두려움은 줄이는 것으로 나타났으며 이러한 사회인지속성은 창업경험과 창업의도의 관계를 유의하게 매개하는 것으로 나타났다. 성별에 따른 조절효과도 유의해, 남성과 여성은 창업경험으로부터 창업의도가 형성되는 양상이 다르게 나타났다. 기업가 정신 분야의 선행연구에서 과거 경험의 역할은 중요하지만 충준히 다뤄지지 않았다. 이 연구는 구조방정식을 이용하여 창업경험의 매개효과 및 성별의 조절효과를 통해 창업의도 형성의 메커니즘을 구체적으로 밝혀냈다는 점에서 의의를 지닌다.

RSS와 OLAP 큐브를 이용한 FOAF의 동적 관리 기법 (A Dynamic Management Method for FOAF Using RSS and OLAP cube)

  • 손종수;정인정
    • 지능정보연구
    • /
    • 제17권2호
    • /
    • pp.39-60
    • /
    • 2011
  • 웹 2.0 기술이 소개된 이후 소셜 네트워크 서비스는 미래 정보기술의 기초로서 중요하게 인식되고 있다. 이에, 웹2.0 환경에서 소셜 네트워크를 구축하기 위하여 온톨로지 기반의 사용자 프로필 기술 도구인 FOAF를 활용하기 위한 다양한 연구가 이뤄지고 있다. 그러나 FOAF를 이용하여 소셜 네트워크를 생성 및 관리하는 대부분의 방법은 시간의 흐름에 따라 변화하는 사용자의 소셜 네트워크를 자동적으로 반영하기 어려운 단점이 있으며 다양한 소셜 미디어 서비스가 제공되는 환경에서는 FOAF를 동적으로 관리하기가 쉽지 않다. 따라서 본 논문에서는 기존 FOAF를 이용한 소셜 네트워크 추출방법의 한계를 극복하기 위하여 사용자 프로파일 기술 언어인 FOAF와 웹 저작물 출판 매커니즘인 RSS를 OLAP 시스템에 적용시켜 동적으로 FOAF를 갱신하고 관리하기 위한 방법을 제안한다. 본 논문에서 제안하는 방법은 수집한 FOAF와 RSS 파일들을 스타스키마로 설계된 데이터베이스에 넣어 OLAP 큐브를 생성한다. 그리고 OLAP 연산을 이용하여 사용자의 연결관계를 분석하고 FOAF에 그 결과를 반영한다. 본 논문에서 제안하는 방법은 이기종 분산처리 환경 하에서 데이터의 상호호환성을 보장할 뿐만 아니라 시간의 흐름에 따른 사용자의 관심 및 이슈 등의 변화를 효과적으로 반영한다.