• 제목/요약/키워드: 데이터 항목

검색결과 1,293건 처리시간 0.028초

스토리 창작 특성의 효과적 가시화를 위한 분류 좌표계 연구 (A Coordinate System of Classification for Effective Visualizations of Story Properties)

  • 김명준
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권6호
    • /
    • pp.1119-1125
    • /
    • 2017
  • 장르 및 행위는 스토리의 분류뿐만 아니라 그 특성 데이터의 분포를 가시적으로 나타나는 데에도 효과적으로 사용될 수 있다. 본 논문에서는 스토리 특성 데이터의 분포를 장르-행위의 2차원 평면에서 가시화함에 있어, 인접한 장르 및 인접한 행위가 서로 유사성을 가지는 즉 공간적 특성을 가지는 장르-행위 좌표계를 제안한다. 제안된 장르-행위 좌표계를 이용하여 스토리 특성 데이터의 분포를 가시화 해본 결과 유사도가 높은 항목들이 연이여 좌표계의 항목을 이루고 또한 관련성 있는 특성 데이터들이 군집을 이루어 나타나는 등 공간적 의미를 가지도록 스토리 특성 데이터의 가시화가 가능함을 확인하였다.

온라인 데이터 스트림에서의 동적 부분 공간 클러스터링 기법 (Dynamic Subspace Clustering for Online Data Streams)

  • 박남훈
    • 디지털융복합연구
    • /
    • 제20권2호
    • /
    • pp.217-223
    • /
    • 2022
  • 온라인 데이터 스트림에 대한 부분 공간 클러스터링은 데이터 공간 차원의 모든 부분 집합을 검사해야 하므로 많은 양의 메모리 자원을 필요로 한다. 유한한 메모리 공간에서 데이터 스트림에 대한 클러스터들의 지속적인 변화를 추적하기 위해 본 논문에서는 메모리 자원을 효과적으로 사용하는 격자기반 부분 공간 클러스터링 알고리즘을 제안한다. n차원 데이터 스트림이 주어지면 각 차원 데이터 공간에 있는 데이터 항목의 분포 정보를 격자셀 리스트에 의해 모니터링 된다. 첫번째 레벨의 격자셀 목록에서 데이터 항목의 빈도가 높아 단위 격자셀이 되면 해당 격자셀로부터 모든 가능한 부분 공간의 클러스터를 찾기 위해 다음 레벨의 격자셀 리스트를 자식 노드로 생성한다. 이와 같이 최대 다차원 n레벨의 격자셀 부분 공간 트리가 구성되고, k차원의 부분 공간 클러스터는 부분 공간 격자셀 트리의 k레벨에서 찾을 수 있다. 실험을 통해서 제안하는 방법이 기존 방법만큼 정확도를 유지하면서, 밀집 공간만 확장하여 컴퓨팅 자원을 보다 효율적으로 사용하는 것을 확인하였다.

연구 논문의 의미 구조 기반 메타데이터 항목의 자동 식별 처리를 위한 문장 구조 분석 (Analyzing the Sentence Structure for Automatic Identification of Metadata Elements based on the Logical Semantic Structure of Research Articles)

  • 송민선
    • 정보관리학회지
    • /
    • 제35권3호
    • /
    • pp.101-121
    • /
    • 2018
  • 본 연구는 연구논문의 논리적 의미 구조 메타데이터 항목에 해당하는 데이터에 담겨 있는 문장의 구성에 따라 시스템에서 적절한 항목으로 자동 식별 처리될 수 있도록 하는, 문장의미론(Sentence Semantics)적 분석 방법을 제안하고자 하는 목적으로 수행되었으며, 의미 구조 메타데이터 항목 중 'Research Objectives'와 'Research Outcomes'에 해당하는 연구 논문 문장의 구조를 어절 수, 접속어 종류, 다수 출현한 단어들의 문장 내 역할, 문장에서 다수 출현한 어미 형태 등을 기준으로 분석해 정리하였다. 연구 결과, 문장들의 어절 수는 'Research Objectives'는 평균 38개, 'Research Outcomes'는 평균 212개로 나타났으며, 접속어의 경우 'Research Objectives'는 인과-순접-대등-환언/요약 관계를 나타내는 접속어 순으로, 'Research Outcomes'는 인과-대등-순접-환언/요약 관계를 나타내는 접속어 순으로 많이 출현한 것으로 파악되었다. 출현빈도가 높은 분석 대상 단어들은 각각 문장 내에서 주어, 목적어, 서술어 역할 등으로 사용되고 있었으며, '역할'이나 '요인', '관계'는 목적이나 결과 부분 모두에서 비슷한 역할을 담당하고 있었지만 '연구'는 같은 단어라도 연구의 목적 부분과 결과 부분에서 사용되는 역할에 차이를 보였다. 마지막으로 문장 내 동사의 어미는 'Research Objectives'에서 '~고자'와 '~였다', 'Research Outcomes'에서 '~었다', '~있다', '~였다'가 많이 출현하였다. 본 연구는 연구자의 학술적 이해형성을 지원하기 위해 연구논문이 담고 있는 공통된 논리적 의미를 반영한 메타데이터 요소의 자동 식별과 입력 방안을 제시하는 데 활용할 수 있는 기초 연구로서 의의가 있다.

트리밍 방식 수정을 통한 연관규칙 마이닝 개선 (Improved Association Rule Mining by Modified Trimming)

  • 황원태;김동승
    • 전자공학회논문지CI
    • /
    • 제45권3호
    • /
    • pp.15-21
    • /
    • 2008
  • 본 논문은 2단 샘플링을 통해 정확도는 줄지만 신속하게 연관규칙을 추출하는 새로운 마이닝 알고리즘을 제안한다. 직전 연구인 FAST(Finding Association by Sampling Technique) 기법은 빈발1항목만 최적샘플 형성과정에 적용하여 빈발2항목 및 그이상의 빈발항목을 샘플 추출에 반영하지 못하였다. 이 논문은 그러한 약점을 보완하여 트리밍 과정에서 손실항목과 오류항목의 비중을 동시에 고려하여 다수 빈발항목에 대한 마이닝의 정확성을 높였다. 대표적인 데이터 세트를 써서 실험한 결과 이전연구와 비교해서 동일한 품질하에서 새 알고리즘의 정확도가 향상됨을 확인하였다.

개인신용평점에서 항목그룹화와 모형평가를 위한 교육용 소프트웨어의 개발 (Development of educational software for coarse classifying and model evaluation in credit scoring)

  • 정기문
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1225-1235
    • /
    • 2010
  • 개인신용평점에서 항목그룹화의 과정은 연속형 특성변수를 밴드로 분할하고 이산형 특성변수는 그룹으로 분할하는 것이다. 또한 평점표는 시간이 지나감에 따라 성능이 떨어지게 되고, 따라서 사용되고 있는 승인점을 조정하여야 한다. 그러나 개인신용평점에서 항목그룹화와 승인점의 조정은 매우 복잡하고 번거로운 과정이라고 할 수 있다. 따라서 본 논문에서는 비주얼베이직을 사용하여 개인신용평점에서 항목그룹화와 모형평가를 위한 소프트웨어를 개발하였다. 개발된 소프트웨어를 활용하면 항목그룹화에서 최적의 분할과 모형평가에서 최적의 승인점을 쉽게 찾을 수 있다.

퍼지추론방식에 의한 기존시설물 내진성능평가 (Seismic Evaluation of Existing Buildings Based on Fuzzy Inference System)

  • 김남희;홍성걸;장승필
    • 한국지진공학회논문집
    • /
    • 제5권2호
    • /
    • pp.1-11
    • /
    • 2001
  • 내진성능평가 시스템은 구조시스템의 합리적인 분류, 적절한 평가 기준, 그리고 종합적인 평가방법을 포함하여야한다. 외국의 현행 내진성능 평가방법은 데이터의 수집과 주요 평가 항목을 위한 약산식 그리고 평가 점수를 이용하여 전문가의 판단에 근거한 평가 방법을 제시하고 있다. 본 연구는 국내 건축구조물에 예비 내진평가 방법에 중점을 두고 퍼지추론 시스템에 근거한 내진평가방법의 전형을 개발한다. 평가항목의 위계는 건무의 수직, 수평방향을 불규칙성, 비대칭성, 여용성, 그리고 건물 연한을 포함한 전체적인 특성과 부재 단계에서의 상세한 평가 항목으로 구성한다. 퍼지추론방법에 대한 기존의 연구결과를 근허가혀 이용한 내진성능 평가방법에 적절히 적용하기 위하여 4가지 주요 모듈을 설정한다. (1) 퍼지 입력 (2) 퍼지에 근거한 규칙기반 (3) 퍼지추론, 그리고 (4) 퍼지출력으로 구성된다. 더욱이 개별적인 성능 수준에 종합적인 평가지수를 끌어내기 위하여 퍼지추론방법을 적용하였다.

  • PDF

LDAP 상호운용성 시험을 위한 시험도구 구현 (The test tool implementation of LDAP interoperability test)

  • 김연수;이숭희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.871-874
    • /
    • 2003
  • 본 논문은 LDAP 클라이언트와 서버사이에서의 상호운용성 시험을 위한 시험도구 구현에 대한 것이다. 여러 벤더에 의해 구현된 LDAP 제품들을 업무에 적응하기 위해서는 상호간의 접속 운용이 가능한지를 시험하기 위한 것으로 표준적합성 시험과 함께 상호운용성 시험이 선행 되어야 한다. 이러한 시험을 위한 시험도구로 이미 구현된 것이 있으나, 이들은 OS 에 따른 설치 시 제약조건이 많으며, 시험 실행방법의 어려움과, 시험 시 시험항목 및 LDAP 서버에 저장된 데이터가 한정되어 불편한 점이 있다. 이를 보완하기 위해 BLITS를 기반으로 한 OS의 제약이 적고, 사용자가 시험 항목을 수정 가능한 시험도구를 구현하였다. 구현한 시험도구의 타당성 검증을 위해 두 개의 LDAP 서버를 대상으로 하여 실제 상호운용성 시험을 수행 하였다. 시험 결과 203.241.249.185 의 주소를 가지는 서버는 선정된 시험항목과 사용자가 정의한 시험에 대해 모두 정상적인 시험결과를 출력하였으며 www.openldap.com 주소를 가지는 서버는 관리자 권한이 필요치 않은 항목에 대해서는 정상적인 시험결과를 출력하여 구현한 시험도구가 정상적으로 동작함을 확인하였다.

  • PDF

의료 정보 추출을 위한 TF-IDF 기반의 연관규칙 분석 시스템 (TF-IDF Based Association Rule Analysis System for Medical Data)

  • 박호식;이민수;황성진;오상윤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권3호
    • /
    • pp.145-154
    • /
    • 2016
  • u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 기록 데이터에서 용어들을 TF-IDF기반으로 가중치를 부여하고 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미 있는 연관규칙을 구성한다. 특정 질의 데이터가 입력되면 해당 데이터에 나타난 연관 규칙들의 유사도를 의학분야 온톨로지를 이용하여 평가하여 해당 데이터의 내용과 관련된 후보 질병들을 추론한다. 추론된 후보 질병명은 의료 전문가에게 의사 결정의 참고 자료로 제공된다. 실제 임상 진료 및 처방 기록 데이터에 대해 제안 시스템을 적용해 본 결과, 본 제안 시스템을 통해 도출한 연관 규칙이 기존 FP-Growth 알고리즘을 적용했을 때 보다 더 구체적인 질병과 증상과의 관계들을 포함함을 확인할 수 있었다. 또한 본 제안 시스템은 자유형식의 의료 및 병리데이터를 마이닝하고 후보 질병들을 가중치 기반으로 보여주므로, 의료 기록 정보로부터 질병 관련 새로운 정보를 획득하고 의료진의 의사 결정에 도움을 주는 시스템으로 활용될 수 있다.

환경영향평가 협의 내용 분석을 통한 데이터 수요 도출방안 - 수환경 분야를 중심으로 - (Derivation of Data Demand through Analysis of Agreed Terms and Conditions on Environmental Impact Assessment - Focusing on the Water Environment -)

  • 황진후;김윤지;전성우;최유영;성현찬
    • 환경영향평가
    • /
    • 제32권1호
    • /
    • pp.29-40
    • /
    • 2023
  • 환경영향평가에 대한 문제점으로 인한 개선 필요성이 제기되고, 데이터 기반의 환경영향평가의 중요성이 증가하고 있다. 본 연구에서는 환경영향평가의 수환경 분야(수질, 수리·수문, 해양환경)의 협의 내용 분석을 통해 데이터 수요를 도출하였다. 수환경 분야의 환경영향평가 협의 내용 총 400건(4,180문장)을 평가항목(수질, 수리수문, 해양환경) 및 환경영향평가 단계(현황조사 추가, 영향예측 및 평가, 저감대책 수립, 사후환경영향조사)별로 분류 후 유형화하였고, 해당하는 협의 내용 유형 별 데이터 수요를 연계하였다. 협의 내용 유형화 결과 수질 분야 18개, 수리·수문 분야 14개, 해양환경 분야 17개의 유형으로 분류되었으며, 데이터 수요 연계 결과 수질 분야 254개, 수리·수문 분야 102개, 해양환경 분야 74개의 데이터 수요가 도출되었다. 평가항목으로는 수질 분야, 환경영향평가 단계 상으로는 저감대책 수립 분야에서의 협의 내용 유형 및 데이터 수요가 가장 높은 빈도로 나타났으며, 세부 협의 내용 유형으로는 비점오염 저감 대책이 가장 많은 빈도로 나타났다. 이는 항목의 상대적 중요도와, 환경영향평가의 주요 목적과 연계된 것으로 판단되었다. 환경영향평가 협의 내용 분석을 통한 데이터 수요의 도출은 환경영향평가서 작성의 고도화에 기여할 수 있으며, 환경영향평가 데이터 체계화를 통해 다양한 의사결정자의 데이터 활용도를 높일 것으로 기대된다.