• 제목/요약/키워드: 비 데이터

검색결과 10,450건 처리시간 0.041초

효율적 공간 검색을 위한 새로운 색이 키 중복 기법 (A New Index Key Duplication method for Efficient Spatial Retrieval)

  • 이경모;이충호;김성희;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.261-263
    • /
    • 1999
  • 공간 DBMS는 공간 데이터와 비공간 데이터를 서로 다른 물리적인 페이지에 저장한다. 공간 질의의 효율적인 처리를 위해 공간 데이터에 대한 공간 색인을 생성하며, 성능 향상을 위하여 이를 클러스터링 색인으로 사용한다. 그러나, 공간 데이터에 대한 클러스터링 성질이 비공간 데이터 페이지에는 반영되지 않아 공간 데이터와 비공간 데이터는 서로 다른 물리적 순서를 갖는다. 이로 인해 공간 조건(Spatial Predicate)에 의해 선택된 공간 데이터는 물리적 인접성을 가지는 반면, 비공간 데이터는 물리적 인접성을 갖지 않는다. 즉, 공간 질의 처리 과정에서 비공간 데이터 페이지의 잦은 디스크 I/O를 유발한다. 본 논문에서는 효율적 공간 검색을 위한 색인 키 중복 기법을 제안한다. 제안한 기법은 공간 데이터의 색인 기값을 비공간 데이터 내에 중복시키고 공간, 비공간 데이터에 대해 각각의 공간 클러스터링 색인을 생성한다. 두 클러스터링 색인에 의해 공간 데이터와 마찬가지로 비공간 데이터도 공간 조건에 대한 클러스터링 성질을 유지할 수 있다. 질의 처리 과정에서 공간 조건에 의해 선택된 공간 객체들은 공간, 비공간 데이터들 모두 물리적 인접성을 가지게 되며, 비공간 데이터 페이지에 대한 디스크 액세스 횟수를 줄여 공간 검색의 성능을 향상시킬수 있다.

  • PDF

인공신경망 이론과 비정형데이터를 활용한 하천수위 예측에 관한 연구 (A Study on the Prediction of River Water Level Using Artificial Neural Network Theory and Unstructured Data)

  • 이정하;황석환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.388-388
    • /
    • 2020
  • 매년 국지성호우 및 태풍으로 인해 하천 범람이나 저지대침수가 발생하고 있으며 이는 인명 피해 사례로 이어지기도 한다. 피해 발생을 최소화시키기 위해 강우와 유량과 같은 정형데이터로 홍수예보가 이뤄지고 있으나 기존의 정형데이터만 사용하다보니 도심지역이나 소규모 하천에서 인명 피해 예측에 어려움이 있다. 이를 보완하기 위해서는 인구의 유동성을 고려한 비정형데이터를 활용해야 한다. 최근 소셜 네트워크 서비스(SNS)의 사용자가 증가됨에 따라 텍스트나 사진과 같은 다양한 비정형데이터가 생성되고 있다. 이렇게 생성된 데이터는 다양한 분야에서 활용되고 있으며 특히 지진이나 홍수와 같은 재난 발생 시 유용한 데이터로 활용된 사례가 증가하고 있다. 이는 사람들이 GIS와 같은 위치정보나 시간 등을 포함한 다양한 정보를 포함하기 때문이다. 하지만 이렇게 생산된 비정형데이터를 기존 물리적 기반의 수문모형의 데이터로 활용하기에는 많은 한계점이 있다. 따라서 본 연구에서는 SNS 채널을 통해 생성된 비정형 데이터들을 인공신경망모형에 적용하여 하천수위를 예측하였다.

  • PDF

토픽 모델링을 이용한 비정형 데이터 기반 산업간 유사도 분석 (Analysis of similarity between industries based on unstructured data using topic modeling)

  • 김경원;박종빈;정종진;윤경로
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.180-182
    • /
    • 2018
  • 최근 빠르게 변화하는 산업 환경에서 뉴스 기사와 같은 비정형 데이터를 기반으로 산업 트랜드를 분석하기 위한 연구가 진행되고 있다. 뉴스와 같은 비정형 데이터를 기반으로 산업별 트랜드를 분석하기 위해서는 분석 대상 산업에 대한 많은 양의 시계열 데이터가 요구된다. 하지만, 수집된 비정형 데이터를 분류하면 산업별/기간별 일정하지 않은 데이터 분포를 보이거나, 특정 산업에 대해서는 특정 기간에 데이터가 존재하지 않은 경우가 발생하여 산업별 시계열 분석이 어려운 경우가 발생할 수 있다. 이에, 본 논문에서는 산업별/기간별 균일하지 못한 비정형 데이터의 분포를 보정하기 위한 방법으로 비정형 데이터 기반 산업간 유사도를 분석 기법을 제안한다. 산업별 유사도 분석을 위해 각 산업별 주요 키워드를 도출하고 토픽 모델링 기법을 이용하여 산업간 유사도 분석을 통해 산업별/기간별 비정형 데이터 부족현상을 보완하는 방법을 제시한다.

  • PDF

개인정보 비식별화 현황 및 비식별 조치 가이드라인 보완 연구

  • 손지민;신민호
    • 정보보호학회지
    • /
    • 제33권6호
    • /
    • pp.89-109
    • /
    • 2023
  • 최근 AI와 로봇기술 등으로 개인정보를 포함한 데이터의 처리가 일상화됨에 따라 한국정부는 개인정보 비식별 조치 가이드라인 및 데이터 3법을 발표함으로써 개인정보 비식별화를 돕고자 하였다. 하지만 복잡한 비식별화 절차와 이의 효과에 대한 불명확함으로 기업들이 개인정보를 포함한 빅데이터의 활용에 어려움을 겪고, 동시에 시민단체나 소비자단체에서는 현 가이드라인에 따른 비식별화 절차가 개인정보를 보호하기에 충분하지 않다고 지적하고 있다. 본고에서는 비식별화 현황과 기술을 검토하고 현 가이드라인의 한계점을 보완 함으로써 데이터 활용 업체와 기관들의 정확한 비식별화를 돕고 빅데이터 활용의 활성화에 기여하고자 한다.

스켈레톤을 이용한 삼차원 체적소 데이터의 부호화 (A Voxel Data Compression Using Skeleton)

  • 송인욱;김창수;이상욱
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.273-276
    • /
    • 2000
  • 3차원 영상은 2차원 영상에 비해 데이터량이 매우 방대하다. 따라서 3차원 데이터를 효율적으로 압축하는 것은 매우 중요하다. 현재까지 대부분의 연구는 데이터량이 체적소(voxel)에 비해 월등히 적은 메쉬(mesh)를 기반으로 하여 이루어져 왔다. 하지만, 메쉬를 이용한 데이터 압축의 경우 체적소에 비해 데이터 자체의 규칙성이 떨어져 체적소를 이용한 압축에 비해 압축 효율이 낮다. 그리고, 체적소 데이터를 이용할 경우, 이를 스켈레톤화 하여 데이터량을 더욱 줄일 수 있다. 따라서 본 논문에서는 3차원 체 적소 데이터의 규칙성과 스켈레톤을 이용한 압축 기법을 제안할 것이다.

  • PDF

준 지도 이상 탐지 기법의 성능 향상을 위한 섭동을 활용한 초구 기반 비정상 데이터 증강 기법 (Abnormal Data Augmentation Method Using Perturbation Based on Hypersphere for Semi-Supervised Anomaly Detection)

  • 정병길;권준형;민동준;이상근
    • 정보보호학회논문지
    • /
    • 제32권4호
    • /
    • pp.647-660
    • /
    • 2022
  • 최근 정상 데이터와 일부 비정상 데이터를 보유한 환경에서 딥러닝 기반 준 지도 학습 이상 탐지 기법이 매우 효과적으로 동작함이 알려져 있다. 하지만 사이버 보안 분야와 같이 실제 시스템에 대한 알려지지 않은 공격 등 비정상 데이터 확보가 어려운 환경에서는 비정상 데이터 부족이 발생할 가능성이 있다. 본 논문은 비정상 데이터가 정상 데이터보다 극히 작은 환경에서 준 지도 이상 탐지 기법에 적용 가능한 섭동을 활용한 초구 기반 비정상 데이터 증강 기법인 ADA-PH(Abnormal Data Augmentation Method using Perturbation based on Hypersphere)를 제안한다. ADA-PH는 정상 데이터를 잘 표현할 수 있는 초구의 중심으로부터 상대적으로 먼 거리에 위치한 샘플에 대해 적대적 섭동을 추가함으로써 비정상 데이터를 생성한다. 제안하는 기법은 비정상 데이터가 극소수로 존재하는 네트워크 침입 탐지 데이터셋에 대하여 데이터 증강을 수행하지 않았을 경우보다 평균적으로 23.63% 향상된 AUC가 도출되었고, 다른 증강 기법들과 비교했을 때 가장 높은 AUC가 또한 도출되었다. 또한, 실제 비정상 데이터에 유사한지에 대한 정량적 및 정성적 분석을 수행하였다.

토지 보상비 추정 모델 개발 - 건설CALS데이터와 공공데이터 중심으로 (Development of Land Compensation Cost Estimation Model : The Use of the Construction CALS Data and Linked Open Data)

  • 이상규;김진욱;서명배
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.375-378
    • /
    • 2020
  • 본 연구는 토지 보상비의 추정 모델 개발을 위해서 건설 CALS (Continuous Acquisition & Life-cycle Support) 시스템의 내부데이터와 개별공시지가 및 표준지 공시지가 등의 외부데이터, 그리고 개발된 추정 모델의 고도화를 위한 개별공시가 데이터를 기반으로 생성된 데이터를 활용하였다. 이렇게 수집된 3가지 유형의 데이터를 분석하기 위해서 기존 선형 모델 또는 의사결정나무 (Tree) 기반의 모델상 과적합 오류를 제거할 경우 매우 유용한 알고리즘으로 Decision Tree 기반의 Xgboost 알고리즘을 데이터 분석 방법론으로 토지 보상비 추정 모델 개발에 활용하였다. Xgboost 알고리즘의 고도화를 위해 하이퍼파라미터 튜닝을 적용한 결과, 실제 보상비와 개발된 보상비 추정 모델의 MAPE(Mean Absolute Percentage Error) 범위는 19.5%로 확인하였다.

  • PDF

의료 데이터 산업을 위한 비정형 데이터 비식별화 정책에 관한 연구 (A study on the policy of de-identifying unstructured data for the medical data industry)

  • 이선진;박태림;김소희;오영은;이일구
    • 융합보안논문지
    • /
    • 제22권4호
    • /
    • pp.85-97
    • /
    • 2022
  • 빅데이터 기술이 발전하면서 데이터가 전 산업의 혁신 성장을 가속하는 초연결 지능화 사회로 빠르게 진입하고 있다. 고품질의 다양한 데이터를 보유하고 활용하는 융복합 산업이 새로운 성장 동력으로 자리매김하고 있으며, 다양한 전통 산업군에 빅데이터가 융합되어 데이터 기반의 혁신을 통해 디지털 전환이 이루어지고 있다. 특히 의료 분야에서는 전자의무기록 데이터와 같은 정형 데이터와 CT, MRI 등의 비정형 의료 데이터를 함께 활용함으로써, 질병 예측 및 진단의 정확도를 높이고 있다. 현재 의료 산업에서 비정형 데이터의 중요성과 규모는 나날이 증가하고 있지만, 종래의 데이터 보안 기술과 정책은 정형 데이터 중심이며, 비정형 데이터의 보안성과 활용성에 대한 고려는 미비하다. 향후 빅데이터를 활용한 진료가 활성화되려면 데이터의 다양성과 보안성이 데이터 구축, 유통, 활용 단계에서 내재화되고 유기적으로 연계되어야 한다. 본 논문에서는 국내외 데이터 보안 제도와 기술 현황을 분석한다. 이후 의료 분야에서 비정형 데이터가 활발히 사용될 수 있도록 비식별조치 가이드라인에 비정형 데이터 중심의 비식별 기술과 산업에서의 기술 적용 사례를 추가하고, 비정형 데이터에 대한 개인정보 판단 기준을 수립할 것을 제안한다. 더 나아가 개인정보를 침해하지 않고, 비정형 데이터에 활용할 수 있는 객체 특징 기반의 식별 ID를 제안한다.

한국어 텍스트 데이터의 품질 평가 요소 및 방법 (Methods of Korean Text Data Quality Assessment)

  • 김정욱;홍초희;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.619-622
    • /
    • 2018
  • 최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

  • PDF

디지털 데이터 방송 환경에서 동기화 데이터 서비스를 위한 전송 시스템 설계 (Transmission system design for synchronized data service on digital data broadcasting environment)

  • 이용주;박민식;최지훈;최진수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2003년도 정기총회 및 학술대회
    • /
    • pp.201-204
    • /
    • 2003
  • 본 논문에서는 디지털 데이터 방송에서 동기화 데이터 서비스를 제공하기 위한 전송 시스템과 이를 이용한 동기화 데이터 서비스 방법을 제안한다. 데이터 방송을 통해 전송되는 부가 데이터는 그 특징에 따라 비동기, 동기, 동기화 데이터로 구분된다. 이들 중 동기화 데이터는 사용자의 선택에 의해 데이터 방송 수신기에서 재생되는 비동기 데이터와는 달리 비디오 또는 오디오의 특정 장면에 통기되어 재생될 수 있는 데이터고서, 데이터를 전송하는 단계에서 데이터가 재생되어야 하는 시전의 시간 정보인 재생시각이 함께 전송되는 특징이 있다. 동기화 데이터의 이와 같은 특징으로 인해 현재 대부분의 데이터 방송에 사용되고 있는 비동기 데이터 서비스를 위한 전송 시스템은 동기화 데이터의 전송에는 부적합하며, 동기화 데이터 서비스를 위해서는 새로운 전송 시스템에 대한 연구가 필요하다. 본 논문에서는 데이터 방송을 동해 동기화 데이터 서비스를 제공하기 위해 기존의 비동기 데이터 전송 시스템에 MPEG-2 오디오/비디오 TS(Transport Stream)를 출력하는 장치와 동기화 데이터를 다중화 하는 장치를 추가한 새로운 동기화 데이터 전송 시스템과 이를 이용한 동기화 데이터 서비스 방법을 제안한다

  • PDF