• 제목/요약/키워드: Preprocessing

검색결과 2,115건 처리시간 0.031초

동시출현단어 분석을 이용한 오픈 데이터 분야의 지적 구조 분석 (Intellectual Structure Analysis on the Field of Open Data Using Co-word Analysis)

  • 이혜경;이용구
    • 정보관리학회지
    • /
    • 제40권4호
    • /
    • pp.429-450
    • /
    • 2023
  • 본 연구의 목적은 오픈 데이터 관련 연구의 최근 동향과 지적 구조를 고찰하는 것이다. 이를 위하여 본 연구는 Scopus에서 저자 키워드로 'open data'를 검색하여 1999년부터 2023년까지 총 6,543건의 논문을 수집하였으며, 데이터 전처리 이후 5,589편 논문의 저자 키워드를 대상으로 오픈 데이터 관련 연구 분야 및 링크드 오픈 데이터 관련 연구 분야의 중심성 도출과 네트워크 분석을 수행하였다. 그 결과, 오픈 데이터 관련 연구에서는 'big data'가 가장 높은 중심성을 보였으며, 주로 공공데이터 개념의 오픈 데이터로서의 활용 및 정책 적용 연구, 빅데이터와의 연관개념으로서의 오픈 데이터를 활용한 데이터 분석에 관한 연구, 오픈 데이터의 재생산이나 활용 및 접근과 같은 오픈 데이터의 이용과 관련한 주제의 연구가 이뤄지고 있음이 나타났다. 그리고 링크드 오픈 데이터 관련 연구는 삼각매개중심성 및 최근접이웃중심성에서 모두 'semantic web'이 가장 높은 것으로 나타났으며, 정부 정책의 공공데이터보다 데이터 연계와 관계 형성을 중점으로 한 연구가 많이 수행된 것으로 나타났다.

기계학습 기반 회절파 분리 적용을 통한 GPR 탐사 자료의 도로 하부 공동 및 구조물 탐지 성능 향상 (Improvement of Underground Cavity and Structure Detection Performance Through Machine Learning-based Diffraction Separation of GPR Data)

  • 김수윤;변중무
    • 지구물리와물리탐사
    • /
    • 제26권4호
    • /
    • pp.171-184
    • /
    • 2023
  • 최근 도심지 도로에서 빈번하게 발생하는 도로 파임의 주원인인 지하 공동의 발생을 파악하기 위해, 차량 부착형 지표투과레이더(GPR)를 통해 얻은 대량의 취득 자료를 효율적으로 처리하기 위한 기계학습 기반 공동 탐지 기술이 활발하게 연구되고 있다. 그러나 기계학습 자료 생성 시 단순한 영상 처리 기법들만 활용되고 있고, 탄성파 탐사나 GPR 자료 처리에 시도되었던 여러 기법들은 충분히 활용되지 못하고 있다. 이 연구에서는 지하 공동의 탐지가 대부분 회절파의 탐지에 의해 이루어진다는 점에 착안하여 GPR 자료로부터 회절파를 분리하여 YOLO v5 모델을 이용한 도로 하부 공동 탐지 모델의 성능을 향상시켰다. 탄성파에서 개발된 기계학습 기반 회절파 분리 기법을 GPR 자료에 맞게 변형한 후, GPR 현장 자료에서 회절파를 분리하여 공동 탐지 모델의 입력으로 사용하였다. 서울시 공공 개방 GPR 자료를 이용하여 제안된 방법의 성능을 검증한 결과, 회절파 분리를 이용했을 때 더 정확하게 공동 및 지하 구조물을 탐지하는 것을 확인하였다. 또한 제안된 회절파 분리 기법은 향후 GPR 탐사가 이용되는 다양한 분야에서 활용될 수 있을 것으로 기대된다.

K-평균 군집화 알고리즘 및 최근접점 기반 무인항공기용 공선상의 다중 정적 장애물 충돌 회피 (K-Means Clustering Algorithm and CPA based Collinear Multiple Static Obstacle Collision Avoidance for UAVs)

  • 김혜지;강혁;이성봉;김형석;이동진
    • 한국항행학회논문지
    • /
    • 제26권6호
    • /
    • pp.427-433
    • /
    • 2022
  • 무인항공기의 충돌 회피 기술은 장애물에 대한 탐지 기술과 충돌 여부 판단 및 회피 기술이 요구된다. 본 논문은 공선상에 존재하는 다중 정적 장애물에 대한 무인항공기의 충돌 회피를 수행하기 위하여, LiDAR를 활용한 장애물 탐지 알고리즘과 최근접점 기반의 충돌 인식 및 회피 알고리즘을 제안한다. 장애물 탐지를 수행하기 위하여 LiDAR의 측정 데이터 중 지면을 제거하는 전처리를 수행하고, K-평균 군집화 알고리즘을 활용하여 전처리된 데이터에서 장애물을 탐지 및 분류한다. 또한, 상대 항법을 통해 탐지한 다중 장애물의 절대 위치를 추정하며, 저주파 통과 필터를 활용하여 추정 위치를 보정한다. 탐지한 다중 정적 장애물과의 충돌 회피를 수행하기 위해 최근접점 기반의 충돌 인식 및 회피 알고리즘을 활용한다. 각 장애물 간의 거리를 활용하여 회피해야 하는 장애물 정보를 갱신하고, 갱신된 장애물 정보를 통해 충돌 인식 및 회피를 수행한다. 마지막으로 Gazebo 시뮬레이션 환경에서의 장애물 위치 추정, 충돌 인식 및 회피 결과 분석을 통해, 충돌 회피가 정상적으로 수행되는 것을 검증하였다.

산악지형 드론 라이다 데이터 점군 분리를 위한 CSF 알고리즘 적용에 관한 연구 (Study on Applicability of Cloth Simulation Filtering Algorithm for Segmentation of Ground Points from Drone LiDAR Point Clouds in Mountainous Areas)

  • 구슬 ;임언택;정용한;석재욱;김성삼
    • 대한원격탐사학회지
    • /
    • 제39권5_2호
    • /
    • pp.827-835
    • /
    • 2023
  • 드론 라이다(Drone LiDAR)는 산지의 비탈면 정상부나 접근이 불가한 사면에 대해 근접 조사가 가능한 첨단 측량 기술로 산악지형에서 현장조사를 위한 활용이 높아지고 있다. 드론 라이다를 활용하여 지형 정보를 구축하기 위해서는 취득된 포인트 클라우드로부터 지면과 비지면 점들을 효과적으로 분리하는 전처리 과정이 필요하다. 따라서 본 연구에서는 상업용 드론에 탑재된 항공 라이다를 이용하여 산악지형의 점군 자료를 취득하고, 지면분리 기법 중 하나인 cloth simulation filtering (CSF) 알고리즘을 적용하고 정확도를 검증하였다. 알고리즘을 적용한 결과, 지면과 비지면에 대한 분리 정확도는 84.3%, kappa 계수는 0.71로 나타났고 드론 라이다 데이터를 산악지형의 산사태 현장조사에 효과적으로 활용할 수 있음을 확인하였다.

자동 위성영상 수집을 통한 다종 위성영상의 시계열 데이터 생성 (Generation of Time-Series Data for Multisource Satellite Imagery through Automated Satellite Image Collection)

  • 남윤지;정성우;김태정;이수암
    • 대한원격탐사학회지
    • /
    • 제39권5_4호
    • /
    • pp.1085-1095
    • /
    • 2023
  • 위성데이터를 활용한 시계열 데이터는 다양한 분야에서 변화 탐지와 모니터링에 필수적인 자료로 활용되고 있다. 시계열 데이터 생성에 관한 선행 연구에서는 데이터의 통일성을 유지하기 위해 주로 단일 영상을 기반으로 분석하는 방식이 사용되었다. 또한 공간 및 시간 해상도 향상을 위해 다종 영상을 활용하는 연구도 활발하게 진행되고 있다. 시계열 데이터의 중요성은 계속해서 강조되지만, 데이터를 자동으로 수집하고 가공하여 연구에 활용하기 위한 산출물은 아직 제공되지 않고 있다. 따라서 이러한 한계를 극복하기 위해 본 논문에서는 사용자가 설정한 지역의 위성정보를 자동으로 수집하고 시계열 데이터를 생성하는 기능을 제안한다. 본 연구는 한 종류의 위성영상뿐만 아니라 동일 지역의 여러 위성데이터를 수집하고 이를 시계열 데이터로 변환하여 산출물을 생성하는 것을 목표로 하며, 이를 위한 위성영상 자동 수집 시스템을 개발하였다. 이 시스템을 활용하면 사용자는 관심 있는 지역을 설정함으로써 해당 지역에 맞게 데이터가 수집되고 Crop되어 즉시 활용할 수 있는 데이터를 생성할 수 있다. 실험 결과로는 웹 상에서 무료로 제공되는 Landsat-8/9 OLI 및 Sentinel-2 A/B 영상의 자동 획득이 가능함을 확인하였으며, 수동 입력을 통해 별도의 고해상도 위성영상도 함께 처리할 수 있었다. 고해상도 위성영상을 기준으로 자동 수집 및 편집된 영상 간의 정확도를 비교하고 육안 분석을 수행한 결과, 큰 오차 없이 결과물을 생성할 수 있음을 확인했다. 이후 시계열 데이터 간 상대적 위치 오차 최소화 및 좌표가 획득되어 있지 않은 데이터 처리 등에 대한 연구 및 다양한 위성영상을 활용한 시계열 데이터 생성 기능 추가가 계획되어 있다. 위성영상을 활용한 시계열 데이터의 생성 방법이 정립되고, 국토위성, 농림위성과 같은 국내 위성정보를 이용한 시계열 데이터가 효과적으로 활용될 경우, 국토·농림·산업·해양 분야에서 다양한 응용 가능성이 기대된다.

근접 치료에서 역방향 치료 계획의 선량분포 계산 가속화 방법 (An Accelerated Approach to Dose Distribution Calculation in Inverse Treatment Planning for Brachytherapy)

  • 조병두
    • 한국방사선학회논문지
    • /
    • 제17권5호
    • /
    • pp.633-640
    • /
    • 2023
  • 최근 근접 치료에서 방사선 차폐막을 사용하여 선량 분포를 변조하여 선량을 전달하는 정적 및 동적 변조 근접 치료 방법이 개발됨에 따라 새로운 방향성 빔 세기 변조 근접 치료에 적합한 역방향 치료 계획 및 치료 계획 최적화 알고리즘에서 선량 계산에 필요한 파라미터 및 데이터의 양이 증가하고 있다. 세기 변조 근접 치료는 방사선의 정확한 선량 전달이 가능하지만, 파라미터와 데이터의 양이 증가하기 때문에 선량 계산에 필요한 경과 시간이 증가한다. 본 연구에서는 선량 계산 경과 시간의 증가를 줄이기 위해 그래픽 카드 기반의 CUDA 가속 선량 계산 알고리즘을 구축하였다. 계산 과정의 가속화 방법은 관심 체적의 시스템 행렬 계산 및 선량 계산의 병렬화를 이용하여 진행하였다. 개발된 알고리즘은 모두 인텔(3.7GHz, 6코어) CPU와 단일 NVIDIA GTX 1080ti 그래픽 카드가 장착된 동일한 컴퓨팅 환경에서 수행하였으며, 선량 계산 시간은 디스크에서 데이터를 불러오고 전처리를 위한 작업 등의 추가 적으로 필요한 시간은 제외하고 선량 계산 시간만 측정하여 평가하였다. 그 결과 가속화된 알고리즘은 CPU로만 계산할 때보다 선량 계산 시간이 약 30배 단축된 것으로 나타났다. 가속화된 선량 계산 알고리즘은 적응방사선치료와 같이 매일 변화되는 어플리케이터의 움직임을 고려하여 새로운 치료 계획을 수립해야 하는 경우나 동적 변조 근접 치료와 같이 선량 계산에 변화되는 파라미터를 고려해야 하는 경우 치료 계획 수립 속도를 높일 수 있을 것으로 판단된다.

CNN-LSTM 기반의 상지 재활운동 실시간 모니터링 시스템 (CNN-LSTM-based Upper Extremity Rehabilitation Exercise Real-time Monitoring System)

  • 김재정;김정현;이솔;서지윤;정도운
    • 융합신호처리학회논문지
    • /
    • 제24권3호
    • /
    • pp.134-139
    • /
    • 2023
  • 재활환자는 수술 치료 후 신속한 사회복귀를 목적으로 신체적 기능 회복을 위하여 통원치료 및 일상에서 재활운동을 수행한다. 병원에서 전문 치료사의 도움으로 운동을 수행하는 것과 달리 일상에서 환자 스스로 재활운동을 수행하는 것은 많은 어려움이 있다. 본 논문에서는 일상에서 환자 스스로 효율적이고 올바른 자세로 재활운동을 수행할 수 있도록 CNN-LSTM 기반의 상지 재활운동 실시간 모니터링 시스템을 제안한다. 제안한 시스템은 EMG, IMU가 탑재된 어깨 착용형 하드웨어를 통해 생체신호를 계측하고 학습을 위한 전처리 과정과 정규화를 진행하여 학습 데이터세트로 사용하였다. 구현된 모델은 특징 검출을 위한 3개 합성곱 레이어 3개의 폴링 레이어, 분류를 위한 2개의 LSTM 레이어로 구성되어 있으며 검증 데이터에 대한 학습 결과 97.44%를 확인할 수 있었다. 이후 Teachable machine과의 비교평가를 진행하였으며 비교평가 결과 구현된 모델은 93.6%, Teachable machine은 94.4%로 두 모델이 유사한 분류 성능을 나타내는 것을 확인하였다.

NFT(Non-Fungible Token) Patent Trend Analysis using Topic Modeling

  • Sin-Nyum Choi;Woong Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.41-48
    • /
    • 2023
  • 본 논문은 여러 산업 분야에서 범용적으로 활용될 수 있는 NFT(Non-Fungible Token)에 대해 토픽 모델링 기법을 활용하여 최근의 NFT 산업 동향에 대한 분석 결과를 제시한다. 본 연구에서는 산업 동향을 파악하기 위해 특허 데이터를 활용하였으며, NFT 표준안이 처음으로 발표되었던 2017년부터 2023년 10월까지 특허정보검색서비스 키프리스에 등록된 NFT 관련 국내·외 특허 각각 371건, 454건의 특허 데이터를 수집하였다. 다음으로 전처리 작업에서 불용어, 표제어를 제거 후 명사 단어만을 추출하였고, 분석 방법으론 빈도수에 따른 상위 50개의 단어를 나열하고, 단어마다 계산된 TF-IDF 값을 같이 확인하여 산업 동향의 핵심 키워드를 도출하였다. 다음으로, LDA 알고리즘을 활용해 국내·외 별로 특허 데이터에서 잠재된 4개의 주요 주제를 도출하였다. 도출한 주제별로 내용을 분석하고, 실제 NFT 산업사례를 근거로 들어 NFT 산업 동향 분석내용을 제시하였다. 선행연구에서는 논문 데이터를 통해 학술적 관점에서 동향을 제시하였다면 본 연구는 현장 실무에 기반을 둔 데이터를 활용하여 실용적인 동향 내용을 제공했다는 점에서 의의가 있으며, NFT 산업계 관련자들이 시장 현황 파악 및 새로운 아이템 창출을 위한 참고용으로 활용될 것으로 기대한다.

머신러닝 기반의 신약 재창출 관련 연구 동향 분석 (Analysis of Research Trends Related to drug Repositioning Based on Machine Learning)

  • 유소연;임규건
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.21-37
    • /
    • 2022
  • 신약을 개발하는 한 가지 방법의 하나인 신약 재창출(Drug Repositioning)은 이미 사람들에게 사용할 수 있도록 승인된 약물들이 다른 용도로 사용되도록 하여 새로운 적응증을 발견하는 유용한 방법이다. 최근에는 머신러닝 기술의 발달로 방대한 생물학적 정보를 분석하여 신약 개발에 활용하는 경우가 증가하고 있다. 신약 재창출에 머신러닝 기술을 활용하면 효과적인 치료법을 신속하게 찾아내는 데 도움을 줄 것이다. 현재 심각한 급성 호흡기 증후군인 코로나바이러스(COVID-19)에 의한 신종 질병으로 전 세계가 힘든 시간을 보내고 있다. 이미 임상적으로 승인된 약물의 용도를 변경하는 신약 재창출은 COVID-19 환자를 치료하기 위한 치료제의 대안이 될 수 있다. 본 연구는 머신러닝 기법을 활용하여 신약 재창출 분야에 대한 연구 동향을 살펴보고자 한다. Pub Med에서 웹 스크래핑 기법을 사용하여 'Drug Repositioning'이라는 키워드로 총 4,821건의 논문을 수집하였다. 데이터 전처리 후, 4,419건의 논문을 대상으로 빈도분석, LDA 기반 토픽모델링, Random Forest 분류 분석 및 예측 성능평가를 수행하였다. Word2vec 모델을 기반으로 연관어를 분석하였고, PCA 차원 축소 후 K-Means 군집화하여 레이블을 생성한 후, t-SNE 알고리즘을 이용하여 논문이 형성하고 있는 그룹을 시각화하고, LDA 결과에 계층적 군집화를 적용하여 히트맵으로 시각화하였다. 본 연구는 신약 재창출과 관련된 연구 주제가 무엇인지를 파악하고, 머신러닝 알고리즘을 사용하여 대량의 문헌에서 의미 있는 주제를 도출하고 시각화하는 방법을 제시하였다. 향후 신약 재창출 분야의 연구나 개발 전략을 수립하기 위한 기초자료로 활용되는 데 도움을 줄 것이라고 기대한다.

머신러닝 기법을 이용한 약물 분류 방법 연구 (A Study on the Drug Classification Using Machine Learning Techniques)

  • Anmol Kumar Singh;Ayush Kumar;Adya Singh;Akashika Anshum;Pradeep Kumar Mallick
    • 산업과 과학
    • /
    • 제3권2호
    • /
    • pp.8-16
    • /
    • 2024
  • 본 논문에서는 인구통계학적, 생리학적 특성을 기반으로 환자에게 가장 적합한 약물을 예측하는 것을 목표로 하는 약물 분류 시스템을 제시한다. 데이터 세트에는 적절한 약물을 결정하기 위한 목적으로 연령, 성별, 혈압(BP), 콜레스테롤 수치, 나트륨 대 칼륨 비율(Na_to_K)과 같은 속성들이 포함된다. 본 연구에 사용된 모델은 KNN(K-Nearest Neighbors), 로지스틱 회귀 분석 및 Random Forest이다. 하이퍼파라미터를 최적화하기 위해 5겹 교차 검증을 갖춘 GridSearchCV를 활용하였으며, 각 모델은 데이터 세트에서 훈련 및 테스트 되었다. 초매개변수 조정 유무에 관계없이 각 모델의 성능은 정확도, 혼동 행렬, 분류 보고서와 같은 지표를 사용하여 평가되었다. GridSearchCV를 적용하지 않은 모델의 정확도는 0.7, 0.875, 0.975인 반면, GridSearchCV를 적용한 모델의 정확도는 0.75, 1.0, 0.975로 나타났다. GridSearchCV는 로지스틱 회귀 분석을 세 가지 모델 중 약물 분류에 가장 효과적인 모델로 식별했으며, K-Nearest Neighbors가 그 뒤를 이었고 Na_to_K 비율은 결과를 예측하는 데 중요한 특징인 것으로 밝혀졌다.