• 제목/요약/키워드: 군집화 기법

검색결과 501건 처리시간 0.023초

텍스트마이닝과 CONCOR을 활용한 중독 관련 국내 연구 동향 분석 (Analysis of trends in domestic research on addiction using text mining and CONCOR)

  • 이솔지;윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제9권6호
    • /
    • pp.99-110
    • /
    • 2023
  • 이 연구는 한국의 중독 연구의 동향을 파악하고 발전 방향을 모색하기 위해 2020년부터 2022년까지 지난 3년간 국내 전문학술지 게재 논문 817 건을 대상으로 텍스트마이닝 기법을 활용하여 분석한 연구이다. 분석 결과는 다음과 같다. 첫째, 다양한 중독 관련 키워드가 나타났으나 스마트폰, 게임, 인터넷, 도박, 관계중독 등 모바일을 중심으로 한 온라인에서의 행위중독 관련 중독 연구들이 주요 상위 키워드로 두드러지게 나타났다. 둘째, TF-IDF 분석결과 중독연구에서 지난 3년 간 스마트폰이나, 게임, 인터넷, 일 중독과 같은 행위중독 관련 중독연구가 많이 수행되었고 특히, 아직 임상적으로 중독문제로 진단화 하고 있지 않은 스마트폰이나 게임, 인터넷 등에 대한 중독문제들에 대한 연구수행이 많다는 것을 알 수 있다. 셋째, 2-gram 분석 결과 스마트폰이나 게임, 인터넷 등 주로 행위중독에 해당 되는 단어들이 중독이라는 키워드와 나란히 등장하는 비율이 매우 높으며, 그 가운데 스마트폰과 중독문제와 관련하여 쌍을 이루는 단어들이 연구논문에서 많이 언급되고 있음을 알 수 있다. 넷째, CONCOR 분석결과 알코올사용장애, 인터넷 등 보편적 중독문제에 관한 연구, 마약과 도박중독의 회복 관련 연구, 모바일기기와 미디어 중독 관련 연구, 행위중독 관련 최신 경향 연구, 그 외 기타 중독 문제 관련 연구로 5개의 군집으로 나타났다. 마지막으로 본 연구 결과를 바탕으로 향후 중독 관련 연구를 위한 방향성을 제언하였다.

통계적 형상분석을 이용한 엑셀 방사형 차트의 분류와 판별 (Classification and discrimination of excel radial charts using the statistical shape analysis)

  • 이승언;김준홍;최연석;최용석
    • 응용통계연구
    • /
    • 제37권1호
    • /
    • pp.73-86
    • /
    • 2024
  • 평가지표와 같은 수치형 자료의 경우 수치 형태보다 엑셀(Excel)의 방사형 차트 형태로 나타내 시각적으로 표현하면 정보 전달에 더욱 효과적일 것이다. 그러나 개체가 많은 경우 시각적으로 판별하거나 분류하는 것이 쉽지 않다. 이럴 경우 각 개체에 대해 방사형 차트를 이용하여 형상화 시킨 후, 형상의 정보를 대표할 수 있는 형상점을 찾고 형상좌표로 변환해 형상분석을 적용하여 분류 및 판별하는 방법을 알아보고자 한다. 형상분석을 이용하기 위해 주로 분석자의 주관으로 형상점을 얻고 임의의 좌표공간을 생성시켜 좌표를 얻곤 했다. 방사형 차트는 해당 개체의 특징을 나타내는 변수의 개수만큼 형상점이 생기게 되고 이를 선으로 이은 것은 하나의 형상으로 여겨진다. 따라서 중심을 원점으로 두고 2차원 공간으로 정의를 내린 후, X축과 각 특징을 나타내는 축이 이루는 각에 대해 삼각함수를 적용해 형상좌표를 추출해낸다. 변수의 개수가 많아 형상의 모양이 복잡해질 경우 방사형 차트를 이용해 시각화하더라도 쉽게 파악하기 어렵다. 독립성을 보장할 수 없는 변수들에 대해 주성분 분석(PCA)을 실시하여 시각적으로 효과적인 형상을 만든다. PCA를 실시하기 전과 후의 형상에 대해 전통적 판별분석, 서포트벡터머신(support vector machine; SVM), 인공신경망(artificial neural network; ANN)의 기법을 적용시켜 분류표와 분류율을 확인한다. 또한 GPA (generalized procrustes analysis) 적합좌표, 북스테인좌표 2가지 좌표에 대한 판별의 차이를 비교한다. 북스테인좌표의 경우 기저 형상점을 중심으로 형상의 위치와 회전, 척도를 변환한 좌표로써, 분류율에 대해 GPA 형상좌표보다 더 높은 결과를 보이고 있다. 북스테인좌표의 경우 여러 군집 간의 형상을 비교하는데 유용하게 활용된다.

사상체질분류검사지(四象體質分類檢査紙)(QSCC)II에 대(對)한 타당화(妥當化) 연구(硏究) -각(各) 체질집단(體質集團)의 군집별(群集別) Profile 분석(分析)을 중심(中心)으로- (The Validation Study of the Questionnaire for Sasang Constitution Classification (the 2nd edition revised in 1995) - In the field of profile analysis)

  • 이정찬;고병희;송일병
    • 사상체질의학회지
    • /
    • 제8권1호
    • /
    • pp.247-294
    • /
    • 1996
  • 본 논문은 사상채질분류검사지의 표준화 연구와 공동작업으로 행해진 연구로써 최근에 들어 다각도로 행해지고 있는 사상체질분류 객관화 연구의 한 방면이라고 하겠다. 본 논문의 주된 내용은 진단정확률의 확인을 통하여 새로 개발된 검사지의 타당도를 검증해 보고 프로파일 분석이라고 하는 통계분석상의 기법을 활용해서 설문지에 대한 적응도가 다소 떨어지는 집단들을 추출해내고 그들의 특성을 분석연구하자는 것이다. 연구에 사용된 검사지는 기본의 1992년판 검사지를 의학, 문학, 철학 및 심리화분야등 각 방면에서 폭넓은 검토를 거쳐 개정한 것이다. 본 연구의 대상이 되는 집단은 1995년 8월 7일부터 동년 9월 6일까지 경희의료원 동서종합건진센터 및 경희의료원 한방병원의 사상의학과에서 수진하여 전문의의 사상체질변증과정을 거친 외래환자들의 집단과 체질변증 과정이 없이 개방적으로 자료를 모집하되 연령별, 성별, 학력별로 나누어 고르게 분포하도록 한 일반인들의 집단으로 집단내 인원수는 각각 총 274명과 1092명이었다. 이들로부터 채집된 자료중 환자집단의 자료를 가지고 진단정확률을 조사하고, 일반인군 자료의 표준화에서 얻어진 규준(norms)을 환자군의 사상척도점수에 적용하여 T점수를 구하고 다변량군집분석을 시행하여 집단별 특성을 프로파일 그래프로 작성하여 파악해 보는 작업을 거쳐 다음과 같은 결론을 얻었다. 1. 예언집단과 실제 집단간의 비교로 나타나는 진단정확률은 기존의 QSCC에 비하여 대폭 향상된 70.08%로 나타나 검사지의 타당도가 입증되었다. 2. 각 체질집단의 전체 프로파일 특성비교에서 각 체질별로 해당척도에 대한 반응은 모든 척도에서 일정하게 상승되어 체질변증의 측면에서 긍정적인 양상을 보였다. 3. 자기표현의 정도를 중심으로 관찰해 본 전체 프로파일의 분석에서는 소양집단이 가장 뚜렷한 선명성을 보였고 소음집단이 가장 취약하였으며 태음집단은 이중적 속성을 나타냈다. 4. 각 체질별 세 군의 하위집단중에서 소위 이탈집단이라고 할 수 있는 부류의 집단은 나머지 두 집단과 프로파일의 특성에 있어서 확연히 구분되는 양상을 보였는 바 그 내용은 다음과 같다. 가. 소양인의 이탈집단은 소양집단의 일반적 속성과 달리 현저하게 소극적인 양상을 보였으며 소음척도에서 비교적 높은 반응을 보였다. 나. 태음인의 이탈집단은 점수분포가 매우 낮은 소극적 양상을 보였으며 태음집단의 특성인 태양-태음 동반상승과는 반대로 태양척도에서 점수가 급락하는 현상을 나타냈다. 다. 소음인의 이탈집단은 소양집단의 프로파일 형태와 유사한 특성을 보여 소음집단 특유의 소극적이고 표현에 취약한 특성이 대부분 희석된 것으로 나타났다. 이상의 결과로 보아 제작된 검사지의 타당도가 입증되었으며 본 연구의 과정에서 실시한 체질별 이탈집단의 프로파일 분석을 통해 몇가지 방향에서 그들의 특성을 파악할 수 있었다. 이 결과는 추후에 본 검사지의 개선에 하나의 자료로 이용될 수 있을 것으로 기대하며 검사지의 발전을 위해서는 이탈집단과 대조집단의 특성차이에 대한 좀 더 심층적인 연구가 지속되어져야 할 것으로 사료된다.

  • PDF

Deep Convolution Neural Networks 이용하여 결함 검출을 위한 결함이 있는 철도선로표면 디지털영상 재 생성 (Regeneration of a defective Railroad Surface for defect detection with Deep Convolution Neural Networks)

  • 김현호;한석민
    • 인터넷정보학회논문지
    • /
    • 제21권6호
    • /
    • pp.23-31
    • /
    • 2020
  • 본 연구는 철도표면상에 발생하는 노후 현상 중 하나인 결함 검출을 위해 학습데이터를 생성함으로써 결함 검출 모델에서 더 높은 점수를 얻기 위해 진행되었다. 철도표면에서 결함은 선로결속장치 및 선로와 차량의 마찰 등 다양한 원인에 의해 발생하고 선로 파손 등의 사고를 유발할 수 있기 때문에 결함에 대한 철도 유지관리가 필요 하다. 그래서 철도 유지관리의 자동화 및 비용절감을 위해 철도 표면 영상에 영상처리 또는 기계학습을 활용한 결함 검출 및 검사에 대한 다양한 연구가 진행되고 있다. 일반적으로 영상 처리 분석기법 및 기계학습 기술의 성능은 데이터의 수량과 품질에 의존한다. 그렇기 때문에 일부 연구는 일반적이고 다양한 철도표면영상의 데이터베이스를 확보하기위해 등간격으로 선로표면을 촬영하는 장치 또는 탑재된 차량이 필요로 하였다. 본연구는 이러한 기계적인 영상획득 장치의 운용비용을 감소시키고 보완하기 위해 대표적인 영상생성관련 딥러닝 모델인 생성적 적대적 네트워크의 기본 구성에서 여러 관련연구에서 제시된 방법을 응용, 결함이 있는 철도 표면 재생성모델을 구성하여, 전용 데이터베이스가 구축되지 않은 철도 표면 영상에 대해서도 결함 검출을 진행할 수 있도록 하였다. 구성한 모델은 상이한 철도 표면 텍스처들을 반영한 철도 표면 생성을 학습하고 여러 임의의 결함의 위치에 대한 Ground-Truth들을 만족하는 다양한 결함을 재 생성하도록 설계하였다. 재생성된 철도 표면의 영상들을 결함 검출 딥러닝 모델에 학습데이터로 사용한다. 재생성모델의 유효성을 검증하기 위해 철도표면데이터를 3가지의 하위집합으로 군집화 하여 하나의 집합세트를 원본 영상으로 정의하고, 다른 두개의 나머지 하위집합들의 몇가지의 선로표면영상을 텍스처 영상으로 사용하여 새로운 철도 표면 영상을 생성한다. 그리고 결함 검출 모델에서 학습데이터로 생성된 새로운 철도 표면 영상을 사용하였을 때와, 생성된 철도 표면 영상이 없는 원본 영상을 사용하였을 때를 나누어 검증한다. 앞서 분류했던 하위집합들 중에서 원본영상으로 사용된 집합세트를 제외한 두 개의 하위집합들은 각각의 환경에서 학습된 결함 검출 모델에서 검증하여 출력인 픽셀단위 분류지도 영상을 얻는다. 이 픽셀단위 분류지도영상들과 실제 결함의 위치에 대한 원본결함 지도(Ground-Truth)들의 IoU(Intersection over Union) 및 F1-score로 평가하여 성능을 계산하였다. 결과적으로 두개의 하위집합의 텍스처 영상을 이용한 재생성된 학습데이터를 학습한 결함 검출모델의 점수는 원본 영상만을 학습하였을 때의 점수보다 약 IoU 및 F1-score가 10~15% 증가하였다. 이는 전용 학습 데이터가 구축되지 않은 철도표면 영상에 대해서도 기존 데이터를 이용하여 결함 검출이 상당히 가능함을 증명하는 것이다.

MaxEnt 모델링을 이용한 기후변화 시나리오에 따른 서어나무 (Carpinus laxiflora)와 개서어나무 (C. tschonoskii)의 분포변화 예측 (Prediction of Distribution Changes of Carpinus laxiflora and C. tschonoskii Based on Climate Change Scenarios Using MaxEnt Model)

  • 이민기;천정화;이창배
    • 한국농림기상학회지
    • /
    • 제23권1호
    • /
    • pp.55-67
    • /
    • 2021
  • 서어나무속 수종은 우리나라 온대중부지방 극상림을 이루는 주요 수종으로 인식되어 왔으며, 국내에서 넓은 분포역을 보인다. 기존 많은 연구들은 서어나무(C. laxiflora) 군락의 군집구조, 식생천이, 분포 현황 등에 대한 연구가 대부분을 이루었다. 그러나, 개서어나무(C. tschonoskii)의 경우, 개체종 수준에서의 집중연구보다는 임분 내 구성목으로서 다른 수목종들과의 군집구조 분석에 초점을 맞춰 아직까지 연구가 미흡실정이다. 또한, 두 수종에 대한 서식환경, 서식지 선호도, 기후 및 환경변화 등의 교란에 따른 서식지 변화에 대한 연구는 전무한 실정이다. 본 연구에서는 최대 엔트로피 모델링(MaxEnt; Maximum Entropy Modeling)기법을 사용해 서어나무와 개서어나무의 서식지 분포에 영향을 끼치는 환경인자를 분석하고 두 가지 기후 예측 시나리오인 RCP4.5 및 RCP8.5를 적용하여 각각 2050년대와 2090년대의 분포변화를 예측하였다. 연구결과 각 수종의 서식지 분포에 영향을 끼치는 주요인자로 서어나무는 고도, 온도 계절성, 연평균 강수량인 것으로 나타났고, 개서어나무는 온도 계절성, 연평균 강수량, 주간 일교차인 것으로 나타났다. 서식지 면적의 경우 서어나무는 RCP4.5, RCP8.5의 기후변화가 진행됐을 때, 현재 서식지 면적에 비해 각각 약 1.05배, 약 1.11배로 면적이 증가할 것으로 예측되었다. 개서어나무는 RCP4.5, RCP8.5의 기후변화가 진행됐을 때, 현재 서식지 면적에 비해 각각 약 1.24배, 약 1.33배의 증가가 보일 것으로 예측되었다. 본 연구는 분류학적으로 유사계통에 속하는 서어나무와 개서어나무의 기후변화에 따른 국내 분포확산과 분포지역 간 차이에 대한 미래예측 그리고 두 종의 서식지 및 개체군 관리에 있어서 잠재적 관리 대상지 및 고려사항에 대한 유의미한 정보를 제공할 것으로 판단된다.

유역정보 기반 Transformer및 LSTM을 활용한 다목적댐 일 단위 유입량 예측 (Prediction of multipurpose dam inflow utilizing catchment attributes with LSTM and transformer models)

  • 김형주;송영훈;정은성
    • 한국수자원학회논문집
    • /
    • 제57권7호
    • /
    • pp.437-449
    • /
    • 2024
  • 딥러닝을 활용하여 유역 특성을 반영한 유량 예측 및 비교 연구가 주목받고 있다. 본 연구는 셀프 어텐션 메커니즘을 통해 대용량 데이터 훈련에 적합한 Transformer와 인코더-디코더(Encoder-Decoder) 구조를 가지는 LSTM-based multi-state-vector sequence-to-sequence (LSTM-MSV-S2S) 모형을 선정하여 유역정보(catchment attributes)를 고려할 수 있는 모형을 구축하였고 이를 토대로 국내 10개 다목적댐 유역의 유입량을 예측하였다. 본 연구에서 설계한 실험 구성은 단일유역-단일훈련(Single-basin Training, ST), 다수유역-단일훈련(Pretraining, PT), 사전학습-파인튜닝(Pretraining-Finetuning, PT-FT)의 세 가지 훈련 방법을 사용하였다. 모형의 입력 자료는 선정된 10가지 유역정보와 함께 기상 자료를 사용하였으며, 훈련 방법에 따른 유입량 예측 성능을 비교하였다. 그 결과, Transformer 모형은 PT와 PT-FT 방법에서 LSTM-MSV-S2S보다 우수한 성능을 보였으며, 특히 PT-FT 기법 적용 시 가장 높은 성능을 나타냈다. LSTM-MSV-S2S는 ST 방법에서는 Transformer보다 높은 성능을 보였으나, PT 및 PT-FT 방법에서는 낮은 성능을 보였다. 또한, 임베딩 레이어 활성화 값과 원본 유역정보를 군집화하여 모형의 유역 간 유사성 학습 여부를 분석하였다. Transformer는 활성화 벡터가 유사한 유역들에서 성능이 향상되었으며, 이는 사전에 학습된 다른 유역의 정보를 활용해 성능이 개선됨을 입증하였다. 본 연구는 다목적댐별 적합한 모형 및 훈련 방법을 비교하고, 국내 유역에 PT 및 PT-FT 방법을 적용한 딥러닝 모형 구축의 필요성을 제시하였다. 또한, PT 및 PT-FT 방법 적용 시 Transformer가 LSTM-MSV-S2S보다 성능이 더 우수하였다.

초소형전기차 사용자만족도 구성요인 선정을 위한 기반연구 (Basic Study for Selection of Factors Constituents of User Satisfaction for Micro Electric Vehicles)

  • 진은주;서임기;김종민;박제진
    • 대한토목학회논문집
    • /
    • 제41권5호
    • /
    • pp.581-589
    • /
    • 2021
  • 최근 국내 초소형전기차 도입이 증가하면서, 관련 시장 활성화를 위한 초소형전기차 사용자만족도에 대한 관심이 증가하고 있다. 본 논문에서는 사용자만족도 구성요인을 기반으로 초소형전기차를 활용한 공공서비스 개발에 관한 기초연구를 수행하였다. 설문조사는 ① '초소형전기차 사용자만족도 구성요인 우선순위 선정을 위한 계층화(AHP) 분석'과, ② 초소형전기차에 대한 사용자들의 선호도 및 교통서비스 제공을 위한 사전 자료수집을 위한 '초소형전기차 이미지 설문조사', ③ 실제 초소형전기차를 운행한 이용자의 사용자만족도를 조사하기 위해 '초소형전기차 운전자 사용자만족도 설문조사' 순서로 수행하였다. 계층화(AHP) 분석에서는 '사용자 이용 데이터', '차량 이동 데이터', '충전서비스 데이터'순으로 사용자들이 중요하게 여긴다는 결과를 얻었다. 초소형전기차 이미지 설문조사에서는 사용자들이 초소형전기차를 오토바이와 비교했을 때 '안전성', '내구성', '승차감', '디자인', '유지관리비', '친환경성' 측면에서 더 긍정적으로 인식하고 있었다. 초소형전기차 운전자 사용자만족도 설문조사에서는 초소형전기차를 사용하는 것이 업무수행능률에 직접적인 영향을 미치지는 않았으며, 초소형전기차의 차량크기로 인해 도로에서의 불이익을 받은 경험이 있었고, 옥외 광고용으로 초소형전기차 군집 주행 시 홍보효과가 컸지만 안전성 측면에서는 우려를 나타내고 있었다. 향후 본 연구결과를 바탕으로 사용자만족도 구조방정식 모델을 구축할 예정이며, 선제적으로 공공분야에서의 초소형전기차 활용업무 서비스에 대한 피드백 R&D를 발굴하고, 새로운 공공 이동지원 서비스 발굴을 적극적으로 모색하고자 한다.

중국(中國) 전통원림(傳統園林) 공간(空間) 조영(造營) 원리의 현대적 탐구(探究) - 곡강지(曲江池) 유적공원(遺蹟公園)을 중심으로 - (A Modern Translation of Chinese Traditional Garden Space - Focusing on Qujiang Pool Heritage Park -)

  • 위첨첨;김정문;전조양
    • 한국전통조경학회지
    • /
    • 제37권3호
    • /
    • pp.93-107
    • /
    • 2019
  • 본 연구의 목적은 중국 전통원림 공간조영의 원리를 어떻게 현대공원에 접목시키며 전통원림 공간조영의 전승 및 창신의 방법을 탐구하는 것이다. 전조양 등은 '중국 고전원림 및 현대전역십오강(中國古典園林与現代轉譯十五講)'에서 중국 전통 원림은 시간과 공간이 결합된 원림이며, 간략(簡略)화된 기본 조영원리 모식도(模式圖)를 제시하였다. 제시된 공간구성원리에 따라 중국현대공원인 곡강지 유적공원에 전통 원림요소와 현대 원림요소를 어떻게 접목시켰는지와 이 요소들이 공원 공간에 표현된 방법을 탐구하였다. 연구 결과는 다음과 같다. 곡강지 유적공원의 복합형 공간은 공원 경계부와 복합형 동선으로 조영하였다. 공원경계부에 위치해 있는 원림 요소는 다리, 광장, 식물, 선형(線形)으로 배열된 건축물군집으로 구성하였다. 공원의 중심 수공간은 곡강지 옛 수계유적흔적에 따라 설계하였으며 공간의 중간 부분에 위치하고 구불구불한 자연적인 호안선으로 공간을 확장시키는 효과가 있다. 공원 수공간은 대지(大池)와 소지(小池)로 나눴으며 대지 내에 연파도(煙波島)를 설치하고 소지 안에 조도(鳥島)를 조영하였다. 공원 내에 있는 건축물들이 공원 동선의 볼록한(철각(凸角)) 부분에 위치하여, 공원 관람자의 호기심을 유발할 수 있는 위치에 배치하였기 때문에 시간과 공간을 확장하는 효과를 실현하였다. 본 연구 과정을 통해 곡강지 유적공원의 시간과 공간설계구성의 공간조영원리를 검증하였으며, 현대공원의 전체 공간 구조에 간략화 된 공간 설계 기법으로 원림의 복잡한 조합에 그 본질적인 공간구조가 나타난다. 또한, 곡강지 유적공원의 원림요소는 현대기법으로 진(秦)·한(漢)·수(隋)·당(唐)의 전통문화를 계승하고 곡강지 공원을 지역의 특색을 지니는 공간으로 재조영 하였으며, 당나라 문화를 주제로 하여 공간구성원리에 따라 시대별, 공간별 조영요소를 분석하였다. 본 연구를 통해 곡강지 유적공원은 제시된 공간조영원리가 적용된 공간이며, 중국 전통원림 공간 구성원리가 적용된 결과물이다. 그리고 곡강지 원림요소가 전통역사문화와 결합해서 창출된 경관은 현대 원림요소의 창신한 부분이다. 즉, 곡강지 유적공원은 중국의 특색있는 현대 원림으로 계승 및 창신 되었다.

중복을 허용한 계층적 클러스터링에 의한 복합 개념 탐지 방법 (Hierarchical Overlapping Clustering to Detect Complex Concepts)

  • 홍수정;최중민
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.111-125
    • /
    • 2011
  • 클러스터링(Clustering)은 유사한 문서나 데이터를 묶어 군집화해주는 프로세스이다. 클러스터링은 문서들을 대표하는 개념별로 그룹화함으로써 사용자가 자신이 원하는 주제의 문서를 찾기 위해 모든 문서를 검사할 필요가 없도록 도와준다. 이를 위해 유사한 문서를 찾아 그룹화하고, 이 그룹의 대표되는 개념을 도출하여 표현해주는 기법이 요구된다. 이 상황에서 문제점으로 대두되는 것이 복합 개념(Complex Concept)의 탐지이다. 복합 개념은 서로 다른 개념의 여러 클러스터에 속하는 중복 개념이다. 기존의 클러스터링 방법으로는 문서를 클러스터링할 때 동일한 레벨에 있는 서로 다른 개념의 클러스터에 속하는 중복된 복합 개념의 클러스터를 찾아서 표현할 수가 없었고, 또한 복합 개념과 각 단순 개념(Simple Concept) 사이의 의미적 계층 관계를 제대로 검증하기가 어려웠다. 본 논문에서는 기존 클러스터링 방법의 문제점을 해결하여 복합 개념을 쉽게 찾아 표현하는 방법을 제안한다. 기존의 계층적 클러스터링 알고리즘을 변형하여 동일 레벨에서 중복을 허용하는 계층적 클러스터링(Hierarchical Overlapping Clustering, HOC) 알고리즘을 개발하였다. HOC 알고리즘은 문서를 클러스터링하여 그 결과를 트리가 아닌 개념 중복이 가능한 Lattice 계층 구조로 표현함으로써 이를 통해 여러 개념이 중복된 복합 개념을 탐지할 수 있었다. HOC 알고리즘을 이용해 생성된 각 클러스터의 개념이 제대로 된 의미적인 계층 관계로 표현되었는지는 특징 선택(Feature Selection) 방법을 적용하여 검증하였다.

온라인 과학 기사 텍스트 마이닝을 통해 분석한 에너지 용어 사용의 맥락 (Analyzing Different Contexts for Energy Terms through Text Mining of Online Science News Articles)

  • 오치영;강남화
    • 과학교육연구지
    • /
    • 제45권3호
    • /
    • pp.292-303
    • /
    • 2021
  • 본 연구에서는 일상생활에서 에너지 용어가 사용되는 맥락을 알아보기 위하여 온라인 과학 기사를 수집하여 언어 네트워크, 토픽 모델링 분석 기법을 활용해 에너지 관련 기사에 사용된 용어의 빈도, 용어 네트워크, 기사의 주제를 분석하였다. 분석에 사용된 자료는 2018.3.1.부터 1년간의 온라인 과학 분야의 기사 중 에너지를 검색어로 하여 10개의 국내 중앙지에서 검색 및 선정된 2,171편이다. 이 기사들을 자연어 처리하여 51,224개의 문장과 507,901개의 단어로 데이터를 구성하였다. R 프로그램을 활용하여 용어 빈도수 분석 및 언어 네트워크 분석을 실시하였고, 에너지 용어 사용의 맥락 탐색을 위해 구조적 토픽 모델링 분석을 적용해 기사의 주제를 도출하였다. 기사에 사용된 용어 중 빈도수가 유난히 높은 용어는 기술, 연구, 개발로 새로운 소식을 알리는 기사의 특성을 반영한 것으로 나타났다. 한편, 기사 2편당 한 번 이상의 빈도로 사용되는 용어에는 산업 관련 용어(산업, 제품, 시스템, 생산, 시장)와 '전기', '환경'과 같이 에너지 관련 용어로 충분히 기대되는 용어들이 있었다. 한편, 에너지 관련 과학 수업에서 자주 사용되는 '태양', '열', '온도', '발전'도 빈도수 상위에 속하는 용어로 드러났다. 용어 네트워크 분석에서는 산업 및 기술과 관련된 용어와 기초과학 및 연구 관련 용어들이 약한 강도이지만 서로 군집을 이루는 것을 확인하였다. 한편, 에너지와 쌍을 이루는 용어의 분석에서는 '에너지 효율'을 비롯해 '에너지 절감', '에너지 소비' 등과 같이 에너지의 사용에 관한 용어들이 다수를 이루고 그 사용 빈도가 가장 높았다. 에너지 용어가 사용되는 맥락은 16개의 주제를 분류한 4가지 영역으로 '첨단산업', '산업', '기초과학', '환경 및 건강'으로 나타났다. 에너지 사용 관련 용어가 상당히 많이 사용된다는 결과는 에너지 수업의 시작점으로 에너지 저급화 개념의 도입이 효과적일 수 있음을 시사한다. 또한, 첨단산업이나 환경 및 건강의 맥락을 에너지 학습에 도입할 필요성도 보여준다. 본 연구에서 드러난 16개 주제에서 보이는 다양한 에너지 용어가 사용되는 맥락을 재구성해 에너지 관련 수업에 활용한다면 학생들이 학교에서의 에너지 학습과 일상적 상황을 통합적으로 인식하는 데 도움이 될 것이다.