• 제목/요약/키워드: 함수화

검색결과 3,057건 처리시간 0.031초

한국농수산대학 신입생 자기소개서의 텍스트 마이닝과 연관규칙 분석 (1) (Text Mining and Association Rules Analysis to a Self-Introduction Letter of Freshman at Korea National College of Agricultural and Fisheries (1))

  • 주진수;이소영;김종숙;신용광;박노복
    • 현장농수산연구지
    • /
    • 제22권1호
    • /
    • pp.113-129
    • /
    • 2020
  • 본 연구는 2020년 한농대 입학생의 비정형 텍스트인 자소서에서 의미 있는 정보 혹은 규칙을 추출하기 위하여 고교 재학 중 '학업 및 학습경험'과 '교내 활동'을 기술한 두 개 문항에 대하여 텍스트 마이닝에 의한 토픽 분석과 연관성 분석을 하였다. 모집 전형을 구분하지 않은 텍스트 마이닝 분석 결과에서 '학업 및 학습 경험' 항목과 관련된 주요 키워드는 '공부', '생각', '노력', '문제', '친구' 등의 순으로 많이 나타났으며, '교내 활동' 항목과 관련된 주요 키워드는 '활동', '생각', '친구', '동아리', '학교' 등의 순으로 빈도가 높게 나타났다. 그러나 도시 인재 전형과 농수산 인재 전형 신입생들의 키워드 빈도 순위는 두 항목 모두 전형 특성에 따른 약간의 차이를 나타냈다. 빈도 분석에 결과는 빈도수 상위 50위까지의 키워드를 워드 클라우드로 시각화하여 키워드를 알기 쉽게 표현하였다. 연관 분석은 apriori() 함수를 사용하였으며 적정한 계산을 위하여 support(지지도)와 confidence(신뢰도)의 기준값을 항목별로 설정하였다. 먼저 '학업' 항목에 대한 연관 규칙은 46개를 추출하였으며, 그 가운데 {공부} => {생각}, {성적} => {공부} 및 {과목} => {공부} 등의 규칙에서 높은 연관성을 볼 수 있었다. 이 규칙을 바탕으로 매개체 역할의 키워드를 평가하는 관계 중심성 평가와 노드에 연결된 edge의 수에 따라 중요도를 파악하는 연결 중심성 평가에서는 '생각', '공부', '노력', '시간' 등의 키워드가 중심적인 역할을 하는 정보를 획득하였다. 다음으로 '교내 활동' 항목에서는 45개의 연관 규칙을 생성하여 {활동} => {생각}, {동아리} => {활동} 등의 규칙에서 높은 연관성을 볼 수 있었으며, 관계 중심성 평가와 연결 중심성 평가에서는 '생각', '활동', '학교', '시간', '친구' 등의 키워드가 중심 키워드라는 결과를 얻었다. 다음 연구에서는 자소서의 나머지 두 개의 문항 '배려·나눔·협력·갈등관리' 항목과 한농대 '지원동기와 향후 진로계획' 항목을 분석한다. 분석에는 '키워드의 빈도'에 '문서 빈도의 역수'를 곱하여 주로 다량의 문서에서 핵심어를 추출하는 TF-IDF(Term Frequency-Inverse Document Frequency) 분석을 추가한다.

딥러닝 예측 결과 정보를 적용하는 복합 미생물 배양기를 위한 딥러닝 구조 개발 (Development of deep learning structure for complex microbial incubator applying deep learning prediction result information)

  • 김홍직;이원복;이승호
    • 전기전자학회논문지
    • /
    • 제27권1호
    • /
    • pp.116-121
    • /
    • 2023
  • 본 논문에서는 딥러닝 예측 결과 정보를 적용하는 복합 미생물 배양기를 위한 딥러닝 구조를 개발한다. 제안하는 복합 미생물 배양기는 수집한 복합 미생물 데이터에 대해 복합 미생물 데이터 전처리, 복합 미생물 데이터 구조 변환, 딥러닝 네트워크 설계, 설계한 딥러닝 네트워크 학습, 시제품에 적용되는 GUI 개발 등으로 구성된다. 복합 미생물 데이터 전처리에서는 미생물 배양에 필요한 당밀, 영양제, 식물엑기스, 소금 등의 양에 대해 원-핫 인코딩을 실시하며, 배양된 결과로 측정된 pH 농도와 미생물의 셀 수에 대해 최대-최소 정규화 방법을 사용하여 데이터를 전처리한다. 복합 미생물 데이터 구조 변환에서는 전처리된 데이터를 물 온도와 미생물의 셀 수를 연결하여 그래프 구조로 변환 후, 인접 행렬과 속성 정보로 나타내어 딥러닝 네트워크의 입력 데이터로 사용한다. 딥러닝 네트워크 설계에서는 그래프 구조에 특화된 그래프 합성곱 네트워크를 설계하여 복합 미생물 데이터를 학습시킨다. 설계한 딥러닝 네트워크는 Cosine 손실함수를 사용하여 학습 시에 발생하는 오차를 최소화하는 방향으로 학습을 진행한다. 시제품에 적용되는 GUI 개발은 사용자가 선택하는 물 온도에 따라 목표하는 pH 농도(3.8 이하) 복합 미생물의 셀 수(108 이상)를 배양시키기 적합한 순으로 나타낸다. 제안된 미생물 배양기의 성능을 평가하기 위하여 공인시험기관에서 실험한 결과는, pH 농도의 경우 평균 3.7로, 복합 미생물의 셀 수는 1.7 × 108으로 측정되었다. 따라서, 본 논문에서 제안한 딥러닝 예측 결과 정보를 적용하는 복합 미생물 배양기를 위한 딥러닝 구조의 효용성이 입증되었다.

벤토나이트 수화반응 특성화를 위한 X선 단층촬영 기술 적용성 평가 (Feasibility Assessment on the Application of X-ray Computed Tomography on the Characterization of Bentonite under Hydration)

  • 멜빈;이경원;윤서현;김광염;이창수;김민섭;김진섭
    • 터널과지하공간
    • /
    • 제32권6호
    • /
    • pp.491-501
    • /
    • 2022
  • 벤토나이트는 고준위 방사성 폐기물 처분장의 완충재 및 뒷채움재의 주재료로 고려되고 있다. 처분환경에서 벤토나이트는 열-수리-역학-화학적 복합적 거동을 겪게 된다. 본 연구는 제작된 수화거동 실험용 셀을 사용하여 수화 조건에서 벤토나이트의 거동 특성을 X선 단층촬영 기술을 이용하여 평가하고자 하였다. 플라스틱재료로 만들어진 원통형 셀은 상부의 탈착식 캡을 이용하여 시료 상부에 수직응력을 가하거나 팽윤압을 측정할 수 있도록 제작하였다. 수화실험은 건조밀도 1.4 g/cm3, 함수율 20%의 조건으로 제작된 경주 벤토나이트 블록시료로 수행되었다. 샘플의 직경은 27.5 mm, 높이는 34 mm 이며, 수화 실험 중 0.207 MPa의 일정한 압력으로 물을 주입하였으며, 7일 동안 수화실험을 지속하였다. 하루 동안 수화 과정을 거치면서 벤토나이트가 팽창하여 셀 내부의 공간을 채우는 것을 확인하였다. 또한, 샘플의 X선 CT값의 히스토그램 분석을 통해 수화 과정 초기의 샘플 밀도 증가와 이후 점진적인 밀도 감소가 발생함을 평가할 수 있었다. 평균 CT 값, CT값의 표준 편차, CT값 변화량에 대한 분석을 통해 샘플의 수화 과정에 대한 자세한 정보를 확인할 수 있었다. 즉, 수화 시작 후 2일 동안 시료 하부 및 상부 영역은 밀도가 감소하고 중간 영역은 밀도가 증가하였다. 그 후 수화가 진행되면서 샘플의 각 위치에서의 밀도 변화는 초기 샘플의 밀도와 비교할 때 그 차이가 점차 감소함을 확인하였다. 샘플 내 균열의 형성과정과 이후 감소되는 현상도 X선 단층촬영에 의해 확인되었다.

기계학습 분류모델을 이용한 하천퇴적물의 중금속 오염원 식별 (Identifying sources of heavy metal contamination in stream sediments using machine learning classifiers)

  • 반민정;신상욱;이동훈;김정규;이호식;김영;박정훈;이순화;김선영;강주현
    • 한국습지학회지
    • /
    • 제25권4호
    • /
    • pp.306-314
    • /
    • 2023
  • 하천퇴적물은 유역내 다양한 오염원으로부터 발생하는 중금속, 유기물 등 오염물질의 수용체일 뿐만 아니라 수질 오염 및 수생태 악영향을 유발할 수 있는 2차적 오염원이기에 중요한 관리대상이라고 할 수 있다. 오염된 하천퇴적물의 효과적인 관리를 위해서는 오염원에 대한 식별과 이와 연계된 관리대책의 수립이 우선되어야 한다. 본 연구는 하천퇴적물내 측정된 다양한 이화학적 오염항목 분포 특성에 기반하여 퇴적물의 주요 오염원을 식별하기 위한 방법으로서 기계학습모델의 적용성을 평가하였다. 기계학습 모델의 성능 평가를 위해 전국 4대강 수계내 주요 폐금속광산 및 산업단지 인근에서 수집된 총 356개의 하천퇴적물에 대한 중금속 10개 항목(Cd, Cu, Pb, Ni, As, Zn, Cr, Hg, Li, Al)과 토양항목 3개(모래, 실트, 점토 비율) 수질항목 5개(함수율, 강열감량, 총유기탄소, 총질소, 총인)를 포함한 총 18개 오염항목에 대한 분석자료를 활용하였다. 기계학습 분류 모델로서 선형판별분석(linear discriminant analysis, LDA)과 서포트벡터머신(support vector machine, SVM) 분류기를 사용하여 폐금속광산('광산')과 산업단지('산단') 인근에서의 하천퇴적물 시료의 분류 성능을 평가한 결과, 채취 지점 및 시기별 4가지 경우(비강우시 광산, 강우시 광산, 비강우시 산단, 및 강우시 산단)에 대한 퇴적물 시료의 분류 성능이 우수하였으며, 특히 비선형 모델인 SVM(88.1%)이 선형모델인 LDA(79.5%) 보다 퇴적물을 분류하는데 있어 보다 우수한 성능을 나타냈다. SVM 앙상블 기반 비배타적 다중라벨분류기 모델을 이용하여 각 시료채취 지점 상류 유역 1km 반경 내 지배적인 토지이용 및 오염원을 다중 타겟값으로 다중분류 예측을 수행한 결과, 폐금속광산과 산업단지의 분류는 비교적 높은 정확도로 수행하였으나, 도시와 농업지역 등 다른 비점오염원에 대한 분류정확도는 56~60%범위로 비교적 낮게 나타났다. 이는 다중라벨 분류모델의 복잡성에 비해 데이터셋의 크기가 상대적으로 작아서 발생한 과적합에 기인한 것으로 향후 보다 많은 측정자료가 확보될 경우 기계학습 모델을 적용한 오염원 분류의 정확도를 보다 향상시킬 수 있을 것으로 판단된다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

다중가우시안혼합모델을 이용한 소동물 심근경색 PET 영상의 정량적 평가 기술 (Quantitative Assessment Technology of Small Animal Myocardial Infarction PET Image Using Gaussian Mixture Model)

  • 우상근;이용진;이원호;김민환;박지애;김진수;김종국;강주현;지영훈;최창운;임상무;김경민
    • 한국의학물리학회지:의학물리
    • /
    • 제22권1호
    • /
    • pp.42-51
    • /
    • 2011
  • 전통적으로 심근 생존능을 식별하고 심근 관류를 정확히 평가하기 위한 도구로 핵의학영상이 이용되고 있으나 경색영역을 정의하기에는 어려움이 있다. 이에 본 연구에서는 극성지도의 분포를 분석하여 특성에 맞는 적응적 임계값을 이용하여 심근경색 모델을 정량적으로 평가하고자 하였다. 쥐 심근경색 모델은 왼쪽 관상동맥을 결찰시켜 제작하였다. 소동물PET 영상은 37 MBq $^{18}F$-FDG를 쥐의 꼬리정맥에 주사한 후 60분 섭취 후 Siemens Inveon SPECT/PET 스캐너를 이용하여 20분 동안 ECG 신호와 함께 획득하였고, OSEM 2D 알고리즘을 이용하여 재구성하였다. PET 영상의 심근 극성지도는 Siemens QGS 소프트웨어에 적합한 형식으로 변환 후 자동으로 심근 벽을 설정하여 작성하였다. 심근경색영역의 기준데이터는 TTC 염색으로 설정하였으며 전체 좌심실대비 염색된 영역의 백분율로 획득하였다. 최적의 임계값 설정을 위해 절대치 설정 방법, Otsu 알고리즘, 다중가우시안혼합모델(Multi Gaussian mixture model, MGMM)을 이용하여 평가하였다. 절대치 설정 방법은 10~90%까지 10%단위로 미리 정의 된 임계값을 이용하였고, Otsu 알고리즘은 영상 내에서 두 군집의 분산을 최대로 하는 임계값으로 설정하였다. MGMM 방법은 영상의 화소 강도를 분석하여 여러 개의 가우시안 분포함수(MGMM2, $\cdots$ MGMM4)로 반복 수행하여 최적의 가우시안 분포를 구하여 적응적 임계값을 설정하였다. 극성지도 평가지표는 각각의 알고리즘에서 측정된 임계값을 이용하여 이진화하고 전체 극성지도와 경색영역의 백분율로 획득한 후, TTC 염색으로 획득된 기준데이터와의 차이를 비교하였다. 그 차이는 절대치 방법의 20%에서 $7.04{\pm}3.44%$, 30%에서 $3.87{\pm}2.09%$, 40%에서 $2.15{\pm}2.07%$이었다. Otsu 방법은 $3.56{\pm}4.16%$이었으며 MGMM 방법은 $2.29{\pm}1.94%$이었다. 소동물 PET 극성지도에서는 30% 임계값이 조직학적 데이터와 비교하여 가장 작은 차이를 보였다. 그러나 TTC 염색으로 측정한 크기가 10% 이하에서는 MGMM 방법이 절대치 방법보다 작은 차이를 보였다(MGMM: 0.006%, 절대치방법: 0.59%). 이 연구에서는 심근경색 모델 평가를 위하여 생체영상 극성지도에서 다중가우시안혼합모델을 이용하여 평가하고자 하였다. MGMM은 사용자의 선택 없이도 자동적으로 영상 특성을 고려하여 적응적 임계값을 찾아주는 방법으로 극성지도에서 심근경색을 평가하는데 도움이 될 것으로 기대된다.

솔잎혹파리 피해적송림(被害赤松林)의 생태학적(生態学的) 연구(研究) (I) (Ecological Changes of Insect-damaged Pinus densiflora Stands in the Southern Temperate Forest Zone of Korea (I))

  • 임경빈;이경재;김용식
    • 한국산림과학회지
    • /
    • 제52권1호
    • /
    • pp.58-71
    • /
    • 1981
  • 충남(忠南) 전북지방(全北地方) 적송림(赤松林)의 천이과정(遷移過程)을 연구(研究)하기 위하여 솔잎혹파리의 피해지속기간(被害持續期間)에 따라 피해극기지(被害極基地) (5년전(年前)에 피해발생(被害発生))인 공주(公州)(A), 피해지속지(被害持續地)(10년전(年前)에 피해발생(被害発生))인 부여(扶餘)(B), 피해회복지(被害回復地)(20년전(年前)에 피해발생(被害発生))로서 고창지역(高敞地域)(C)을 조사지역(調査地域)으로 설정(設定)하고, 각(各) 조사지역별(調査地域別)로 환경요인(環境要因)과 식생상태(植生狀態)를 調査하여, 환경요인(環境要因)과 식생상태(植生狀態), 삼림군집(森林群集)의 비교(比較), 식물상(植物相)의 변화(変化) 등(等)을 분석(分析)한 결과(結果)를 요약(要約)하면 다음과 같다 1. 임분(林分)이 솔잎혹파리피해(被害)로 부터 회복(回復)되어 감에 따라 식생구성(植生構成)에 변화(変化)가 오고 대상수종(代償樹種)으로 발달(発達)된 참나무류(類)의 상대우점치(相対優点値)가 감소(減小)되었다. 그러나 본(本) 조사지역내(調査地域內)에서는 상수리나무의 상대우점치(相対優点値)가 다른 참나무류(類) 보다 높았다. 2. 솔잎혹파리피해(被害)가 지속(持續)됨에 따라 삼림군집(森林群集)의 종구성상태(種構成狀態)가 점차 다양(多樣)하여진다. 그후 피해(被害)가 회복(回復)됨에 따라 임분(林分)의 종구성상태(種構成狀態)는 단순화(单純化)되는 것으로 나타났다. 3. 상대밀도(相対密度) 및 상대우점치(相対優点値)의 상대치(相対値)에 의(依)한 식생천이(植生遷移)를 종합분석(綜合分析)한 결과(結果) 솔잎혹파리피해(被害)의 극심(極甚)에서 우점종(優点種)을 이루던 참나무류(類)가 피해(被害)로부터 회복(回復)되어감에 따라 그 값이 감소(減少)되고, 싸리류(類), 진달래류(類) 등(等)이 하층식생(下層植生)을 형성(形成)하는 삼림군집(森林群集)으로 변화(変化)하여 갔다. 4. 식생(植生)에 미친 토심(土深), 토양함수량(土壤含水量), 유기물함량(有機物含量), 그리고 유기물층(有機物層)의 두께는 본(本) 조사대상지(調査対象地)의 범위내에 있어서는 거의 같은 것으로 사료(思料)되었고 연평균강수량(年平均降水量)과 온도(温度)도 유사(類似)하였다고 본다.

  • PDF