• 제목/요약/키워드: 벡터 합

검색결과 126건 처리시간 0.021초

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

가중 거리 개념이 도입된 HCNN을 이용한 화자 독립 숫자음 인식에 관한 연구 (Speaker-Independent Korean Digit Recognition Using HCNN with Weighted Distance Measure)

  • 김도석;이수영
    • 한국통신학회논문지
    • /
    • 제18권10호
    • /
    • pp.1422-1432
    • /
    • 1993
  • HCNN(Hidden Control Neural Network)은 신경회로망에 의한 비선형 예측과 HMM의 segmentation 기능을 접합시킨 신경회로망 모델로서, 시간에 따라 입출력 사상 함수를 변화시킴으로써 음성 신호를 잘 모델링할 수 있도록 되어 있다. 본 논물에서는 첫째, HCNN의 성능이 HMM보다 우수함을 보이고, 둘째로, HCNN에서의 예측 오차 측정에 적절한 거리 측도를 이용하기 위해 가중거리가 도입된 HCNN을 제안하여, 화자 독립 음성 인식에 있어 그 성능이 우수함을 보였다. 여기서 가중거리는 음성 특징 벡터 각 구성 성분의 분산도 차이를 고려한 거리이다. 화자 독립 숫자음 인식 실험 결과, 유클리드 저리를 이용한 HCNN에 대해 95%의 인식율을 얻었는데, 이는 HMM에 비해 1.28% 높은 결과로서, 확률적인 제한이 가해진 HMM에 비해 시스템의 동작인 모델링을 이용한 HCNN이 더 우수함을 알 수 있다. 또한 가중거리를 이용한 CNN에 대해서는 97.35%의 인식율을 얻었는데, 이는 유클리드 거리를 이용한HCNN에 비해 2.3%가 향상된 결과이다. 가중 거리를 도입한 HCHN의 경우에 더 높은 인식율을 얻은 이유는, 오인식이 많이 되는 화자의 인식율을 높임으로써 화자간의 인식율차가 감소하게 되기 때문임을 알 수 있었고, 따라서 화자 독립 음성인식에 가중거리를 도입한 HCNN이 보다 적합합을 알 수 있다.

  • PDF

운동종목별(運動種目別) 선수(選手)의 심전도시간간격(心電圖時間間隔), 파고(波高) 및 벡터의 비교(比較) (Comparison of Electrocardiographic Time Intervals, Amplitudes and Vectors in 7 Different Athletic Groups)

  • 권기영;이원정;황수관;주영은
    • The Korean Journal of Physiology
    • /
    • 제19권1호
    • /
    • pp.61-72
    • /
    • 1985
  • 운동종목별(運動種目別) 선수(選手)들의 심기능(心機能)을 비교(比較)하기 위하며 운동경력(運動經歷)이 3년이상(年以上)이 된 고등학교(高等學校)의 투척(投擲)(7명), 도약(跳躍)(11명), 단거리(短距離)(8명), 장거리(長距離)(14명), 권투(拳鬪)(7명), 배구(排球)(8명) 및 야구(野球)(9명) 선수(選手)와 비선수(非選手)(19명)들의 안정시(安靜時)심전도상(心電圖上)에 나타난 시간간격(時間間隔), 파고(波高) 및 vector를 비교(比較) 분석(分析)하였다. 안정시(安靜時)의 R-R(간격)間隔은 각종목별(各種目別) 선수(選手)들은$0.96{\sim}1.09$ 초(秒)로 비선수군(非選手群)의 0.78초(秒)에 비(比)해 유의(有意)한 서맥(徐脈)을 보여주었다. R-R간격(間隔)은 P-R, Q-T 및 T-P간격(間隔)의 합(合)으르 나타나는데, P-R 및 Q-T간격(間隔)은 각(各 선수군(選手群)과 비선수군간(非選手群間)에 차이(差異)가 없었으나 T-P간격(間隔)은 도약(跳躍), 단거리(短距離), 장거리(長距離) 및 권투선수(拳鬪選手)들에서 비선수군(非選手群)보다 유의(有意)하게 높았다. R-R간격(間隔)은 T-P 및 Q-T간격(間隔)과 유의(有意)한 상관관계(相關關係)가 있었으나 P-R 및 QRS간격(間隔)과는 상관관계(相關關係)가 없었다. 심전도(心電圖)의 파고(波高)를 비교(比較)해 보면 lead $V_5$에서의 P파고(波高)$(Pv_5)$는 비선수군(非選手群)에 비(比)해서 각종목(各種目) 선수군(選手群)이 전반적(全般的)으로 낮은 경향(傾向)을 보여주었고, 특(特)히 투척(投擲) 및 도약선수군(跳躍選手群)은 유의(有意)하게 낮았다. T파고(波高)$(Tv_5)$는 투척선수군(投擲選手群)이 비선수군(非選手群)보다 유의(有意)하게 낮았으나 다른 선수군(選手群)들은 차이(差異)가 없었다. R파고(波高)$(Rv_5)$는 장거리선수군(長距離選手群)을 제외(除外)한 다른 종목선수(種目選手)들과 비선수(非選手)사이에 차이(差異)가 없었다. 장거리선수군(長距離選手群)의 $(Rv_5)$파고(波高)는 비선수(非選手)뿐만 아니라 다른 종목선수군(種目選手群)보다도 유의(有意)하게 높았다. Lead $V_1$에서의 S파고(波高)$(Sv_1)$는 선수군(選手群)과 비선수군(非選手群)사이에 차이(差異)가 없었다. $Rv_5$$Sv_1$파고(波高)의 합(合)은 장거리선수군(長距離選手群)만이 다른 종목선수군(種目選手群)들이나 비선수군(非選手群)보다 유의(有意)하게 높았으며 다른 선수군(選手群)들은 비선수군(非選手群)과 차이(差異)가 없었다. 심전도(心電圖)의 vector를 비교(比較)해 보면 P, QRS, T축(軸)의 각도(角度)는 frontal 및 horizontal plane 상(上)에서 각선수군(各選手群)과 비선수군(非選手群)사이에 차이(差異)가 없었다. P vector의 길이는 각선수군(各選手群)이 비선수(非選手)보다 낮은 경향(傾向) 나타냈으며, 특(特)히 horizontal plane에서 투척(投擲), 도약(跳躍), 단거리(短距離) 및 야구선수(野球選手)들이 비선수군(非選手群)보다 유의(有意)하게 낮았다. QRS와 T vector의 길이는 선수군(選手群)과 비선수군간(非選手群間)에 차이(差異)가 없었고, 야구선수(野球選手)만이 frontal plane에서 QRS vector의 길이가 비선수군(非選手群)보다 높았다. 이상(以上)의 결과(結果)를 종합(綜合)해 보면 각종목(各種目) 운동선수군(運動選手群) 전반(全般)은 비선수(非選手)보다 유의(有意)한 서맥(徐脈)을 나타내며 이는 주로 T-P 간격(間隔)이 길기 때문이다. 파고(波高)의 높이와 vector를 비교(比較)해 볼때 각종목(各種目) 운동선수(運動選手)는 전반적(全般的)으로 비선수군(非選手群)보다 P파(波)가 낮았다. 특(特)히 장거리선수군(長距離選手群)은 다른 종목(種目) 선수군(選手群)이나 비선수군(非選手群)보다 $Rv_5$$Sv_1$파고(波高)의 합(合)이 유의(有意)하게 높았으므로 좌심실(左心室)이 비대(肥大)해 있음을 알 수 있다. 이는 장거리선수(長距離選手)들이 다른 종목선수(種目選手)들에 비(比)해 더 우수(優秀)한 스포츠심장(心臟)임을 시사(示唆)해 주고 있다.

  • PDF

가속도를 고려한 도로의 설계일관성 평가기법에 관한 연구 (Development of Highway Safety Evaluation Considering Design Consistency using Acceleration)

  • 하태준;박제진;김유철
    • 대한교통학회지
    • /
    • 제21권1호
    • /
    • pp.127-136
    • /
    • 2003
  • 본 연구는 3차원의 실제 도로형상을 고려하여 일관성을 평가하는 방법으로 가속도 개념을 사용하였다. 차량의 운행과 운전자가 받는 느낌을 근거로 가속도는 안전에 커다란 영향을 미친다. 특히. 운전자를 중심으로 가속도의 크기는 상당한 영향 요소로서 작용되어진다. 이를 근거로 3차원 도로상에서의 각 지점의 가속도를 계산하고 일관성 평가 방법을 제시하였다. 가속도의 계산은 3차원의 변위를 각각 계산하여 변위에 대한 벡터의 합으로 정의하였고 곡선부 내에 속도 예측모형(정준화, 2001)을 사용하여 속도 프로파일을 작성하고 이 프로파일을 근거로 각 지점의 속도를 정하여 가속도를 구하였다. 일관성 평가는 기존의 연구에서 3차원 가속도의 범위를 정하고 g-g-g diagram을 작성하여 해당 범위에 벗어나는 것을 일관성에 어긋나는 것으로 간주하고 평가의 방법을 제시하였다. 본 연구에서는 최소 설계 기준을 바탕으로 가상의 도로를 예시로 들어 가속도의 변화를 계산함으로서 일관성 평가 방법을 적용하였으나 해당 방법이 한계가 드러나 있는 기존의 속도 예측모형을 사용하고 있어 기타의 차량 상태(서스펜션, 타이어, 차종 등)를 고려하지 못하기에 정확한 가속도의 값을 제시하지는 못한 실정이다. 그러나 속도 프로파일만 정의되어지면 복합곡선, 완화곡선 등의 모든 도로형상에 대하여 가속도를 계산함으로서 이를 도로의 일관성 평가에 사용이 가능할 것이나 현재는 3차원 형상이 고려된 속도예측모형과 복합선형 등이 고려된 속도예측모형을 제시할 수 있을 것이다. 향후에는 이러한 속도예측모형이나 속도프로파일모형에 관한 연구가 계속 이루어져야 하고 실험차량을 통한 일관성 평가의 정확한 기준의 개발과 검증이 요구된다.

기계학습 분류모델을 이용한 하천퇴적물의 중금속 오염원 식별 (Identifying sources of heavy metal contamination in stream sediments using machine learning classifiers)

  • 반민정;신상욱;이동훈;김정규;이호식;김영;박정훈;이순화;김선영;강주현
    • 한국습지학회지
    • /
    • 제25권4호
    • /
    • pp.306-314
    • /
    • 2023
  • 하천퇴적물은 유역내 다양한 오염원으로부터 발생하는 중금속, 유기물 등 오염물질의 수용체일 뿐만 아니라 수질 오염 및 수생태 악영향을 유발할 수 있는 2차적 오염원이기에 중요한 관리대상이라고 할 수 있다. 오염된 하천퇴적물의 효과적인 관리를 위해서는 오염원에 대한 식별과 이와 연계된 관리대책의 수립이 우선되어야 한다. 본 연구는 하천퇴적물내 측정된 다양한 이화학적 오염항목 분포 특성에 기반하여 퇴적물의 주요 오염원을 식별하기 위한 방법으로서 기계학습모델의 적용성을 평가하였다. 기계학습 모델의 성능 평가를 위해 전국 4대강 수계내 주요 폐금속광산 및 산업단지 인근에서 수집된 총 356개의 하천퇴적물에 대한 중금속 10개 항목(Cd, Cu, Pb, Ni, As, Zn, Cr, Hg, Li, Al)과 토양항목 3개(모래, 실트, 점토 비율) 수질항목 5개(함수율, 강열감량, 총유기탄소, 총질소, 총인)를 포함한 총 18개 오염항목에 대한 분석자료를 활용하였다. 기계학습 분류 모델로서 선형판별분석(linear discriminant analysis, LDA)과 서포트벡터머신(support vector machine, SVM) 분류기를 사용하여 폐금속광산('광산')과 산업단지('산단') 인근에서의 하천퇴적물 시료의 분류 성능을 평가한 결과, 채취 지점 및 시기별 4가지 경우(비강우시 광산, 강우시 광산, 비강우시 산단, 및 강우시 산단)에 대한 퇴적물 시료의 분류 성능이 우수하였으며, 특히 비선형 모델인 SVM(88.1%)이 선형모델인 LDA(79.5%) 보다 퇴적물을 분류하는데 있어 보다 우수한 성능을 나타냈다. SVM 앙상블 기반 비배타적 다중라벨분류기 모델을 이용하여 각 시료채취 지점 상류 유역 1km 반경 내 지배적인 토지이용 및 오염원을 다중 타겟값으로 다중분류 예측을 수행한 결과, 폐금속광산과 산업단지의 분류는 비교적 높은 정확도로 수행하였으나, 도시와 농업지역 등 다른 비점오염원에 대한 분류정확도는 56~60%범위로 비교적 낮게 나타났다. 이는 다중라벨 분류모델의 복잡성에 비해 데이터셋의 크기가 상대적으로 작아서 발생한 과적합에 기인한 것으로 향후 보다 많은 측정자료가 확보될 경우 기계학습 모델을 적용한 오염원 분류의 정확도를 보다 향상시킬 수 있을 것으로 판단된다.

소비자 감성 기반 뷰티 경험 패턴 맵 개발: 화장품을 중심으로 (Development of Beauty Experience Pattern Map Based on Consumer Emotions: Focusing on Cosmetics)

  • 서봉군;김건우;박도형
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.179-196
    • /
    • 2019
  • 최근의 '똑똑한 소비자(Smart Consumer)'라 불리는 소비자가 많아지고 있는데, 이들은 제조사나 광고를 통해 전달되는 정보에 의존하지 않고, 기존 사용자나 전문가들의 후기, 여러 과학 지식을 획득하여 제품에 대한 이해를 높이고, 본인 스스로가 직접 판단하여 구매하고 있다. 특히나 화장품 분야는 인체 유해성과 같은 부정적인 요소에 대한 민감도가 높고, 자신의 고유한 피부 특성과의 조화도 고려되어야 하기 때문에, 전문적인 지식과 타인의 경험, 본인의 과거 경험 등을 종합적으로 생각하여 구매 의사결정을 내려야 하고, 이에 대해서 적극적인 소비자가 많아지고 있다. 이러한 움직임은 '셀프 뷰티' 와 같은 '셀프' 문화의 열풍과 함께, 문화 현상인 '그루밍족'의 등장, 사회적 트렌드인 'K-뷰티' 와도 동행한다고 할 수 있다. 맞춤형 화장품에 대한 관심의 급부상도 이러한 현상 중 하나라 볼 수 있다. 소비자들의 맞춤형 화장품의 니즈를 충족시키기 위해, 화장품 제조사나 관련 기업들은 ICT기술과의 융합을 통하여 프리미엄 서비스를 중심으로 소비자의 니즈에 대응하고 있다. 그러나 기업 및 시장 현황이 맞춤형 화장품을 향해 진화하고 있지만, 소비자의 피부 상태, 추구하는 감성, 실제 제품이나 서비스까지 소비자 경험을 전체적으로 완전하게 다루는 지능형 데이터 플랫폼은 부재한다. 본 연구에서는 소비자 경험에 대한 지능형 데이터 플랫폼 구축을 위한 첫 단계로 소비자 언어 기반의 화장품 감성 분석을 수행하였다. 소비자들 개인의 선호나 취향이 분명한 앰플/세럼 카테고리를 중심으로 매출 순위 1위에서 99위까지의 99개 제품을 선정하여, 블로그와 트위터 등의 SNS 상에 언급되는 후기 내에 화장품 경험에 대한 소비자 감성을 수집하였다. 총 357개의 감성 형용사를 수집하였고, 고객 여정 워크샵을 통해 유사 감성을 합치고, 중복 감성을 통합하는 작업을 수행하였으며, 최종 76개 형용사를 구축했다. 구축한 형용사에 대한 SOM 분석을 통해 화장품에 대한 소비자 감성에 대한 클러스터링을 실시했다. 분석 결과, 총 8개의 클러스터를 도출했고, 클러스터 별 각 노드의 벡터 값을 기준으로 소비자 감성 Top 10을 도출했다. 소비자 감성을 기준으로 클러스터별 소비자 감성에 서로 다른 특징이 발견됐으며, 소비자에 따라 다른 소비자의 감성을 선호, 기존과는 다른 소비자 감성을 고려한 추천 및 분류 체계가 필요함을 확인했다. 연구 결과를 통해 감성 분석의 활용 도메인이 화장품만이 아닌 다양한 영역으로 확장될 수 있음 확인했으며, 감성 분석을 통한 소비자 인사이트를 도출할 수 있다는 점을 시사했다. 또한, 본 연구에서 활용한 디자인 씽킹(Design Thinking)의 방법론의 적용하여 화장품 특화된 감성 사전을 과학적인 프로세스로 구축했으며, 화장품에 대한 소비자의 인지 및 심리에 대한 이해를 도울 수 있을 것으로 기대한다.