• Title/Summary/Keyword: 통계적 유사성

검색결과 378건 처리시간 0.023초

연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견 (Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm)

  • 김동성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF

분광 상호정보를 이용한 하이퍼스펙트럴 영상분류 (Classification of Hyperspectral Images Using Spectral Mutual Information)

  • 변영기;어영담;유기윤
    • 대한공간정보학회지
    • /
    • 제15권3호
    • /
    • pp.33-39
    • /
    • 2007
  • 하이퍼스펙트럴 영상자료는 객체에 대한 많은 정보를 함유하고 있어 객체의 보다 정확한 분류가 가능하다. 본 논문에서는 하이퍼스펙트럴 영상분류를 위하여 SMI(Spectral Mutual Information)이라는 새로운 스펙트럼 유사도 측정기법을 제안하였다. 본 방법은 정보이론 분야에서 대두된 상호정보량의 개념을 차용하여 고안되었으며 스펙트럼간의 통계적 의존성을 측정할 수 있다. SMI는 영상의 각 화소스펙트럼을 확률변수로 간주하고 두 스펙트럼간의 유사 상호정보량을 통하여 유사도를 측정함으로써 영상을 분류한다. 제안된 기법의 효율성을 평가하기 위해 기존에 개발된 SAM, SSV 분류기법을 이용하여 동일지역에 대해 분류를 수행하고 분류 정확도를 비교 평가하였다. 실험결과 제안한 SMI 기법은 하이퍼스펙트럴 영상분류에 유용하게 적용될 수 있으리라 판단된다.

  • PDF

비유사량(沸流砂量) 추정방법의 개발(I) -개발방향의 설정 및 자료의 수집·분석 - (Development of Methods for Estimating Sediment Yield Rate (I) - Modeling Strategies and Field Data Analysis -)

  • 유권규;김창완;김형섭;우효섭
    • 대한토목학회논문집
    • /
    • 제13권1호
    • /
    • pp.121-130
    • /
    • 1993
  • 본 연구의 주요 목적은 댐 설계를 위한 유역의 비유사량 추정방법을 개발하는 것으로 유역면적 $200km^2{\sim}2,000km^2$ 정도의 중규모 유역을 대상으로 한다. 이를 위하여, 본 연구에서 개발할 비유사량 추정방법으로 통계적 방법에 의한 경험식과 미국 PSIAC 방법과 유사한 도표식 방법을 채택하였다. 이러한 방법들의 개발을 위해 본 연구에서는 과거 '60년대 이후 우리나라에서 수행된 하천유사량 실측자료 및 기존 다목적 및 발전댐 저수지 퇴사자료를 모두 수집 분석하여 비유사량 추정방법의 개발에 이용 가능한 자료 5 점을 도출하였다. 또한, 섬강, 금강상류, 내성천, 위천 등 4 개 조사유역의 8개 지점에서 하천유사량 자료를 실측하여 8개 지점에서의 연평균 비유사량을 산정하였다. 한편, 유역의 비유사량에 영향을 주는 유역특성 인자로 유역면적, 하천밀도, 강우 침식도, 식생 및 토지이용, 토양 침식성, 지형(기복 에너지), 하상재료 당 총 7 개의 유역특성인자를 선정하고, 각 인자의 정량화 방법을 제시하였다. 연구(II)에서는 이러한 유역특성 인자들과 중규모 유역에서 수집된 13 점의 이용가능한 유역 비유사량 자료를 이용하여 비유사량 추정방법을 개발한다.

  • PDF

쌍대위치 이벤트들의 국지적 공간적 연관성을 평가하기 위한 방법론적 연구: 주택거래의 벡터 공간적 자기상관 (An Alternative Method for Assessing Local Spatial Association Among Inter-paired Location Events: Vector Spatial Autocorrelation in Housing Transactions)

  • 이건학
    • 한국경제지리학회지
    • /
    • 제11권4호
    • /
    • pp.564-579
    • /
    • 2008
  • 물리적 또는 기능적으로 연결된 두 지점에서 발생하는 이벤트(쌍대위치 이벤트)들 사이의 국지적인 공간적 연관성을 평가하는 것은 쉽지 않다. 그것은 대개 그러한 형태의 지리적 현상들이 가지고 있는 프로세스 자체의 복잡한 특성 때문이지만, 실제 공간 상에서 재현될 때 매우 복잡하게 얽혀 시각적 패턴을 인식하기 어렵기 때문이기도 하다. 이 논문은 국지적 스케일에서 공간적으로 자기상관된 쌍대위치 이벤트(또는 벡터)들을 확인하기 위한 대안적 방법을 다루고 있다. 제시된 통계적 알고리즘은 (벡터들의) 시작 포인트들의 클러스터링을 평가하기 위한 단변량 포인트 패턴 분석과 시작 포인트들에 상응하는 벡터들의 유사성 측정을 혼합하여 개발되었다. 사례 분석은 미국 오하이오주 프랭클린 카운티의 지역 주택시장에서 2004년에서 2006년 동안 이루어진 주택거래 데이터를 사용하여 이루어졌다. 분석 결과, 국지적으로 특성화될 수 있는, 특히 지역 커뮤니티와 연관된 다양한 이동들을 보여주는 주택거래들을 확인할 수 있었다.

  • PDF

전류신호의 유사도 평가와 통계적 상관관계를 이용한 유도전동기의 온라인 고장진단 (On-1ine faults diagnosis of induction motor using similarity measure and statistical correlation)

  • 김영인;김연태;김성신
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 추계학술대회 학술발표 논문집 제15권 제2호
    • /
    • pp.106-109
    • /
    • 2005
  • 산업화와 더불어 자동화의 요구에 따라 여러 분야에서 유도전동기의 응용 사례가 늘어나고 있다. 본 연구는 인버터단의 전류센서에서 실시간 얻어진 전류신호로 부터 대표적인 전기, 기계적인 4가지 고장(Bearing Fault, Broken Rotor bar, Misalignment, Unbalance)을 검출하여 예기치 못한 고장에 대비할 수 있는 실시간 진단 알고리듬을 제시한다. 실시간 진단의 핵심요소인 동기화 방법으로서 Hilbert Transform을 응용하였다. 총 40세트의 정상 모터 데이터를 임의로 선택하여 두 데이터의 차를 이용하여 0에 근사한 정상 모터 뎀플릿 값을 설정하였다. 이를 이용하여 진단 대상 전동기의 고장 유무를 미리 판단하게 된다. 만약 기준치 이상의 오차가 나타나게 되면, 이와 비교하기 위한 미리 수집된 각4가지 고장 전동기의 미소신호 템플릿 데이터와의 유사성을 비교하여 고장의 종류를 표시하며, 고장의 종류가 진단되지 않은 대상은 고장 유무만 표시된다.

  • PDF

퍼지 연관규칙과 연관규칙의 성능 평가 (Performance Estimation of Fuzzr Quantitative Association Rules and Crisp Quantitative Association Rules)

  • 손영경;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.235-237
    • /
    • 2002
  • 연관규칙(association rule)이란 데이터 베이스에 존재하는 속성들 사이에 유사성 또는 패턴을 기술하는 것으로, 사용자에게 데이터에 관한 유용한 조보를 줄 수 있다. 그러나, 지금가지의 연관규칙은 이진 (boolean) 데이터 베이스에 존재하는 연관규칙의 발견에 대해서 주로 연구되어 왔으며, 정량적(수치적, quantitative) 속성을 갖는 데이터에 대한 연관규칙의 연구는 미비하였다. 그 이유는 정량적 속성을 갖는 데이터를 기호적(nominal) 속성값으로 바꾼 후 연관규칙 보다 성능이 우수함을 보이고 있다. 또한 본 논문에서는 퍼지 연관규칙에서 소속함수(항목, 아이템, 속성값)의 모양과 개수를 데이터 분포에 대한 통계적 특성을 나타내는 히스토그램을 이용하여 소속함수를 자동 생성하는 효율적인 연관규칙 추출방법을 제안한다

  • PDF

사용자에 의한 영상 불변 특징을 이용한 이미지 해쉬 기술 (Image Hashing Techniques Utilizing User-Defined Image Invariant Features)

  • 최용수;김형중
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.514-517
    • /
    • 2010
  • 이미지 해쉬는 기술자(Descriptor) 또는 구분자(Identifier)로서 영상의 유사성을 측정하는데 사용될 수 있다. 수많은 이미지 해쉬 기술들이 있지만, 그 중에서도 히스토그램 기반의 방법들이 일반적인 영상처리나 다양한 기하학적 공격들에 강인함을 보여준다. 이 논문에서는 강인한 히스토그램 기반 이미지 해쉬를 생성하기 위하여 영상의 양자화, 사용자 지정 윈도우를 적용하여 영상의 특성화 과정을 적용하며 해쉬 값 결정 알고리즘도 오류에 강하도록 설계하였다. 이러한 기술은 기존의 논문들이 보여주었던 성능을 향상시킨다. 특히, 통계적인 오류측정을 통해 수행결과를 설명함으로서 수행성능의 향상을 객관적으로 평가하였다.

고산에서 측정한 TSP 농도 특성: 통계적 해석 (Characteristics of TSP Concentrations Measured at Gosan: Statistical Analysis)

  • 박민하;김용표;강창희;김원형
    • 한국대기환경학회지
    • /
    • 제19권1호
    • /
    • pp.93-100
    • /
    • 2003
  • 본 연구에서는 세가지 통계적 기법을 적용하여 고산에서 측정한 TSP (Total Suspended Particle) 농도 특성을 해석하였다. 우선 황사와 비황사시의 평균농도를 비교하는 t-검정의 기본가정을 점검하였다. 모집단을 정규분포화 하기 위해 당량농도를 Log 변환하였고 이로써 1992~1999년 봄철 황사시 평균농도가 비황사시 평균농도보다 높은 이온 성분은 NH$_4$$^{+}$ 뿐임을 확인하였다. 통계적 검정을 수행함에 있어서 기본 가정을 확인하는 것은 중요한 과정이다. 또한 봄철에 집중되어 있는 TSP측정기간이 평균값에 미치게 될 영향을 제거하기 위해 측정일수를 유사하게 맞추었다. 측정일수를 맞추어 산정한 평균값과 측정일수가 다른대로 산정한 평균값을 비교해본 결과, 기간별 측정일수가 다름은 평균값에 영향을 미치나 큰 변화는 보이지 않았다. 마지막으로 비모수 통계기법을 이용해 nss-SO$_4$$^{2-}$ NO$_3$$^{-}$ 과 S/N 비의 경향성을 분석해본 결과, nss-SO$_4$$^{2-}$ 의 경우 통계적으로 그 경향성은 나타나지 않고 NO$_3$$^{-}$만이 증가경향을 나타내었으며, 따라서 증가하는 경향성을 보인 S/N 비는 NO$_3$$^{-}$ 에 의한 감소의 경향을 나타냄을 통계 적으로 확인하였다.

남은 음식물과 녹차 부산물의 첨가가 육계의 성장과 체조성에 미치는 영향 (Effects of Leftover Food and Green Tea By-product on Productivity and Body Composition in Broiler)

  • 양철주;;박일철;조미란
    • 유기물자원화
    • /
    • 제11권1호
    • /
    • pp.90-90
    • /
    • 2003
  • 본 시험에서는 무첨가구인 대조구와 대조구에 남은 음식물을 수준별로 첨가하고 단백질의 수준을 높여준 leftover food 10%와 leftover food 20% 및 leftover food 30%의 4처리구와 각 처리구에 녹차 부산물을 1%씩 첨가한 4처리로 총 8처리 5반복으로 반복 당 6수씩 총 240수를 임의 배치하여 사양 시험을 실시하고, 증체량 과 사료섭취량 및 사료효율, 폐사율과 체조성 및 혈중 콜레스테롤 및 도체 콜레스테등을 측정한 결과는 다음과 같다. 1. 사육후기의 증체량은 대조구가 1,364g으로 가장 높은 증체를 보였으며 (P<0.05), 남은 음식물 10%, 20% 및 30% 그리고 이 4처리구에 녹차 부산물을 첨가한 처리구에서는 모두 대조구 보다 낮은 증체를 보였다. 개시체중과 사료 섭취량에서는 통계적 유의차를 보이지 않았다 (P>0.05). 2. 폐사는 남은 음식물 10% + GTB 1%첨가구 에서만 나타났다. 남은 음식물 첨가가 육계의 폐사에는 영향을 미치지 않는 것으로 사료된다. 3. 조섬유 (16.70)와 조단백질 (20.09)의 함량은 유사한 결과를 보였으나 조지방 (10.55)함량은 다소 낮게 나타났다. 4. 혈중 cholesterol 함량은 남은 음식물 20% + GTB 1%와 남은 음식물 30% + GTB 1%에서 각각 146.96mg/100ml와 172.03mg/100ml로 높은 수치를 보였으며 통계적 유의차를 보였다 (P<0.05). 5. 도체 cholesterol은 대조구에서 98.57mg/100g으로 가장 높은 수치를 보였으며 남은 음식물 30% + GTB 1%가 72.10mg/100g으로 낮게 나타났으며 통계적 유의차를 보였다 (P<0.05).

  • PDF

토양 재활용을 위한 통계적 분석의 PAHs 농도 예측 (Prediction of PAHs Concentration using Statistical Analysis for Soil Recycling)

  • 김종오;이만승
    • 자원리싸이클링
    • /
    • 제26권4호
    • /
    • pp.56-61
    • /
    • 2017
  • 본 연구에서는 토양내 BaA 농도로부터 BaP, DahA와 ${\Sigma}PAH$의 농도 예측식 개발과 토양 재활용을 위하여 통계적 접근을 시도하였다. 회귀분석 결과 높은 상관성($R^2$ > 0.90)과 BaA와 BaP(또는 DahA) 농도 사이에 밀접한 연관성을 보였다. 또한 개발된 회귀식을 다른 검증 연구에 적용한 결과 유사한 예측값을 얻었다. 통계적 분석에서 BaA가 BaP 예측에 높은 상관성을 보였으며 PAHs 예측에 중요한 인자로 여겨진다. 이들 예측식을 적용 할 경우 BaA 농도만을 이용하여 평균적인 BaP, DahA나 ${\Sigma}PAH$ 농도를 빨리 계산 할 수 있다.