• 제목/요약/키워드: 카파 계수

검색결과 33건 처리시간 0.028초

CRFs를 이용한 한국어 상품평의 감정 분류 (Sentiment Categorization of Korean Customer Reviews using CRFs)

  • 신준수;이주호;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.58-62
    • /
    • 2008
  • 인터넷 상에서 상품을 구입할 때 고려하는 부분 중의 하나가 상품평이다. 하지만 이러한 상품평들을 개인이 일일이 확인 하는데에는 상당한 시간이 소요된다. 이러한 문제점을 줄이기 위해서 본 논문에서는 인터넷 상의 상품평에 대한 의견을 긍정, 부정, 일반으로 나누는 시스템을 제안한다. 제안 시스템은 CRFs 기계학습모델을 기반으로 하며, 연결어미, 형태소 유니그램, 슬라이딩 윈도우 기법의 형태소 바이그램을 자질로 사용한다. 실험을 위해서 가격비교 사이트의 모니터 카테고리에서 561개의 상품평을 수집하였다. 이 중 465개의 상품평을 학습 문서로 사용하였고 96개의 상품평을 실험 문서로 사용하였다. 제안 시스템은 실험결과 79% 정도의 정확도를 보였다. 추가 실험으로 제안 시스템이 사람들과 얼마나 비슷한 성능을 보이는지 알아보기 위해서 카파 테스트를 실시하였다. 카파 테스트를 실시한 결과, 사람간의 카파 계수는 0.6415였으며, 제안 시스템과 사람 간의 카파 계수는 평균 0.5976이였다. 결론적으로 제안 시스템이 사람보다는 떨어지지만 유사한 정도의 성능을 보임을 알 수 있었다.

  • PDF

조건부 랜덤 필드를 이용한 특허 문서의 개체명 인식 (Named Entity Recognition for Patent Documents Based on Conditional Random Fields)

  • 이태석;신수미;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권9호
    • /
    • pp.419-424
    • /
    • 2016
  • 특허 정보검색에서는 검색 정확도를 높이거나 유사 특허들을 검색하기 위한 목적으로 청구항 등 특허 기술 문서의 내용을 대표하는 개체명 인식이 필요하다. 본 연구에서는 특허 개체명을 자동으로 인식하기 위하여 기계 학습 기법에서 태깅 문제 해결에 매우 우수한 성능을 보이는 조건부 랜덤 필드 기법을 이용하는 특허 개체명 인식 방법을 제안하였다. 개체명 태깅이 되어 있는 특허 문서 말뭉치에서 66만 어절을 학습용 데이터로 사용하여 특허 개체명 시스템을 구축하고, 7만 어절을 평가용 데이터로 사용하여 성능 평가를 하였다. 실험 결과에 의하면 개체명 인식 정확도는 93.6%이고, 개체명 인식 성능을 수작업 태깅 결과와 비교하여 일치도를 평가했을 때 카파 계수는 0.67로 나타났다. 이 카파 계수값은 두 사람의 수작업 태깅 결과에 대한 카파 계수 0.6 보다 높은 것으로 특허 개체명 인식 시스템이 수작업 태깅을 대신하여 실용적으로 활용될 수 있음을 확인하였다.

모의 실험을 이용한 여러 합치도들의 비교 (A simulation study of rater agreement measures)

  • 한경도;박용규
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.25-37
    • /
    • 2012
  • 두 평정자간 평가의 일치정도를 나타내는 합치도로 Cohen (1960)의 ${\pi}$, Scott (1955)의 H, 박미희와 박용규 (2007)의 등 많은 통계량이 제안되어왔다. 모의실험을 통하여 균형적 주변분포에서의 명목형과 순서형 합치도, 두 가지 역설이 발생하는 불균형 주변분포에서의 명목형 합치도들의 편의, 표준오차, 평균오차제곱 분산, 변이계수를 비교한 결과, 모든 경우에서 AC1과 H의 표준오차와 변이계수가 가장 작게 나타났다.

Landsat TM 위성영상을 이용한 산불 발생지역의 탐지 (Detection of Burned Forest Areas Using Landsat TM Images)

  • 김철민;이승호;노대균
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2001년도 춘계 학술대회 논문집 통권 4호 Proceedings of the 2001 KSRS Spring Meeting
    • /
    • pp.77-81
    • /
    • 2001
  • 2000년 4월, 강원도 삼척일대에 크게 발생한 산불지역에 대해서 Landsat TM 인공위성 영상자료를 이용하여 산불의 피해지역을 조사분석하였다. 산불발생 전과 후의 2시기 위성영상을 이용하여 변화탐지 기법의 하나인 화상간차이법을 적용하였다. 분석결과 산불 발생지역의 탐지에는 NDVI를 유도하고 그 차이를 이용하는 것이 가장 탁월한 것으로 나타났다. 산불 피해지역을 구분하는 임계값을 표준편차$\times$0.9로 하였을 때, 현지조사 결과에 대한 전체정확도는 93.8%, 카파계수는 0.82로 매우 높았다.

  • PDF

다기관 코호트 연구에서 경동맥 내막-중막 두께 측정의 측정자간 신뢰도 평가 (Inter-Rater Reliability of Carotid Intima-Media Thickness Measurements in a Multicenter Cohort Study)

  • Lee, Jung Hyun;Choi, Dong Phil;Shim, Jee-Seon;Kim, Dae Jung;Park, Sung-Ha;Kim, Hyeon Chang
    • Journal of health informatics and statistics
    • /
    • 제41권1호
    • /
    • pp.49-56
    • /
    • 2016
  • 목적: 경동맥 내막-중막 두께와 경동맥 경화반의 존재유무는 죽상동맥경화증의 임상 전단계를 나타내는 지표로 널리 사용되고 있다. 경동맥 내막-중막 두께를 측정할 때의 측정자 의존성 때문에, 다기관 연구에서는 경동맥 내막-중막 두께와 경화반 측정의 기관간 신뢰도를 확인하는 것이 중요하다. 이 연구의 목적은 심뇌혈관 및 대사질환원인 연구센터에 속해 있는 세 임상기관 사이의 경동맥 내막-중막 두께와 경화반 측정의 측정자간 신뢰도를 평가하는 것이다. 방법: 심뇌혈관 질환 과거력이 없는 사람 20명이 2014-2015년 사이에 이 연구에 참여하였고(연령 37-64세), 미리 정해진 프로토콜에 따라 연구참여자의 좌, 우 경동맥을 세 임상기관에서 반복적으로 측정하였다. 총 경동맥의 원위부에서 측정한 경동맥 내막-중막 두께의 최대값과 평균값을 기록하였다. 경동맥에서의 경화반 존재유무는 측정자에 의해 확인되었다. 경동맥 내막-중막 두께와 경화반 존재유무의 신뢰도를 급내상관계수와 카파 통계량을 통해 각각 평가하였다. 결과: 계산된 급내상관계수는 최대 경동맥 내막-중막 두께를 평가하였을 때 0.647이었고 (95% CI: 0.487-0.779), 평균 경동맥 내막-중막 두께를 평가하였을 때 0.758 (95% CI: 0.632-0.854) 이었다. Bland Altman plot에서, 관측치의 대부분은 평균의 차이에서 ${\pm}1.96$ 표준편차 사이에 분포하였다. 각 기관 사이의 경화반 존재유무에 대한 카파 통계량은 0.304 (기관 1과 2), 0.507 (기관 1과 3), 0.606 (기관 2와 3)이었다. 전반적인 일치를 평가하는 Fleiss카파값은 0.445였다. 결론: 세 임상기관 사이의 경동맥 내막-중막 두께의 측정자간 신뢰도는 훌륭하였으며, 경화반 존재유무에 대한 신뢰도는 적정하였다.

Sentinel-1 및 UAV 영상을 활용한 김제시 벼 재배 조기 추정 (Early Estimation of Rice Cultivation in Gimje-si Using Sentinel-1 and UAV Imagery)

  • 이경도;김숙경;안호용;소규호;나상일
    • 대한원격탐사학회지
    • /
    • 제37권3호
    • /
    • pp.503-514
    • /
    • 2021
  • 쌀 수급 조절 정책의 합리적 수립을 지원하기 위해서는 벼 재배면적의 조기 추정이 필요하다. 본 연구는 국내 벼 주산지인 김제시를 대상으로 Sentinel-1 위성영상을 활용하여 이앙이 마무리되는 7월 초순 벼 재배면적을 조기에 추정하기 위해 최적의 훈련자료 수집을 위한 무인기(UAV) 영상 활용 방안을 제시하고자 수행하였다. 5월부터 7월 초까지 수집한 Sentinel-1 위성영상은 ESA에서 제공하는 SNAP(SeNtinel application platform, Version 8.0)프로그램으로 전처리하고 팜맵을 활용하여 농경지만을 추출하였다. 벼 재배지 중심 지역과 벼·콩 혼재지 무인기 영상 촬영 영역을 혼합하여 훈련자료로 선정하여 김제시 전체 벼 재배지를 추정한 결과, 정확도와 카파 계수는 각각 89.9%, 0.774로 가장 좋은 결과를 보였는데, 이는 김제시 전역을 대상으로 무작위 표본조사를 수행하여 분류한 결과와 비교 시 전체 정확도 1% 내외, 카파 계수 0.02~0.04 범위에서 차이를 보여 벼 재배지 조기 추정을 위한 무인기 영상 활용 가능성을 확인할 수 있었다.

라이다 플랫폼과 딥러닝 모델에 따른 잣나무와 낙엽송의 분류정확도 비교 및 평가 (Comparison and Evaluation of Classification Accuracy for Pinus koraiensis and Larix kaempferi based on LiDAR Platforms and Deep Learning Models)

  • 이용규;이상진;이정수
    • 한국산림과학회지
    • /
    • 제112권2호
    • /
    • pp.195-208
    • /
    • 2023
  • 본 연구는 잣나무와 낙엽송을 대상으로 라이다로부터 취득된 3차원의 Point cloud data (PCD)를 이용하여 딥러닝 기반의 수종 분류 모델을 구축하고 분류정확도를 비교·평가하였다. 수종 분류 모델은 라이다 플랫폼(고정식과 이동식), Farthest point sampling (FPS) 기반의 다운샘플링 강도(1024개, 2048개, 4096개, 8192개), 딥러닝 모델(PointNet, PointNet++) 3가지 조건에 따라 총 16개의 모델을 구축하였다. 분류 정확도 평가 결과, 고정식 라이다는 다운샘플링 강도가 8192개인 PCD 자료에 PointNet++ 모델을 적용하였을 때 카파계수가 93.7%로 가장 높았으며, 이동식 라이다는 다운샘플링 강도가 2048개에 PointNet++을 적용하였을 때 카파계수가 96.9%로 가장 높았다. 또한, 플랫폼과 다운샘플링 강도가 동일한 경우 PointNet++이 PointNet보다 정확도가 높았다. 구축된 16개 모델의 오분류 사례는 첫 번째, 수종 간의 구조적인 특징이 유사한 개체목 두 번째, 경사지 또는 임도 주변에 위치하여 편심생장한 개체목 세 번째, 개체목 분할 시 수관부가 수직으로 분할된 개체목에 대해 발생하였다.

합성곱 신경망 기반 채점 모델 설계 및 적용을 통한 운동학 그래프 답안 자동 채점 (The Automated Scoring of Kinematics Graph Answers through the Design and Application of a Convolutional Neural Network-Based Scoring Model)

  • 한재상;김현주
    • 한국과학교육학회지
    • /
    • 제43권3호
    • /
    • pp.237-251
    • /
    • 2023
  • 본 연구는 합성곱 신경망을 활용한 자동 채점 모델을 설계하고 학생의 운동학 그래프 답안에 적용함으로써, 과학 그래프 답안에 대한 자동 채점의 가능성을 탐색하였다. 연구자가 작성한 2,200개의 답안을 2,000개의 훈련 데이터와 200개의 검증 데이터로 데이터셋을 구성하고, 202개의 학생 답안을 100개의 훈련 데이터와 102개의 시험 데이터로 데이터셋을 구성하여 연구를 진행하였다. 먼저, 자동 채점모델을 설계하고 성능을 검증하는 과정에서는 연구자가 작성한 답안 데이터셋을 활용하여 그래프 이미지 분류에 최적화되도록 자동 채점모델을 완성하였다. 다음으로 자동 채점 모델에 훈련 데이터셋을 여러 유형으로 학습시키면서 학생의 시험 데이터셋에 대한 채점을 수행하여 훈련 데이터의 양이 많고 다양할수록 자동 채점 모델의 성능이 향상된다는 것을 확인하였고, 최종적으로 인간 채점과의 일치율은 97.06%, 카파 계수는 0.957, 가중 카파 계수는 0.968을 얻었다. 한편, 훈련 데이터로 학습되지 않은 유형의 답안의 경우 인간 채점자들 간에는 채점이 거의 일치하였으나, 자동 채점 모델은 일치하지 않게 채점하는 것을 확인하였다.

수치변화탐지의 새로운 접근 - 기하거리분석법 -

  • 정성학
    • 한국지형공간정보학회:학술대회논문집
    • /
    • 한국지형공간정보학회 1993년도 학술발표회 개요집
    • /
    • pp.141-145
    • /
    • 1993
  • 수치변화탐지에 있어서 종래의 단일 밴드 분석법에 대한 대안으로, 선정된 조합에 의한 복합 밴드의 정보를 활용하는 기하거리분석법이라는 새로운 앨고리듬을 개발하였으며, 분석된 두 앨고리듬 중 기하거리분석법이 변화탐지에 보다 좋은 결과를 나타냈다. 기하거리분석법은 식생 형 변화에 대한 복합 밴드의 정보를 활용할 수가 있고, 데이타의 양을 줄일 수 있는 장점이 있다. 하지만, 이 방법에 대해서는 여러 환경에서의 보다 세밀한 정량적 분석이 요구되어진다. 각 변화영상에 대한 최적영역수준은 여러가지 정확도지수를 분석하여 결정하였으며, (변화)구분도에 대한 표준정확도로는 카파일도계수를 적용하였다.

  • PDF

개념 기반 한국어 서답형 답안의 자동채점 시스템 (Concept-based Automatic Scoring System for Korean Free-text or Constructed Answers)

  • 박일남;노은희;심재호;김명화;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-72
    • /
    • 2012
  • 본 논문은 한국어 서답형(단어, 구 수준) 문항 유형을 분석하고 실제 채점자가 채점 기준표를 보고 채점하는 방법을 컴퓨터가 인식할 수 있도록 정답 템플릿을 설계 및 개념 정의를 하여 한국어 서답형에 특화된 자동채점 시스템 방법을 제시한다. 본 시스템을 사용하여 1000개의 학생 답안지에 대한 유형 가지수 500개 이하의 2011년도 학업성취도 평가 과학 6개 문항에 대하여 채점 기준표 내용을 정답 템플릿으로 작성한 뒤 250개 학생 답안을 학습데이터로, 정답 템플릿을 업데이트로 사용, 750개 학생 답안에 대하여 자동채점한 결과, 평균 카파계수 0.84라는 수치로서 실제 사람 채점 결과와 거의 완벽히 일치라는 결과를 얻었다.

  • PDF