• 제목/요약/키워드: 카파계수

검색결과 33건 처리시간 0.03초

CRFs를 이용한 한국어 상품평의 감정 분류 (Sentiment Categorization of Korean Customer Reviews using CRFs)

  • 신준수;이주호;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.58-62
    • /
    • 2008
  • 인터넷 상에서 상품을 구입할 때 고려하는 부분 중의 하나가 상품평이다. 하지만 이러한 상품평들을 개인이 일일이 확인 하는데에는 상당한 시간이 소요된다. 이러한 문제점을 줄이기 위해서 본 논문에서는 인터넷 상의 상품평에 대한 의견을 긍정, 부정, 일반으로 나누는 시스템을 제안한다. 제안 시스템은 CRFs 기계학습모델을 기반으로 하며, 연결어미, 형태소 유니그램, 슬라이딩 윈도우 기법의 형태소 바이그램을 자질로 사용한다. 실험을 위해서 가격비교 사이트의 모니터 카테고리에서 561개의 상품평을 수집하였다. 이 중 465개의 상품평을 학습 문서로 사용하였고 96개의 상품평을 실험 문서로 사용하였다. 제안 시스템은 실험결과 79% 정도의 정확도를 보였다. 추가 실험으로 제안 시스템이 사람들과 얼마나 비슷한 성능을 보이는지 알아보기 위해서 카파 테스트를 실시하였다. 카파 테스트를 실시한 결과, 사람간의 카파 계수는 0.6415였으며, 제안 시스템과 사람 간의 카파 계수는 평균 0.5976이였다. 결론적으로 제안 시스템이 사람보다는 떨어지지만 유사한 정도의 성능을 보임을 알 수 있었다.

  • PDF

조건부 랜덤 필드를 이용한 특허 문서의 개체명 인식 (Named Entity Recognition for Patent Documents Based on Conditional Random Fields)

  • 이태석;신수미;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권9호
    • /
    • pp.419-424
    • /
    • 2016
  • 특허 정보검색에서는 검색 정확도를 높이거나 유사 특허들을 검색하기 위한 목적으로 청구항 등 특허 기술 문서의 내용을 대표하는 개체명 인식이 필요하다. 본 연구에서는 특허 개체명을 자동으로 인식하기 위하여 기계 학습 기법에서 태깅 문제 해결에 매우 우수한 성능을 보이는 조건부 랜덤 필드 기법을 이용하는 특허 개체명 인식 방법을 제안하였다. 개체명 태깅이 되어 있는 특허 문서 말뭉치에서 66만 어절을 학습용 데이터로 사용하여 특허 개체명 시스템을 구축하고, 7만 어절을 평가용 데이터로 사용하여 성능 평가를 하였다. 실험 결과에 의하면 개체명 인식 정확도는 93.6%이고, 개체명 인식 성능을 수작업 태깅 결과와 비교하여 일치도를 평가했을 때 카파 계수는 0.67로 나타났다. 이 카파 계수값은 두 사람의 수작업 태깅 결과에 대한 카파 계수 0.6 보다 높은 것으로 특허 개체명 인식 시스템이 수작업 태깅을 대신하여 실용적으로 활용될 수 있음을 확인하였다.

Landsat TM 위성영상을 이용한 산불 발생지역의 탐지 (Detection of Burned Forest Areas Using Landsat TM Images)

  • 김철민;이승호;노대균
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2001년도 춘계 학술대회 논문집 통권 4호 Proceedings of the 2001 KSRS Spring Meeting
    • /
    • pp.77-81
    • /
    • 2001
  • 2000년 4월, 강원도 삼척일대에 크게 발생한 산불지역에 대해서 Landsat TM 인공위성 영상자료를 이용하여 산불의 피해지역을 조사분석하였다. 산불발생 전과 후의 2시기 위성영상을 이용하여 변화탐지 기법의 하나인 화상간차이법을 적용하였다. 분석결과 산불 발생지역의 탐지에는 NDVI를 유도하고 그 차이를 이용하는 것이 가장 탁월한 것으로 나타났다. 산불 피해지역을 구분하는 임계값을 표준편차$\times$0.9로 하였을 때, 현지조사 결과에 대한 전체정확도는 93.8%, 카파계수는 0.82로 매우 높았다.

  • PDF

모의 실험을 이용한 여러 합치도들의 비교 (A simulation study of rater agreement measures)

  • 한경도;박용규
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.25-37
    • /
    • 2012
  • 두 평정자간 평가의 일치정도를 나타내는 합치도로 Cohen (1960)의 ${\pi}$, Scott (1955)의 H, 박미희와 박용규 (2007)의 등 많은 통계량이 제안되어왔다. 모의실험을 통하여 균형적 주변분포에서의 명목형과 순서형 합치도, 두 가지 역설이 발생하는 불균형 주변분포에서의 명목형 합치도들의 편의, 표준오차, 평균오차제곱 분산, 변이계수를 비교한 결과, 모든 경우에서 AC1과 H의 표준오차와 변이계수가 가장 작게 나타났다.

라이다 플랫폼과 딥러닝 모델에 따른 잣나무와 낙엽송의 분류정확도 비교 및 평가 (Comparison and Evaluation of Classification Accuracy for Pinus koraiensis and Larix kaempferi based on LiDAR Platforms and Deep Learning Models)

  • 이용규;이상진;이정수
    • 한국산림과학회지
    • /
    • 제112권2호
    • /
    • pp.195-208
    • /
    • 2023
  • 본 연구는 잣나무와 낙엽송을 대상으로 라이다로부터 취득된 3차원의 Point cloud data (PCD)를 이용하여 딥러닝 기반의 수종 분류 모델을 구축하고 분류정확도를 비교·평가하였다. 수종 분류 모델은 라이다 플랫폼(고정식과 이동식), Farthest point sampling (FPS) 기반의 다운샘플링 강도(1024개, 2048개, 4096개, 8192개), 딥러닝 모델(PointNet, PointNet++) 3가지 조건에 따라 총 16개의 모델을 구축하였다. 분류 정확도 평가 결과, 고정식 라이다는 다운샘플링 강도가 8192개인 PCD 자료에 PointNet++ 모델을 적용하였을 때 카파계수가 93.7%로 가장 높았으며, 이동식 라이다는 다운샘플링 강도가 2048개에 PointNet++을 적용하였을 때 카파계수가 96.9%로 가장 높았다. 또한, 플랫폼과 다운샘플링 강도가 동일한 경우 PointNet++이 PointNet보다 정확도가 높았다. 구축된 16개 모델의 오분류 사례는 첫 번째, 수종 간의 구조적인 특징이 유사한 개체목 두 번째, 경사지 또는 임도 주변에 위치하여 편심생장한 개체목 세 번째, 개체목 분할 시 수관부가 수직으로 분할된 개체목에 대해 발생하였다.

개념 기반 한국어 서답형 답안의 자동채점 시스템 (Concept-based Automatic Scoring System for Korean Free-text or Constructed Answers)

  • 박일남;노은희;심재호;김명화;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-72
    • /
    • 2012
  • 본 논문은 한국어 서답형(단어, 구 수준) 문항 유형을 분석하고 실제 채점자가 채점 기준표를 보고 채점하는 방법을 컴퓨터가 인식할 수 있도록 정답 템플릿을 설계 및 개념 정의를 하여 한국어 서답형에 특화된 자동채점 시스템 방법을 제시한다. 본 시스템을 사용하여 1000개의 학생 답안지에 대한 유형 가지수 500개 이하의 2011년도 학업성취도 평가 과학 6개 문항에 대하여 채점 기준표 내용을 정답 템플릿으로 작성한 뒤 250개 학생 답안을 학습데이터로, 정답 템플릿을 업데이트로 사용, 750개 학생 답안에 대하여 자동채점한 결과, 평균 카파계수 0.84라는 수치로서 실제 사람 채점 결과와 거의 완벽히 일치라는 결과를 얻었다.

  • PDF

다기관 코호트 연구에서 경동맥 내막-중막 두께 측정의 측정자간 신뢰도 평가 (Inter-Rater Reliability of Carotid Intima-Media Thickness Measurements in a Multicenter Cohort Study)

  • Lee, Jung Hyun;Choi, Dong Phil;Shim, Jee-Seon;Kim, Dae Jung;Park, Sung-Ha;Kim, Hyeon Chang
    • Journal of health informatics and statistics
    • /
    • 제41권1호
    • /
    • pp.49-56
    • /
    • 2016
  • 목적: 경동맥 내막-중막 두께와 경동맥 경화반의 존재유무는 죽상동맥경화증의 임상 전단계를 나타내는 지표로 널리 사용되고 있다. 경동맥 내막-중막 두께를 측정할 때의 측정자 의존성 때문에, 다기관 연구에서는 경동맥 내막-중막 두께와 경화반 측정의 기관간 신뢰도를 확인하는 것이 중요하다. 이 연구의 목적은 심뇌혈관 및 대사질환원인 연구센터에 속해 있는 세 임상기관 사이의 경동맥 내막-중막 두께와 경화반 측정의 측정자간 신뢰도를 평가하는 것이다. 방법: 심뇌혈관 질환 과거력이 없는 사람 20명이 2014-2015년 사이에 이 연구에 참여하였고(연령 37-64세), 미리 정해진 프로토콜에 따라 연구참여자의 좌, 우 경동맥을 세 임상기관에서 반복적으로 측정하였다. 총 경동맥의 원위부에서 측정한 경동맥 내막-중막 두께의 최대값과 평균값을 기록하였다. 경동맥에서의 경화반 존재유무는 측정자에 의해 확인되었다. 경동맥 내막-중막 두께와 경화반 존재유무의 신뢰도를 급내상관계수와 카파 통계량을 통해 각각 평가하였다. 결과: 계산된 급내상관계수는 최대 경동맥 내막-중막 두께를 평가하였을 때 0.647이었고 (95% CI: 0.487-0.779), 평균 경동맥 내막-중막 두께를 평가하였을 때 0.758 (95% CI: 0.632-0.854) 이었다. Bland Altman plot에서, 관측치의 대부분은 평균의 차이에서 ${\pm}1.96$ 표준편차 사이에 분포하였다. 각 기관 사이의 경화반 존재유무에 대한 카파 통계량은 0.304 (기관 1과 2), 0.507 (기관 1과 3), 0.606 (기관 2와 3)이었다. 전반적인 일치를 평가하는 Fleiss카파값은 0.445였다. 결론: 세 임상기관 사이의 경동맥 내막-중막 두께의 측정자간 신뢰도는 훌륭하였으며, 경화반 존재유무에 대한 신뢰도는 적정하였다.

기계학습 분류기의 예측확률과 만장일치를 이용한 한국어 서답형 문항 자동채점 시스템 (Automated Scoring System for Korean Short-Answer Questions Using Predictability and Unanimity)

  • 천민아;김창현;김재훈;노은희;성경희;송미영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.527-534
    • /
    • 2016
  • 최근 정보화 사회에서는 단순 암기보다는 문제 해결 능력과 종합적인 사고력을 바탕으로 창의적인 생각을 할 수 있는 인재를 요구한다. 이에 따라 교육과정도 학생들의 종합적인 사고력을 판단할 수 있는 서답형 문항을 늘리는 방향으로 변하고 있다. 그러나 서답형 문항의 경우 채점자의 주관에 의존하여 채점이 진행되기 때문에, 채점 결과의 일관성을 확보하기 어렵다는 단점이 있다. 이런 점을 해결하기 위해 해외에서는 기계학습을 이용한 자동채점 시스템을 채점 도구로 사용하고 있다. 한국어는 영어와 언어학적으로 다른 분류에 속하므로 영어권에서 사용하는 자동채점 시스템을 한국어에 그대로 적용할 수 없다. 따라서 한국어 체계에 맞는 자동채점 시스템의 개발이 필요하다. 본 논문에서는 기계학습 분류기의 예측확률과 만장일치 방법을 사용한 한국어 서답형 문항 자동채점 시스템을 소개하고, 자동채점 시스템을 이용한 채점 결과와 교과 전문가의 채점 결과를 비교하여 자동채점 시스템의 실용성을 검증한다. 본 논문의 실험을 위해 2014년 국가수준 학업성취도 평가의 국어, 사회, 과학 교과의 서답형 문항을 사용했다. 평가 척도로 피어슨 상관계수와 카파계수를 사용했다. 채점자가 개입했을 때와 개입하지 않았을 때의 상관계수 모두 0.7 이상으로 강한 양의 상관관계를 보였다. 이는 자동채점 시스템이 교과 전문가가 채점한 결과와 유사한 방향으로 답안에 점수를 부여한 것이므로 자동채점 시스템을 채점 보조도구로서 충분히 사용할 수 있을 것이다.

진로교육을 위한 희망진로 예측프로그램 설계 (Design of a Hopeful Career Forecasting Program for the Career Education)

  • 김근호;김의정
    • 한국정보통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1055-1060
    • /
    • 2018
  • 4차 산업혁명을 맞이하여 학교 교육에 있어서 진로교육의 문제가 크게 대두되고 있다. 일선 현장에서도 인공지능 및 빅 데이터들을 효과적으로 처리하기 위한 서비스 또는 기술에 대하여 다양한 연구가 진행되고 있으나, 교육분야에 있어서는 학생들에 대한 데이터들을 단순처리과정을 거칠 뿐이다. 이에 본 논문에서는 인공지능 및 빅데이터를 활용한 학생들의 진로교육을 위한 진로 예측 프로그램을 설계 제시하고자 한다. 영재교육원 학생들의 관찰데이터를 이용하여 의사결정 트리중 가장 인공지능에 가깝고 효과적이라고 알려진 C4.5알고리즘으로 의사결정 트리를 구성하고 학생들의 희망 진로를 예측하는 것이다. 판별결과 카파계수는 0.7을 넘어 상당한 일치도를 보였고 평균절대오차도 0.1정도로 상당히 낮은 수치를 보였다. 이에 따라서 본 연구에서 보이듯이 많은 연구 및 데이터를 구축하여 학생들의 상담에 활용 진로를 제시하고 수업태도 및 방향을 제시하는데 도움이 될 것으로 사료된다.

머신러닝을 이용한 3차원 도로객체의 분류 (Classification of 3D Road Objects Using Machine Learning)

  • 홍송표;김의명
    • 한국측량학회지
    • /
    • 제36권6호
    • /
    • pp.535-544
    • /
    • 2018
  • 급변하는 주변상황이나 대형차량과 같은 큰 지형지물에 센서가 가려질 경우에는 센서만을 이용한 완전 자율주행에는 한계가 따른다. 이에 자율주행을 위해서 센서를 이용한 한계점을 극복할 수 있도록 정밀한 도로지도를 부가적으로 이용하는 방법이 사용되고 있다. 본 연구는 국토지리정보원에서 제공하는 지상 MMS(Mobile Mapping System)로 취득된 3차원 점군자료를 이용하여 도로 객체를 분류하는 연구를 수행하였다. 본 연구를 위해서 원본 3차원 점군자료를 전처리 하고, 지면과 비지면점을 분리하기 위한 필터링 기법을 선정하였다. 또한 차선, 가로등, 안전펜스 등에 해당하는 도로객체를 초기 분할한 후 분할된 객체를 머신러닝의 종류인 서포트 벡터 머신을 이용하여 학습시킨 후 분류하였다. 학습데이터는 분할된 도로객체에서 추출한 고유값을 이용한 기하학적 요소와 높이정보만을 사용하였으며 분류결과 전체정확도는 87%, 카파계수는 0.795로 나타났다. 향후 도로객체의 분류를 위하여 기하학적인 요소 뿐만 아니라 다양한 항목을 추가한다면 분류정확도가 높아질 것으로 예상된다.