• 제목/요약/키워드: 10-fold cross validation

검색결과 207건 처리시간 0.024초

오류 분석을 통한 파서의 성능향상 (Performance Improvement of Parser through Error Analysts)

  • 오진영;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2009
  • 본 논문에서는 무제한 텍스트 입력이 가능한 파서에서 오류분석을 통한 성능 향상을 이루고자 한다. 우선 코퍼스로부터 자동학습에 의해서 구문 분석 모델을 만들고 이를 평가하여 발생하는 오류를 분석한다. 오류를 감소시킬 수 있는 언어 특성이 반영된 자질을 추가하여 성능을 향상시키고자 한다. 세종 코퍼스를 10-fold cross validation으로 평가할 때, 한국어의 특성을 반영한 자질 추가로 1%이상의 성능 향상을 이루었다.

  • PDF

데이터마이닝을 이용한 박스오피스 예측 (Prediction of box office using data mining)

  • 전성현;손영숙
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1257-1270
    • /
    • 2016
  • 본 연구는 영화 흥행의 척도로서 총 관객수의 예측을 다루었다. 의사결정나무, MLP 신경망모형, 다항로짓모형, support vector machine과 같은 데이터마이닝 분류 기법들을 사용하여 개봉 전, 개봉 일, 개봉 1주 후, 그리고 개봉 2주 후 시점 별로 예측이 이루어진다. 국적, 등급, 개봉 월, 개봉 계절, 감독, 배우, 배급사, 관객수, 그리고 스크린 수와 같은 영화의 내재적인 속성을 나타내는 변수 뿐만 아니라 포털의 평점과 평가자 수, 블로그 수, 뉴스 수와 같은 온라인 구전 변수들이 예측변수로 사용되었다. 10-중 교차 검증에서 신경망모형의 정확도는 개봉 전 시점에서도 90% 이상의 높은 예측력을 보였다. 또한 최종 온라인 구전 변수의 추정치를 예측변수로 추가함으로서 예측의 정확도가 더 높아짐을 볼 수 있다.

트위터 사용자정보의 유사성을 기반으로 한 팔로어 분류시스템 (Follower classification system based on the similarity of Twitter node information)

  • 계용선;윤영미
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권1호
    • /
    • pp.111-118
    • /
    • 2014
  • 현재 트위터에서 제공되는 친구추천 시스템은 영향력이 높은 사용자를 우선적으로 추천해준다. 하지만 사용자정보의 유사성이 높은 다른 사용자는 추천되지 않는 단점을 가지고 있다. 사용자들은 정보의 유사성이 높은 사용자 추천을 원하기 때문에 이러한 단점을 극복하기 위하여 본 논문에서는 사용자정보의 유사성을 기반으로 팔로어 추천 시스템을 구현하였다. 본 논문에서 사용된 데이터는 SNAP(Stanford Network Analysis Platform)에서 제공하는 데이터로, 팔로어의 수가 10,000명이상인 트위터의 사용자정보와 노드간 연결 데이터로 구성된다. 이 데이터를 트레이닝 데이터로 활용하여 팔로어간의 관계를 분류해줄 수 있는 분류자를 생성하고, 10-Fold Cross Validation을 활용하여, 분류자의 정확도를 판단한다. 두 트위터의 정보가 주어지면 그들 사이에 친구 관계, 팔로우 관계, 비연결 관계를 추천한다.

두 가지 유형의 바이오마커를 이용한 파킨슨병의 진단과 신경섬유 경로의 특징 분석 (Diagnosis of Parkinson's Disease Using Two Types of Biomarkers and Characterization of Fiber Pathways)

  • 강신태;이욱;박병규;한경숙
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권10호
    • /
    • pp.421-428
    • /
    • 2014
  • 파킨슨병은 뇌의 흑질 영역에서 도파민계 신경이 파괴되는 질병으로 알츠하이머병과 함께 대표적인 퇴행성 뇌 질환이다. 현재까지 병을 완치시킬 수 있는 치료법은 없지만 병의 진행을 완화시킬 수 있는 치료법이 존재하기 때문에 병의 진단이 굉장히 중요하다. 파킨슨병을 진단하기 위한 과거의 연구는 대부분 단일 바이오마커를 이용한 것으로 이러한 방법은 파킨슨병 환자를 높은 정확도로 진단할 수 있지만 정상인에 대한 진단은 상대적으로 낮은 성능의 한계성이 존재한다. 따라서 본 연구에서는 생화학적 바이오마커인 뇌척수액 내의 ${\alpha}$-synuclein 단백질 수치와 영상학적 바이오마커인 확산 텐서 영상의 여러 모수들을 결합하여 특징으로 사용하는 파킨슨병 진단 모델을 개발하고 성능을 평가하였다. 진단을 위해 개발된 모든 모델은 10-fold cross validation 성능평가에서 정확도가 최고 91.3%의 높은 성능을 보였으며, test 성능평가에서는 확산 텐서 영상의 모수들 중 FA와 ${\alpha}$-synuclein 단백질 수치가 결합된 모델, MO와 ${\alpha}$-synuclein 단백질 수치가 결합된 두 모델에서 최고 72%의 정확도 성능을 보여 파킨슨병의 진단에 유용하게 사용될 수 있는 가능성을 제시하였다. 파킨슨병의 진단을 위해 개발된 모델의 영상학적 특징 벡터를 통하여 파킨슨병 환자와 정상인의 신경섬유 경로의 특징을 분석하였다.

Levenshtein 거리를 이용한 영화평 감성 분류 (Sentiment Classification of Movie Reviews using Levenshtein Distance)

  • 안광모;김윤석;김영훈;서영훈
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권4호
    • /
    • pp.581-587
    • /
    • 2013
  • 본 논문에서는 레빈쉬타인 거리(Levenshtein distance)를 이용한 감성 분류 방법을 제안한다. 감성 자질에 레빈쉬타인 거리를 적용하여 BOW(Back-Of-Word)를 생성하고 이를 학습 자질로 사용한다. 학습 모델은 지지벡터기계(support vector machines, SVMs)와 나이브 베이즈(Naive Bayes)를 이용하였다. 실험 데이터로는 다음 영화 사이트로부터 영화평을 수집하였으며, 수집한 영화평은 총 2,385건이다. 수집된 영화평으로부터 감성 어휘를 수작업을 통해 수집하였으며 총 778개 어휘가 선별되었다. 실험에서는 감성 어휘에 레빈쉬타인 거리를 적용한 BOW를 이용하여 기계학습을 수행하였으며, 10-fold-cross validation 방식으로 분류기의 성능을 평가하였다. 평가 결과는 레빈쉬타인 거리가 3일 때 다항 나이브 베이즈(Muitinomial Naive Bayes) 분류기에서 85.46%의 가장 높은 정확도를 보였다. 실험을 통하여 본 논문에서 제안하는 방법이 문서 내의 철자 오류에 대해서도 분류 성능에 영향을 적게 받음을 알 수 있었다.

정보검색 기법을 이용한 산업/직업 코드 자동 분류 시스템 (An automated Classification System of Standard Industry and Occupation Codes by Using Information Retrieval Techniques)

  • 임희석
    • 컴퓨터교육학회논문지
    • /
    • 제7권4호
    • /
    • pp.51-60
    • /
    • 2004
  • 본 논문은 통계청에서 실시하는 인구 주택 총조사와 사업체 기초통계조사 시 실시되는 수작업에 의한 표준 산업/직업 코드 분류 시 발생하는 막대한 비용과 시간, 일관성의 결여 등을 해소하기 위한 표준 산업/직업 코드 자동 분류 시스템을 제안한다. 제안한 시스템은 정보 검색 기법과 문서 분류 기법을 이용하여 자연어로 기술된 레코드를 입력 받아 입력 레코드에 해당하는 분류 코드를 생성한다. 수작업으로 올바른 코드가 할당되어 있는 산업 분류 레코드 46,762개와 직업 분류 코드 36,286개를 이용하여 10-fold cross-validation evaluation을 수행한 결과, 제안한 시스템은 완전 자동 모드에서 2수준의 산업 분류에 대해서 87.08%, 5수준에 대해서는 66.08%의 생성률을 보였으며 반자동 모드에서는 각각 99.10%와 92.88%의 성능을 보였다. 직업 분류 코드에 대한 성능은 산업 분류 코드에 대한 성능보다는 약간 저하된 성능을 보였다. 제안한 시스템은 아직 수작업을 완전히 대체할 수 있는 완전 자동 분류기로서는 많은 개선의 여지를 가지고 있지만 수작업을 최소화할 수 있는 반자동 도구나 수작업의 정확도를 검증할 수 있는 보조 도구로써 충분히 활용될 수 있을 것으로 기대된다.

  • PDF

SVM 모델을 이용한 3차원 패치 기반 단백질 상호작용 사이트 예측기법 (Prediction of Protein-Protein Interaction Sites Based on 3D Surface Patches Using SVM)

  • 박성희
    • 정보처리학회논문지D
    • /
    • 제19D권1호
    • /
    • pp.21-28
    • /
    • 2012
  • 모노머 단백질의 상호작용 사이트 예측은 기능을 알지 못하는 단백질에 대해서 이것과 상호작용하는 단백질로부터 기능을 예측하거나 단백질 도킹을 위한 검색 공간의 감소에 중요한 역할을 한다. 그러나 상호작용사이트 예측은 대부분 단백질 상호작용이 세포 내에서 순간적 반응에 일어나는 약한 상호작용으로 실험에 의한 3차원 결정 구조 식별의 어려움이 따르며 이로 인해 3차원의 복합체 데이터가 제한적으로 양산된다. 이 논문에서는 모노머 단백질의 3차원 패치 계산을 통하여 구조가 알려진 복합체의 상호작용사이트와 비상호작용사이트에 대한 패치 속성을 추출하고 이를 기반으로 Support Vector Machine (SVM) 분류기법을 이용한 예측 모델 개발을 제시한다. 타겟 클래스의 데이터 불균형 문제 해결을 위해 under-sampling 기법을 이용한다. 사용된 패치속성은 2차 구조 요소와 아미노산 구성으로부터 총 9개가 추출된다. 147개의 단백질 복합체에 대해서 10 fold cross validation을 통해서 다양한 분류모델의 성능 평가를 하였다. 평가한 분류 모델 중 SVM은 92.7%의 높은 정확성을 보이고 이를 이용하여 분류 모델을 개발하였다.

SWAT모형을 이용한 용담댐 유역의 유량 전망 결과 비교 연구 (A Comparison Study of Runoff Projections for Yongdam Dam Watershed Using SWAT)

  • 정차미;신문주;김영오
    • 한국수자원학회논문집
    • /
    • 제48권6호
    • /
    • pp.439-449
    • /
    • 2015
  • 본 연구에서는 SWAT 모형을 이용해 용담댐 유역을 대상으로 k-fold cross validation 기법을 사용하여 신뢰성 있는 RCP 기반의 미래 유출량을 산정하고 이를 과거 연구와 비교하여 SWAT 모형을 이용한 기후변화 유량 전망 결과의 차이의 요인에 대해 살펴보았다. 그 결과, 총유출량은 baseline 대비 2040s, 2080s 기간에 RCP8.5 시나리오에서는 17.7%, 26.1% 증가, RCP4.5 시나리오의 경우에는 21.9%, 44.6% 증가할 것으로 전망되었다. 이를 선행 연구와 비교해 본 결과 같은 모형을 사용했음에도 불구하고 유량 전망치의 경우 연구결과 간 최저 10.3%에서 최대 53.2% 차이를 보였다. SWAT 모형에는 물리적 기반 모형으로 27개의 많은 매개변수가 존재하고 사용자마다 모형을 구축하는 과정에서 차이가 많이 발생할 수 있다. 향후 이러한 차이요인을 저감하여 표준화된 유량시나리오 생성을 위한 노력이 필요하다.

인공지능을 이용한 수도권 학교 미세먼지 취약성 평가: Part II - 학교 미세먼지 범주화 (Vulnerability Assessment for Fine Particulate Matter (PM2.5) in the Schools of the Seoul Metropolitan Area, Korea: Part II - Vulnerability Assessment for PM2.5 in the Schools)

  • 손상훈;김진수
    • 대한원격탐사학회지
    • /
    • 제37권6_2호
    • /
    • pp.1891-1900
    • /
    • 2021
  • 직경 2.5 ㎛ 이하인 초미세먼지는 급격한 도시화와 인구 증가로 인해 대도시에서 많이 발생하며, 유아 및 청소년기는 성인에 비해 초미세먼지에 취약하고 만성 질환으로 이어질 가능성이 높다. 특히 대부분의 청소년들은 학교에서 가장 많은 시간을 보내고 있으며, 다양한 이유에 의해 실외에서 발생한 초미세먼지가 실내로 유입된다. 본 연구는 외부 요인에 의해 발생하는 학교 초미세먼지를 예측하고 학교별 초미세먼지 범주화를 수행하였다. 10-fold cross validation과 grid-search method를 적용한 random forest (RF) 모델에 화학과 기상 인자, 위성 기반의 aerosol optical depth (AOD)를 입력 자료로 하여 학교 초미세먼지를 예측하고 정확도 평가를 위해 4가지 통계 지표를 이용하였다. 학교 미세먼지 범주화를 위해 6가지 유형을 가진 느슨한 기준과 엄격한 기준을 정의하였으며, 범주화 결과 느슨한 기준의 경우 유형 2와 3에, 엄격한 기준의 경우 유형 3과 4에 가장 많은 학교가 포함되었다.

음악 장르 분류를 위한 새로운 자동 Taxonomy 구축 알고리즘 (New Automatic Taxonomy Generation Algorithm for the Audio Genre Classification)

  • 최택성;문선국;박영철;윤대희;이석필
    • 한국음향학회지
    • /
    • 제27권3호
    • /
    • pp.111-118
    • /
    • 2008
  • 본 논문에서는 음악 장르 분류를 위한 새로운 자동 Taxonomy 구축 알고리즘을 제안한다. 제안된 알고리즘은 모든 가능한 노드들의 분류 확률을 예측하여 예측된 분류 성능값이 가장 좋은 조합을 Taxonomy로 구축하는 것이다. 제안된 알고리즘에서의 분류 확률 예측은 훈련 데이터를 k-fold cross validation을 이용하여 분류기에 적용함으로써 이루어진다. 제안된 알고리즘을 기반으로 한 분류 성능 측정은 2 클래스로 이루어진 각각의 노드에 2개 범주 분류에 효과적인 support vector machine을 적용함으로써 이루어진다. 제안된 알고리즘의 성능 검증을 위해 음색, 리듬, 피치 등 오디오 신호의 특징을 나타내는 다양한 파라미터를 오디오 신호로부터 추출하여 제안된 알고리즘과 기존의 다중 범주 분류기들을 이용하여 분류성능을 평가하였다. 다양한 실험결과 제안된 알고리즘은 기존의 알고리즘에 비하여 5%에서 25%정도의 분류 성능이 향상된 것을 확인할 수 있었고 특히 낮은 차원의 특징벡터를 이용한 분류 실험에서는 10% 에서 25% 향상된 좋은 성능을 보였다.