• 제목/요약/키워드: model of records classification

검색결과 90건 처리시간 0.023초

BERT 모형을 이용한 주제명 자동 분류 연구 (A Study on Automatic Classification of Subject Headings Using BERT Model)

  • 이용구
    • 한국문헌정보학회지
    • /
    • 제57권2호
    • /
    • pp.435-452
    • /
    • 2023
  • 이 연구는 딥러닝 기법의 전이학습 모형인 BERT를 이용하여 주제명의 자동 분류를 실험하고 그 성능을 평가하였으며, 더 나아가 주제명이 부여된 KDC 분류체계와 주제명의 범주 유형에 따른 성능을 분석하였다. 실험 데이터는 국가서지를 이용하여 주제명의 부여 횟수에 따라 6개의 데이터셋을 구축하고 분류 자질로 서명을 이용하였다. 그 결과, 분류 성능으로 3,506개의 주제명이 포함된 데이터셋(레코드 1,539,076건)에서 마이크로 F1과 매크로 F1 척도가 각각 0.6059와 0.5626 값을 보였다. 또한 KDC 분류체계에 따른 분류 성능은 총류, 자연과학, 기술과학, 그리고 언어 분야에서 좋은 성능을 보이며 종교와 예술 분야는 낮은 성능을 보였다. 주제명의 범주 유형에 따른 성능은 '식물', '법률명', '상품명'이 높은 성능을 보인 반면, '국보/보물' 유형의 주제명에서 낮은 성능을 보였다. 다수의 주제명을 포함하는 데이터셋으로 갈수록 분류기가 주제명을 제대로 부여하지 못하는 비율이 늘어나 최종 성능의 하락을 가져오기 때문에, 저빈도 주제명에 대한 분류 성능을 높이기 위한 개선방안이 필요하다.

2007년 한국프로야구에서 도루성공모형 (Steal Success Model for 2007 Korean Professional Baseball Games)

  • 홍종선;최정민
    • 응용통계연구
    • /
    • 제21권3호
    • /
    • pp.455-468
    • /
    • 2008
  • 야구경기의 승패에 영향을 미치는 중요한 요인으로 간주되는 도루의 성공모형을 개발하기 위하여 2007년 한국프로야구 기록자료를 바탕으로 로지스틱 회귀모형들을 제안한다. 또한 한국프로야구의 도루성공과 실패에 대해 판별분석을 실시하고 분류 기준값을 결정하였으며, 판별분석 분류표를 이용해 로지스틱 회귀분석과 판별분석의 효율성을 비교한다. 전체적인 모형의 정확도는 로지스틱 회귀모형이 판별분석보다 더 좋은 것으로 나타났고, 연속형 자료를 범주형으로 변환한 자료에 대한 로지스틱 회귀모형도 유사한 효율성을 갖고있다.

FRBR 모형에 의한 중국어 서지레코드의 저작유형 분석 - 중국국가도서관을 중심으로 - (A Study on the Work Types of Chinese Bibliographic Records Based FRBR Model in the National Library of China)

  • 동계존;김정현
    • 한국비블리아학회지
    • /
    • 제24권1호
    • /
    • pp.269-286
    • /
    • 2013
  • 이 연구는 FRBR 모형의 저작개념에 의한 중국어 서지레코드의 저작유형을 분석하였으며, 중국국가도서관의 OPAC을 통해 "중국도서관분류법(中國圖書館分類法)" 22개 주류마다 100건씩 총 2,200건의 중국어 서지레코드를 무작위 추출하여 FRBR 모형의 저작유형별로 출현빈도를 조사하였다. 분석결과 중국어 서지레코드에 있어 FRBR 모형을 적용할 경우 유용할 것으로 예상되는 저작은 '단순저작'과 '복잡저작'을 합산한 18.6%로 나타났다. 서지적 관계가 일반적으로 복잡할수록 FRBR 모형의 유용성이 높다는 것이 사실이지만, 한 저작에 후속, 개정, 복제, 각색, 비평서 등과 같은 다양한 저작유형을 갖고 있는 저작은 주로 '마르크스-레닌주의'(A)에 소장된 여러 위인의 저작물과 '문학'(I)에 소장된 일부 고전작품, 현대명작 등에 한정되어 있다. 또한 FRBR 모형의 저작개념을 비평 등으로 확대 적용하려면 '군사'(E), '언어, 문자'(H), '문학'(I)과 '종합적 자료'(Z) 등에 우선적으로 적용하는 것이 보다 효과적인 것으로 나타났다.

분류 트리 기법을 이용한 국내 일괄사육 양돈장의 차단방역 수준에 영향을 미치는 기여 요인 평가 (Classification Tree Analysis to Assess Contributing Factors Influencing Biosecurity Level on Farrow-to-Finish Pig Farms in Korea)

  • 김규욱;박선일
    • 한국임상수의학회지
    • /
    • 제33권2호
    • /
    • pp.107-112
    • /
    • 2016
  • The objective of this study was to determine potential contributing factors associated with biosecurity level of farrow-to-finish pig farms and to develop a classification tree model to explore how these factors related to each other based on prediction model. To this end, the author analyzed data (n = 193) extracted from a cross-sectional study of 344 farrow-to-finish farms which was conducted between March and September 2014 aimed to explore swine disease status at farm level. Standardized questionnaires with information about basic demographical data and management practices were collected in each farm by on-site visit of trained veterinarians. For the classification of the data sets regarding biosecurity level as a dependent variable and predictor variables, Chi-squared Automatic Interaction Detection (CHAID) algorithm was applied for modeling classification tree. The statistics of misclassification risk was used to evaluate the fitness of the model in terms of prediction results. Categorical multivariate input data (40 variables) was used to construct a classification tree, and the target variable was biosecurity level dichotomized into low versus high. In general, the level of biosecurity was lower in the majority of farms studied, mainly due to the limited implementation of on-farm basic biosecurity measures aimed at controlling the potential introduction and transmission of swine diseases. The CHAID model illustrated the relative importance of significant predictors in explaining the level of biosecurity; maintenance of medical records of treatment and vaccination, use of dedicated clothing to enter the farm, installing fence surrounding the farm perimeter, and periodic monitoring of the herd using written biosecurity plan in place. The misclassification risk estimate of the prediction model was 0.145 with the standard error of 0.025, indicating that 85.5% of the cases could be classified correctly by using the decision rule based on the current tree. Although CHAID approach could provide detailed information and insight about interactions among factors associated with biosecurity level, further evaluation of potential bias intervened in the course of data collection should be included in future studies. In addition, there is still need to validate findings through the external dataset with larger sample size to improve the external validity of the current model.

Convolutional Neural Network 기반의 악성코드 이미지화를 통한 패밀리 분류 (Visualized Malware Classification Based-on Convolutional Neural Network)

  • 석선희;김호원
    • 정보보호학회논문지
    • /
    • 제26권1호
    • /
    • pp.197-208
    • /
    • 2016
  • 본 논문에서는 악성코드를 실행시키지 않고 패밀리를 분류하는 방법으로 악성 코드 파일을 8-bit gray-scale 이미지로 시각화 하고 이미지 인식분야에서 널리 쓰이고 있는 convolutional neural network를 통해 악성코드를 분류해내는 기법을 제안한다. 9개의 악성코드 패밀리로 분류해 내는 실험의 Top-1,2 예측 정확도는 각각 96.2%, 98.7%을 기록하였고, 27개의 패밀리를 분류하는 실험의 경우 Top-1 예측 정확도는 82.9%, Top-2는 89%로 악성코드 패밀리를 분류할 수 있다.

영구기록물관리를 위한 기록물 데이터베이스 스키마 개발 방향 (Directions for Developing Database Schema of Records in Archives Management Systems)

  • 임진희;이대욱;김은실;김익한
    • 기록학연구
    • /
    • 제34호
    • /
    • pp.57-105
    • /
    • 2012
  • 국가기록원 영구기록물관리시스템 CAMS(Central Archives Management System)는 2015년부터 매년 대량의 전자기록물을 이관받아 관리해야 할 중요한 시스템이다. CAMS 데이터베이스를 스키마 설계의 관점에서 진단해보고 전반적인 개선방향을 논의하는 일이 시급하다. CAMS 데이터베이스의 중심부분인 기록물철 및 기록물건 테이블을 살펴본 결과 두 테이블 모두 정규화가 되어 있지 않으며, 용도 불명의 칼럼들이 혼재하고 있어 기록물 데이터의 품질을 신뢰하기 어려운 상황임을 알 수 있었다. 이 논문에서는 다음과 같이 기록물철 및 기록물건 테이블의 정규화방향을 제시하였다. 첫째, 두 테이블 간 중복 항목을 최소화하는 방향으로 칼럼을 재배치할 것. 둘째, 분류체계 정보 항목을 별도 테이블로 분리할 것. 셋째, 기록물의 형태 및 유형별 기술 항목을 별도 테이블로 분리할 것. 넷째, 인수 및 인계, 보존처리 등 기록관리 과정의 기술 항목을 별도 테이블로 분리할 것. 나아가 이 논문에서는 기록물의 입수, 보존, 제공 단계별로 데이터베이스 스키마 설계 및 관리 시 고려할 사항을 제시하였다. 입수단에서는 매년 대량의 이관기록물을 정해진 기간 안에 일괄처리할 수 있어야 한다는 점, 보존단에서는 재분류, 재평가, 보존처리와 같은 다양한 관리이력을 남길 수 있어야 한다는 점, 제공단에서는 접근도구에 필요한 데이터를 정해야한다는 점 등을 논의하고 있다. 또한, 메타데이터 표준을 준수하는 방향에서 일부 개념 스키마를 개발하여 예시하고 있다.

전자기록의 진본 평가 시스템 모형 연구 (The Model of Appraisal Method on Authentic Records)

  • 김익한
    • 기록학연구
    • /
    • 제14호
    • /
    • pp.91-117
    • /
    • 2006
  • 전자기록은 평가 시 가치 평가와 진본 여부 평가를 함께 수행해야 한다. 그간 기록의 가치 평가에 대해서는 여러 논의가 진행되어 왔지만 진본 평가에 대해서는 그러하지 못했다. 이 글에서는 진본 평가가 기록관리 각 과정의 어느 국면에서 필요하고 그 구체적인 방법은 무엇인가를 밝히고 있다. 대체로 입수단계에서는, 생산기관에서의 재생산 직후의 일치 검증, 수신된 전자기록의 품질 및 일치 검증, 입수기록패키지와 보존기록패키지의 일치 검증이 필요하다. 저장단계에서는 매체수록된 보존기록패키지의 일치 검증, 저장된 전자기록의 손상여부 검사와 복구가, 각종 처리의 단계에서는 관리기준값 변경 처리 후의 적절성 평가, 기록철 분류구조 변경 후의 평가, 마이그레이션 이후의 일치평가 및 기타 주기적 무결성 평가, 배부기록의 일치 평가 등이 요구된다. 이러한 진본 평가를 위해서는 일치검증평가, 내용적 동일성 확인 평가, 메타데이터 요소의 적절성 평가, 불법적 변경여부의 확인 평가, 물리적 상태평가 등의 방법이 적용되어야 한다.

공공도서관 도서 분류를 위한 머신러닝 적용 가능성 연구 - 사회과학과 예술분야를 중심으로 - (A Study on Applicability of Machine Learning for Book Classification of Public Libraries: Focusing on Social Science and Arts)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제32권1호
    • /
    • pp.133-150
    • /
    • 2021
  • 이 연구의 목적은 공공도서관의 도서 분류를 위해 표제를 대상으로 머신러닝 기법의 적용 가능성을 조사하는데 있다. 데이터 분석은 아나콘다 플랫폼의 쥬피터 노트북을 통하여 파이썬의 싸이킷런 라이브러리를 이용하였다. 한글 형태소 분석을 위해 KoNLPy 분석기와 Okt 클래스를 사용하였다. 분석 대상은 공공도서관의 KORMARC 레코드에서 추출된 2,000건의 표제 필드와 KDC 분류기호(300대와 600대)이었다. 6가지 머신러닝 모델을 이용하여 데이터를 분석한 결과, 도서 분류에 머신러닝 적용 가능성이 있다고 판단되었다. 사용된 모델 중 표제 분류의 정확도는 신경망 모델이 가장 높았다. 표제 분류의 정확도 향상을 위해 도서 표제에 대한 조사와 표제의 토큰화 및 불용어에 대한 연구 필요성을 제안하였다.

공공기관의 이메일기록 관리 방안 연구 (A Study On Managing Electronic Mail Messages as Records of Public Institutions)

  • 송지현
    • 기록학연구
    • /
    • 제15호
    • /
    • pp.141-183
    • /
    • 2007
  • 조직의 업무와 관련되어 주고받는 이메일은 기록화하고 보존해야하는 조직의 자산이다. 그러나 현재 대부분의 공공기관에서 이메일기록에 관한 정책이나 지침이 마련되어 있지 않고, 이메일관리의 당위성에 대한 인식조차 부족한 실정이다. 이에 본 연구는 이메일기록 관리의 당위성을 설명하고 우리나라 공공기관에서 효과적인 이메일기록 관리 방안을 기록관리학적 측면에서 모색하는 데 그 목적을 두고 있다. 이메일기록의 특성을 파악하기 위한 문헌연구와 함께 기록관리 선진국의 이메일기록관리 정책 및 지침을 분석하였다. 이러한 지침들은 형태가 구성요소와 다르기 때문에 공통적인 구성요소를 추출하여 주요 범주화하여 나누고, 세부사항을 비교해 볼 수 있도록 해체하여 분석하였다. 분석으로 도출된 이메일 관리 필수 요소를 중심으로 공공기관에서 실무 지침으로 삼을 수 있는 이메일기록 관리 방안을 모색하였다. 그리고 전자정부 시대에 적합한 이메일기록 관리 모형을 제시하고자 하였다.

매설환경에 따른 배수관망의 누수발생원인 특성분석 (Development of a Probability Model for Burst Risks of Water Main using the Analysis Methods of Leakage Type)

  • 박상봉;최태호;구자용
    • 상하수도학회지
    • /
    • 제25권2호
    • /
    • pp.141-152
    • /
    • 2011
  • In this study, we extracted effective factors of pipe burst from the status data of water asset, operating data of pressure, volume and etc. and 7 years' pipe burst and repair records. The extracted factors were sorted by each attribution and then a statistical analysis was performed to generate a pipe burst probability function using the logistic regression model. As the result, material, diameter, length, laying year, pressure and road width affected to pipe burst significantly. Especially, in case of small diameter, laying year was most effective factor and in case of steel pipe, external loading was main cause of burst, and in case of cast iron, PE, PC, HP pipes, the deterioration of joint was main cause. The other side, as a result of Hosmer-Lemeshow goodness of fit test the models are turned out significant statistically. Also the classification criteria were determined to minimize the total cost from classification errors, when the predicted probability was more than 18% this pipe could have a chance of burst.