• 제목/요약/키워드: 로치오

검색결과 7건 처리시간 0.022초

로치오 알고리즘을 이용한 학술지 논문의 디스크 립터 자동부여에 관한 연구 (A Study on the Automatic Descriptor Assignment for Scientific Journal Articles Using Rocchio Algorithm)

  • 김판준
    • 정보관리학회지
    • /
    • 제23권3호
    • /
    • pp.69-89
    • /
    • 2006
  • 로치오 알고리즘에 기초한 통제어휘 자동색인 또는 텍스트 범주화에서 적용되어 온 여러 성능 요인들을 재검토하였고, 성능 향상을 위한 기본적인 방법을 찾아보았다. 또한, 동등한 조건에서 통제어휘 자동색인을 위한 로치오 알고리즘 기반 방법의 성능을 다른 학습기반 방법들의 성능과 비교하였다. 결과에 따르면, 통제어휘 자동색인을 위한 로치오 기반의 프로파일 방법은 구현의 용이성과 컴퓨터 처리시간 측면의 경제성이라는 기존의 장점을 그대로 유지하면서도, 다른 학습기반 방법들(SVM, VPT, NB)과 거의 동등하거나 더 나은 성능을 보여주었다. 특히, 색인전문가의 색인작업을 지원하는 반-자동 색인의 목적으로는 비교적 높은 수준의 재현율을 유지하면서 학습 데이터의 증가에 따라 정확률이 크게 향상되는 로치오 알고리즘을 이용한 방법을 우선적으로 고려할 수 있을 것이다.

용어 가중치부여 기법을 이용한 로치오 분류기의 성능 향상에 관한 연구 (A Study on the Performance Improvement of Rocchio Classifier with Term Weighting Methods)

  • 김판준
    • 정보관리학회지
    • /
    • 제25권1호
    • /
    • pp.211-233
    • /
    • 2008
  • 로치오 알고리즘에 기반한 자동분류의 성능 향상을 위하여 두 개의 실험집단(LISA, Reuters-21578)을 대상으로 여러 가중치부여 기법들을 검토하였다. 먼저, 가중치 산출에 사용되는 요소를 크게 문헌요소(document factor), 문헌집합 요소(document set factor), 범주 요소(category factor)의 세 가지로 구분하여 각 요소별 단일 가중치부석 기법의 분류 성능을 살펴보았고, 다음으로 이들 가중치 요소들 간의 조합 가중치부여 기법에 따른 성능을 알아보았다. 그 결과, 각 요소별로는 범주 요소가 가장 좋은 성능을 보였고, 그 다음이 문헌집합 요소, 그리고 문헌 요소가 가장 낮은 성능을 나타냈다. 가중치 요소 간의 조합에서는 일반적으로 사용되는 문헌 요소와 문헌집합 요소의 조합 가중치(tfidf or ltfidf)와 함께 문헌 요소를 포함하는 조합(tf*cat or ltf*cat) 보다는, 오히려 문헌 요소를 배제하고 문헌 집합 요소를 범주 요소와 결합한 조합 가중치 기법(idf*cat)이 가장 좋은 성능을 보였다. 그러나 실험집단 측면에서 단일 가중치와 조합 가중치를 서로 비교한 결과에 따르면, LISA에서 범주 요소만을 사용한 단일 가중치(cat only)가 가장 좋은 성능을 보인 반면, Reuters-21578에서는 문헌집합 요소와 범주 요소간의 조합 가중치(idf*cat)의 성능이 가장 우수한 것으로 나타났다. 따라서 가중치부여 기법에 대한 실제 적용에서는, 분류 대상이 되는 문헌집단 내 범주들의 특성을 신중하게 고려할 필요가 있다.

협력적 여과 시스템에서 귀납 추리를 이용한 순위 결정 (Ranking by Inductive Inference in Collaborative Filtering Systems)

  • 고수정
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권9호
    • /
    • pp.659-668
    • /
    • 2010
  • 협력적 여과 시스템은 새로운 사용자의 행위를 파악하고 사용자가 흥미로워할 아이템을 추천해주기 위해서 사용자들에 대한 새로운 정보를 필요로 한다. 이러한 정보를 획득하기 위하여 협력적 여과 시스템은 기존 데이터를 기반으로 학습을 하고, 그 결과에 따라 사용자에 대한 새로운 정보를 찾아낼 수 있다. 본 논문에서는 사용자에 대한 새로운 정보를 획득하기 위한 방법으로 귀납적 추리 방법을 제안하고, 추리된 사용자의 정보를 이용하여 아이템의 순위를 결정한다. 제안된 방법에서는 귀납적 기계 학습 방법인 NMF를 이용하여 사용자를 학습시켜서 모든 사용자들을 그룹으로 군집시키고, 각 그룹으로부터 카이제곱을 이용하여 그룹의 특징을 추출한다. 다음으로, 귀납 추리 방법의 하나인 베이지언 확률모델을 이용하여 새로운 사용자가 입력한 평가값과 각 그룹의 특징을 기반으로 사용자를 적합한 그룹으로 분류한다. 마지막으로, 사용자가 결측한 아이템을 대상으로 로치오(Rocchio) 알고리즘을 적용하여 아이템의 순위를 결정한다.

기계학습에 기초한 자동분류의 성능 요소에 관한 연구 (An Analytical Study on Performance Factors of Automatic Classification based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제33권2호
    • /
    • pp.33-59
    • /
    • 2016
  • 국내 학술회의 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히 구현이 쉽고 컴퓨터 처리 속도가 빠른 로치오 알고리즘을 사용하여 "한국정보관리학회 학술대회 논문집"의 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 분류기 생성 방법, 학습집합 규모, 가중치부여 기법, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 파라미터(${\beta}$, ${\lambda}$)와 학습집합의 크기(5년 이상)를 적절하게 적용하는 것이 효과적이며, 동등한 성능 수준이라면 보다 단순한 단일 가중치부여 기법을 사용하여 분류의 효율성을 높일 수 있음을 발견하였다. 또한 국내 학술회의 논문의 분류는 특정 논문에 하나 이상의 범주가 부여되는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있으므로, 이러한 환경을 고려하여 주요 성능 요소들의 특성에 기초한 최적의 분류 모델을 개발할 필요가 있다.

디스크립터 프로파일을 사용한 통제어휘 자동색인 (Automatic Indexing with Controlled Vocabulary Using a Descriptor Profile)

  • 김판준
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2006년도 제13회 학술대회 논문집
    • /
    • pp.153-160
    • /
    • 2006
  • 통제어휘를 사용하는 주제색인 작업에서 색인전문가를 효율적으로 지원할 수 있는 자동색인 방법으로 프로파일 방법의 성능과 특성을 검토해 보았다. 자동색인의 성능에 영향을 미치는 주요 요인들을 검토한 다음, 동일한 조건 하에서 프로파일 기반 방법과 다른 방법들(NB, SVM, VPT)의 성능을 비교하였다. 그 결과, 로치오 알고리즘에 기초한 프로파일을 사용하는 방법이 다른 방법들에 비해 저성능이라는 일부 평가를 일반화하기는 어렵다는 사실이 실험을 통해 드러났다. 또한, 후보 디스크립터 리스트의 생성을 통하여 색인전문가의 색인작업을 지원하는 반자동색인의 경우, F$_1$척도로는 SVM, VPT와 동등한 수준에 있으면서 재현율이 상대적으로 높은 수준인 프로파일 기반 방법을 우선적으로 고려해 볼 수 있을 것이다.

  • PDF

기계학습에 기초한 국내 학술지 논문의 자동분류에 관한 연구 (An Analytical Study on Automatic Classification of Domestic Journal articles Based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.37-62
    • /
    • 2018
  • 문헌정보학 분야의 국내 학술지 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히, "정보관리학회지"에 수록된 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 용어 가중치부여 기법, 학습집합 크기, 분류 알고리즘, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 각 요소를 적절하게 적용하는 것이 효과적이며, 보다 단순한 모델의 사용으로 상당히 좋은 수준의 성능을 도출할 수 있었다. 또한, 국내 학술지 논문의 분류는 특정 논문에 하나 이상의 범주를 할당하는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있다. 따라서 이러한 환경을 고려하여 단순하고 빠른 분류 알고리즘과 소규모의 학습집합을 사용하는 최적의 분류 모델을 제안하였다.

한국인 간장 및 신장피질에 함유된 카드뮴, 구리, 수은, 아연 함량과 메탈로치오나인과의 관계 (Relationships Between Cadmium, Copper, Mercury, Zinc Levels and Metallothionein in the Liver and Kidney Cortex of Korean)

  • 이상기;유영찬;윤여표;양자열;오승민;정규혁
    • Environmental Analysis Health and Toxicology
    • /
    • 제19권4호
    • /
    • pp.383-388
    • /
    • 2004
  • In order to elucidate the relationships between cadmium, copper, mercury, zinc levels and metallothionein in the liver and kidney cortex of Korean, the levels of Cd, Zn, Hg, Cu and metallothionein (MT) were determined in the kidney cortex and liver of 50 subjects deceased in the period of January-November, 2001 in the area of Seoul and Gyeonggi Province of Korea. The mean age of the population studied was 36.3+/-12.3 years. The tissues were digested with microwave digestion system and the elements were determined by inductively coupled plasma atomic emission spectrometry. MT was determined by the Cd-hemoglobin affinity assay. The determined levels (mean+/-SD) were: 33.9+/-18.9 micrograms Cd/g wet weight; 47.5+/-12.6 micrograms Zn/g wet weight; 2.5+/-0.57 microgram Cu/g wet weight; 0.26+/-0.31 micrograms Hg/g wet weight, 4.0+/-3.1 mg MT/g wet weight in renal cortex and 2.5+/-1.9 micrograms Cd/g wet weight; 46.9+/-15.0 micrograms Zn/g wet weight; 6.2+/-2.5 micrograms Cu/g wet weight; 0.10+/-0.15 micrograms Hg/g wet weight, 0.92+/-0.57 mg MT/g wet weight in the liver. Positive relationships between Cd and MT, sum of four divalent metal and MT in the kidney cortex were observed. No other correlation was found between Cu and MT, Hg and MT, Zn and MT in either organs.