• 제목/요약/키워드: 텍스트 범주화

검색결과 49건 처리시간 0.027초

기계학습에 기초한 자동분류의 성능 요소에 관한 연구 (An Analytical Study on Performance Factors of Automatic Classification based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제33권2호
    • /
    • pp.33-59
    • /
    • 2016
  • 국내 학술회의 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히 구현이 쉽고 컴퓨터 처리 속도가 빠른 로치오 알고리즘을 사용하여 "한국정보관리학회 학술대회 논문집"의 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 분류기 생성 방법, 학습집합 규모, 가중치부여 기법, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 파라미터(${\beta}$, ${\lambda}$)와 학습집합의 크기(5년 이상)를 적절하게 적용하는 것이 효과적이며, 동등한 성능 수준이라면 보다 단순한 단일 가중치부여 기법을 사용하여 분류의 효율성을 높일 수 있음을 발견하였다. 또한 국내 학술회의 논문의 분류는 특정 논문에 하나 이상의 범주가 부여되는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있으므로, 이러한 환경을 고려하여 주요 성능 요소들의 특성에 기초한 최적의 분류 모델을 개발할 필요가 있다.

토픽모델링과 딥 러닝을 활용한 생의학 문헌 자동 분류 기법 연구 (A Study of Research on Methods of Automated Biomedical Document Classification using Topic Modeling and Deep Learning)

  • 육지희;송민
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.63-88
    • /
    • 2018
  • 본 연구는 LDA 토픽 모델과 딥 러닝을 적용한 단어 임베딩 기반의 Doc2Vec 기법을 활용하여 자질을 선정하고 자질집합의 크기와 종류 및 분류 알고리즘에 따른 분류 성능의 차이를 평가하였다. 또한 자질집합의 적절한 크기를 확인하고 문헌의 위치에 따라 종류를 다르게 구성하여 분류에 이용할 때 높은 성능을 나타내는 자질집합이 무엇인지 확인하였다. 마지막으로 딥 러닝을 활용한 실험에서는 학습 횟수와 문맥 추론 정보의 유무에 따른 분류 성능을 비교하였다. 실험문헌집단은 PMC에서 제공하는 생의학 학술문헌을 수집하고 질병 범주 체계에 따라 구분하여 Disease-35083을 구축하였다. 연구를 통하여 가장 높은 성능을 나타낸 자질집합의 종류와 크기를 확인하고 학습 시간에 효율성을 나타냄으로써 자질로의 확장 가능성을 가지는 자질집합을 제시하였다. 또한 딥 러닝과 기존 방법 간의 차이점을 비교하고 분류 환경에 따라 적합한 방법을 제안하였다.

자질선정을 통한 국내 학술지 논문의 자동분류에 관한 연구 (An Experimental Study on the Automatic Classification of Korean Journal Articles through Feature Selection)

  • 김판준
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.69-90
    • /
    • 2022
  • 국내 학술연구의 동향을 구체적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 현재와 미래의 연구 방향을 설정할 수 있는 기초 데이터로서, 개별 학술지 논문에 표준화된 주제 범주(통제키워드)를 부여할 수 있는 효율적인 방안을 모색하였다. 이를 위해 한국연구재단 「학술연구분야분류표」 상의 분류 범주를 국내학술지 논문에 자동 할당하는 과정에서, 자질선정 기법을 중심으로 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 다각적인 실험을 수행하였다. 그 결과, 실제 환경의 불균형 데이터세트(imbalanced dataset)인 국내 학술지 논문의 자동분류에서는 보다 단순한 분류기와 자질선정 기법, 그리고 비교적 소규모의 학습집합을 사용하여 상당히 좋은 수준의 성능을 기대할 수 있는 것으로 나타났다.

기계학습을 통한 디스크립터 자동부여에 관한 연구 (A Study on automatic assignment of descriptors using machine learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제23권1호
    • /
    • pp.279-299
    • /
    • 2006
  • 학술지 논문에 디스크립터를 자동부여하기 위하여 기계학습 기반의 접근법을 적용하였다. 정보학 분야의 핵심 학술지를 선정하여 지난 11년간 수록된 논문들을 대상으로 문헌집단을 구성하였고, 자질 선정과 학습집합의 크기에 따른 성능을 살펴보았다. 그 결과, 자질 선정에서는 카이제곱 통계량(CHI)과 고빈도 선호 자질 선정 기준들(COS, GSS, JAC)을 사용하여 자질을 축소한 다음, 지지벡터기계(SVM)로 학습한 결과가 가장 좋은 성능을 보였다. 학습집합의 크기에서는 지지벡터기계(SVM)와 투표형 퍼셉트론(VPT)의 경우에는 상당한 영향을 받지만 나이브 베이즈(NB)의 경우에는 거의 영향을 받지 않는 것으로 나타났다.

디스크립터 자동 할당을 위한 저자키워드의 재분류에 관한 실험적 연구 (A Study on the Reclassification of Author Keywords for Automatic Assignment of Descriptors)

  • 김판준;이재윤
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.225-246
    • /
    • 2012
  • 본 연구는 국내 주요 학술 DB의 검색서비스에서 제공되고 있는 저자키워드(비통제키워드)의 재분류를 통하여 디스크립터(통제키워드)를 자동 할당할 수 있는 가능성을 모색하였다. 먼저 기계학습에 기반한 주요 분류기들의 특성을 비교하는 실험을 수행하여 재분류를 위한 최적 분류기와 파라미터를 선정하였다. 다음으로, 국내 독서 분야 학술지 논문들에 부여된 저자키워드를 학습한 결과에 따라 해당 논문들을 재분류함으로써 키워드를 추가로 할당하는 실험을 수행하였다. 또한 이러한 재분류 결과에 따라 새롭게 추가된 문헌들에 대하여 통제키워드인 디스크립터와 마찬가지로 동일 주제의 논문들을 모아주는 어휘통제 효과가 있는지를 살펴보았다. 그 결과, 저자키워드의 재분류를 통하여 디스크립터를 자동 할당하는 효과를 얻을 수 있음을 확인하였다.

용어 가중치부여 기법을 이용한 로치오 분류기의 성능 향상에 관한 연구 (A Study on the Performance Improvement of Rocchio Classifier with Term Weighting Methods)

  • 김판준
    • 정보관리학회지
    • /
    • 제25권1호
    • /
    • pp.211-233
    • /
    • 2008
  • 로치오 알고리즘에 기반한 자동분류의 성능 향상을 위하여 두 개의 실험집단(LISA, Reuters-21578)을 대상으로 여러 가중치부여 기법들을 검토하였다. 먼저, 가중치 산출에 사용되는 요소를 크게 문헌요소(document factor), 문헌집합 요소(document set factor), 범주 요소(category factor)의 세 가지로 구분하여 각 요소별 단일 가중치부석 기법의 분류 성능을 살펴보았고, 다음으로 이들 가중치 요소들 간의 조합 가중치부여 기법에 따른 성능을 알아보았다. 그 결과, 각 요소별로는 범주 요소가 가장 좋은 성능을 보였고, 그 다음이 문헌집합 요소, 그리고 문헌 요소가 가장 낮은 성능을 나타냈다. 가중치 요소 간의 조합에서는 일반적으로 사용되는 문헌 요소와 문헌집합 요소의 조합 가중치(tfidf or ltfidf)와 함께 문헌 요소를 포함하는 조합(tf*cat or ltf*cat) 보다는, 오히려 문헌 요소를 배제하고 문헌 집합 요소를 범주 요소와 결합한 조합 가중치 기법(idf*cat)이 가장 좋은 성능을 보였다. 그러나 실험집단 측면에서 단일 가중치와 조합 가중치를 서로 비교한 결과에 따르면, LISA에서 범주 요소만을 사용한 단일 가중치(cat only)가 가장 좋은 성능을 보인 반면, Reuters-21578에서는 문헌집합 요소와 범주 요소간의 조합 가중치(idf*cat)의 성능이 가장 우수한 것으로 나타났다. 따라서 가중치부여 기법에 대한 실제 적용에서는, 분류 대상이 되는 문헌집단 내 범주들의 특성을 신중하게 고려할 필요가 있다.

언어이해과정에서의 구문/의미요소 분리에 대한 ERP특성연구 (Detection of Syntactic and Semantic Anomaly in Korean Sentences: an ERP study)

  • 김충명;이경민
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 춘계 학술대회
    • /
    • pp.61-67
    • /
    • 2000
  • 본고는 텍스트로 제시된 한국어 문장의 형태통사론적 오류와 의미적 논항결합시 하위범주화요건을 위배하는 논항선택 오류의 인식 및 판단에 따른 ERP(Event-Related Potential)를 검출하여, 이에 대한 문장이해과정의 시간추이적 양상을 연구의 대상으로 하였다. 참여한 피험자로부터 각각의 유형에 대한 통계분석 결과, 통사적 오류 추출에서 의미적 오류 추출에 이르기까지 기존의 연구에서 제시된 오류패턴 요소들(ELAN, N400, P600)을 확인하였으며, 아울러 한국어 문장이해과정의 특이성을 관찰할 수 있었다. 이를 통해 문장묵독시 일어나는 여러 종류의 문법오류에 대한 개별적 성격규명과 함께, 이들의 문법틀 내에서의 상호관계에 대한 일련의 가설설정이 이루어질 수 있으며, 또한 문장이해 메커니즘의 신경적 기전의 특성 규명으로 부수될 인간지능 모사가능성에 생리학적 토대가 더해 질 것으로 추정되는 바, 언어이해와 대뇌기전지형을 결정짓는 또 다른 규준이 될 것이다.

  • PDF

단어 중의성 해소를 위한 지도학습 방법의 통계적 자질선정에 관한 연구 (A Study on Statistical Feature Selection with Supervised Learning for Word Sense Disambiguation)

  • 이용구
    • 한국비블리아학회지
    • /
    • 제22권2호
    • /
    • pp.5-25
    • /
    • 2011
  • 이 연구는 지도학습 방법을 이용한 단어 중의성 해소가 최적의 성능을 가져오는 통계적 자질선정 방법과 다양한 문맥의 크기를 파악하고자 하였다. 실험집단인 한글 신문기사에 자질선정 기준으로 정보획득량, 카이제곱 통계량, 문헌빈도, 적합성 함수 등을 적용하였다. 실험 결과, 텍스트 범주화 기법과 같이 단어 중의성 해소에서도 자질선정 방법이 매우 유용한 수단이 됨을 알 수 있었다. 실험에 적용한 자질선중 기준 중에 정보획득량이 가장 좋은 성능을 보였다. SVM 분류기는 자질집합 크기와 문맥 크기가 클수록 더 좋은 성능을 보여 자질선정에 영향을 받지 않았다. 나이브 베이즈 분류기는 10% 정도의 자질집합 크기에서 가장 좋은 성능을 보였다. kNN의 경우 10% 이하의 자질에서 가장 좋은 성능을 보였다. 단어 중의성 해소를 위한 자질선정을 적용할 때 작은 자질집합 크기와 큰 문맥 크기를 조합하거나, 반대로 큰 자질집합 크기와 작은 문맥 크기를 조합하면 성능을 극대화 할 수 있다.

한국어 언어모델 파인튜닝을 통한 협찬 블로그 텍스트 생성 (Generating Sponsored Blog Texts through Fine-Tuning of Korean LLMs)

  • 김보경;변재연;차경애
    • 한국산업정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.1-12
    • /
    • 2024
  • 본 논문에서는 대규모 한국어 언어모델인 KoAlpaca를 파인튜닝하고 이를 이용한 블로그 텍스트 생성 시스템을 구현하였다. 소셜 미디어 플랫폼의 블로그는 기업 마케팅 수단으로 널리 활용된다. 수집된 협찬 블로그 텍스트의 감정 분석과 정제를 통한 긍정 리뷰의 학습 데이터를 구축하고 KoAlpaca 학습의 경량화를 위한 QLoRA를 적용하였다. QLoRA는 학습에 필요한 메모리 사용량을 크게 줄이는 파인튜닝 접근법으로 파라미터 크기 12.8B 경우의 실험 환경에서 LoRA 대비 최대 약 58.8%의 메모리 사용량 감소를 확인하였다. 파인튜닝 모델의 생성 성능 평가를 위해서 학습 데이터에 포함되지 않은 100개의 입력으로 생성한 텍스트는 사전학습 모델에 비해서 평균적으로 두배 이상의 단어 수를 생성하였으며 긍정 감정의 텍스트 역시 두 배 이상으로 나타났다. 정성적 생성 성능 평가를 위한 설문조사에서 파인튜닝 모델의 생성 결과가 제시된 주제에 더 잘 부합한다는 응답이 평균 77.5%로 나타났다. 이를 통해서 본 논문의 협찬물에 대한 긍정 리뷰 생성 언어모델은 콘텐츠 제작을 위한 시간 관리의 효율성을 높이고 일관된 마케팅 효과를 보장하는 콘텐츠 제작이 가능함을 보였다. 향후 사전학습 모델의 생성 요소에 의해서 긍정 리뷰의 범주에서 벗어나는 생성 결과를 감소시키기 위해서 학습 데이터의 증강을 활용한 파인튜닝을 진행할 예정이다.

정보미학적 해석을 통한 소셜네트워크 시각화의 예술적 활용 (The Artistic Practical Use of Social Network Visualization through the Information Aesthetic Interpretation)

  • 방승애;윤준성
    • 한국콘텐츠학회논문지
    • /
    • 제13권7호
    • /
    • pp.16-23
    • /
    • 2013
  • 본 논문은 소셜네트워크 시각화의 정보미학적 해석을 통해 소셜네트워크 시각화의 예술적 활용을 분석한다. 초창기 소셜네트워크 시각화는 개인과 집단의 상호관계를 규명하는 사회연결망 분석(Social Network Analysis: SNA)의 한 방법인 '소시오그램(sociogram)'의 형태로 등장했다. 이후 소셜네트워크가 점차 복잡해지면서 다양한 인간 관계망을 분석하는 기술이 등장했다. 초창기 소셜네트워크 시각화는 사회 구조를 측정하기 위한 실용적 목적을 지향했다. 그러나 현재 소셜네트워크 시각화는 정보 기반의 예술적 표현에 이르기까지 다양한 형태로 분화되었다. 본 논문은 이러한 소셜네트워크 시각화의 최근 예술적 활용에 주목하여 정보미학적 접근을 시도하고 예술적 활용 사례를 두 가지 범주로 나눈다. 먼저, 아날로그 기반의 정적인 그래프 시각화 유형을 분석한다. 두 번째는 소셜네트워크 웹 사이트와 텍스트 분석 기술을 연동하여 실시간 디지털 이미지를 생성하는 상호작용성 기반의 시각화 유형을 분석한다. 이러한 방법을 통해 예술과 공학의 융합적 패러다임을 제시하여 기존 예술 연구 영역의 한계를 벗어나고자 한다.