• 제목/요약/키워드: 용어 분류

검색결과 477건 처리시간 0.032초

고전 용어 시소러스의 분류 체계에 관한 연구 (A Study on Classification System of Korean Literatures Thesaurus)

  • 유영준
    • 한국문헌정보학회지
    • /
    • 제40권2호
    • /
    • pp.415-434
    • /
    • 2006
  • 우리 고전 문집에 나타난 용어로 작성된 디스크립터들을 분류하기 위해서 분류 체계를 개발하는 것이 이 연구의 목적이다. 고전 용어 시소러스의 분류 구조는 6개의 패싯으로 범주화를 시작하여 고전 분야의 지식을 근거로 연역적으로 분류 체계를 구조화하였다. 그리고 기존의 인문학 분야의 다른 시소러스들의 분류 체계와 비교하였고, 이러한 비교를 통해서 얻은 것은 고전 용어 분류 체계만이 갖는 여러 장점들 즉 패싯 기법을 적용한 장점 등을 확인할 수 있었다. 이러한 장점들로 인해서 범주 설정의 일관성과 분류 구조의 복잡성을 줄일 수 있었다. 또한 시대나 지역을 구분하기 위한 공통 구분을 독립적으로 설정하여 분류표의 크기를 줄일 수 있었다. 이 분류 체계는 디스크립터들을 배정하는 과정을 통해 보다 나은 분류 체계로 발전해 나갈 것이다.

환경 빅데이터 이슈 분석을 위한 용어 가중치 기법 비교 (Comparison of Term-Weighting Schemes for Environmental Big Data Analysis)

  • 김정진;정한석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.236-236
    • /
    • 2021
  • 최근 텍스트와 같은 비정형 데이터의 생성 속도가 급격하게 증가함에 따라, 이를 분석하기 위한 기술들의 필요성이 커지고 있다. 텍스트 마이닝은 자연어 처리기술을 사용하여 비정형 텍스트를 정형화하고, 문서에서 가치있는 정보를 획득할 수 있는 기법 중 하나이다. 텍스트 마이닝 기법은 일반적으로 각각의 분서별로 특정 용어의 사용 빈도를 나타내는 문서-용어 빈도행렬을 사용하여 용어의 중요도를 나타내고, 다양한 연구 분야에서 이를 활용하고 있다. 하지만, 문서-용어 빈도 행렬에서 나타내는 용어들의 빈도들은 문서들의 차별성과 그에 따른 용어들의 중요도를 나타내기 어렵기때문에, 용어 가중치를 적용하여 문서가 가지고 있는 특징을 분류하는 방법이 필수적이다. 다양한 용어 가중치를 적용하는 방법들이 개발되어 적용되고 있지만, 환경 분야에서는 용어 가중치 기법 적용에 따른 효율성 평가 연구가 미비한 상황이다. 또한, 환경 이슈 분석의 경우 단순히 문서들에 특징을 파악하고 주어진 문서들을 분류하기보다, 시간적 분포도에 따른 각 문서의 특징을 반영하는 것도 상대적으로 중요하다. 따라서, 본 연구에서는 텍스트 마이닝을 이용하여 2015-2020년의 서울지역 환경뉴스 데이터를 사용하여 환경 이슈 분석에 적합한 용어 가중치 기법들을 비교분석하였다. 용어 가중치 기법으로는 TF-IDF (Term frequency-inverse document frquency), BM25, TF-IGM (TF-inverse gravity moment), TF-IDF-ICSDF (TF-IDF-inverse classs space density frequency)를 적용하였다. 본 연구를 통해 환경문서 및 개체 분류에 대한 최적화된 용어 가중치 기법을 제시하고, 서울지역의 환경 이슈와 관련된 핵심어 추출정보를 제공하고자 한다.

  • PDF

Support Vector Machine을 이용한 온라인 리뷰의 용어기반 감성분류모형 (Terms Based Sentiment Classification for Online Review Using Support Vector Machine)

  • 이태원;홍태호
    • 경영정보학연구
    • /
    • 제17권1호
    • /
    • pp.49-64
    • /
    • 2015
  • SNS의 확산으로 온라인 상점에서는 상품에 대한 주관적인 의견이 내포되어 있는 고객리뷰 정보가 빠르게 생성되고 확산되어 다른 고객들에게 큰 영향을 미치고 있다. 이와 더불어, 고객들의 긍정적 또는 부정적 의견을 분석하여 개선방안을 모색하려는 오피니언마이닝(opinion mining)이 주목 받고 있다. 고객리뷰에 내포된 감성정보를 가진 용어들은 감성분류를 하는데 가장 중요한 역할을 하기 때문에 영향력이 높은 용어를 선별하는 것이 가장 중요하다. 본 연구에서는 품사태깅을 이용하여 최적의 용어들을 선별하고 용어정보에 기반한 문서수준에서의 감성분류모형을 제안하고자 한다. 고객리뷰의 감성분류모형에 대표적인 기계학습기법인 SVM을 적용하고, SVM의 입력변수 선정과정에 품사태깅 방식과 용어추출기법을 다르게 조합하고 사용하여 긍정적/부정적 문서를 분류하였다. 본 연구에서 제안한 감성분류모형의 성과를 검증하기 위해 아마존(Amazon.com)의 영화와 도서에 대한 고객리뷰 80,000개를 수집하여 불필요한 용어들을 제거한 후 품사태깅을 통해 용어를 추출하였다. 추출된 용어는 문서빈도, TF-IDF, 정보획득량, 카이제곱 통계량의 값을 산출하여 값을 통해 용어들을 순위화하고, 각 상위 20개에 해당하는 최적의 용어를 선정한 후 SVM을 이용하였다. 제안된 감성분류모형을 통해 기존 연구에서 언급한 형용사만을 사용한 예측변수와 4품사를 사용한 예측변수에서의 실험결과를 통해 비교 분석하였다. 카이제곱 통계량 기반의 감성분류모형이 다른 모형보다 예측성과가 가장 우수하게 나타나는 것을 확인할 수 있었다. 본 연구에서 제안된 문서수준에서의 용어기반 감성분류모형을 이용함으로써 온라인 상점에서의 서비스 개선과 경쟁력 확보에 많은 도움이 될 것으로 기대된다.

정보검색에서 질의 용어 확장/한정을 위한 자동 질의 용어 정련기의 설계 및 구현 (The Design and Implementation of Automatic Query Term Refiner for Term Expansion/Restriction in Information Retrieval)

  • 강현수;강현규;이용석;김영섬
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.65-72
    • /
    • 1998
  • 인터넷 정보 검색에서 이용자들이 주로 사용하는 질의는 2-3개의 용어로 이루어진 짧은 질의이다. 또만 동음이의어를 갖는 용어를 사용하기도 한다. 짧은 질의를 처리하는 일반적인 방법은 시소러스[8]나 Wordnet[1]을 이용한 질의 확장이다. 그러나 시소러스나 Wordnet과 같은 지식 베이스는 구축하기가 용이하지 않으며, 도메인 종속적인 면과 단어의 회귀(sparseness) 문제를 극복하기 어려운 단점이 있다. 또한 동음이의어 용어로 인하여 검색의 정확성이 털어지는 문제점이 있다. 한편, 사용자의 질의를 주의 깊게 살펴보면, 질의로부터 관련 용어 분류 정보를 추출할 수 있다. 본 논문은 사용자의 질의가 관련 용어 분류 정보에 의해 유기적으로 관계를 가지고 있다는 사실에 기인하여 관련 용어 분류 정보에 따라 자동으로 용어 확장 및 한정을 수행하며 적절한 용어 가중치를 부여하는 자동 질의 용어 정련기를 제안한다. 자동 질의 용어 정련기는 용어의 확장, 한정 및 가중치 부여를 통하여 사용자의 정보 검색 요구를 명확히 하여 검색의 정확성을 향상시킨다.

  • PDF

분류체계 자동 생성 지원을 위한 용어 벡터 생성 방법 탐색 (How to Generate Term Vectors to Support the Automatic Generation of Taxonomy)

  • 성수진;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.600-603
    • /
    • 2022
  • 분류체계를 결정하는 일은 매우 중요하지만 어려운 일이다. 우리는 수집된 용어 목록에 클러스터링을 적용하여 상위 범주의 범위를 자동으로 설정하고자 하였다. 용어 클러스터링은 용어를 나타내는 벡터에 큰 의존성을 갖는다. 이에 클러스터링의 성능 향상을 위해 다양한 용어 임베딩 방법을 비교하였으며 용어에 대한 정의문의 벡터를 용어 벡터로 사용하여 가장 우수한 클러스터링 결과를 얻었다. 또한 실험을 통해 클러스터링 알고리즘 중 k-means clustering이 고차원의 벡터에 대해 좋은 성능의 군집을 생성함을 확인하였다.

  • PDF

초등학생을 위한 ICT 용어에 대한 연구 (A Study on ICT Terms for Elementary Students)

  • 장연란;김갑수
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2008년도 동계학술대회
    • /
    • pp.160-165
    • /
    • 2008
  • 본 연구에서는 2005년 12월에 개정된 초 중등학교 정보통신기술 교육 운영지침에 따라 변화된 교육과정에 적합한 초등학교 ICT 용어를 선정하였다. 정보통신기술의 급격하게 발달하면서 새로운 용어가 계속 생성되고, 사양화되는 용어가 생겼으며, 교육인적자원부가 이러한 사회적 요구에 따라 초 중등학교 정보통신기술 교육 운영지침을 개정하였기 때문에 초등학교 ICT 용어도 그에 적합하게 재정비할 필요가 있다. 먼저 개정된 운영지침과 초등학교 전자교과서를 분석하여 예비 용어를 약 327개를 수집하였다. 그리고 새 운영지침과 정보통신기술용어 사전을 참고로 하여 초등학교 ICT 용어 선정의 원칙과 표기 원칙을 정하여 239개의 초등 ICT 용어를 선정하였다. 마지막으로 선정된 초등 ICT 용어를 새 운영지침에 맞게 단계별로 1, 2, 3 단계로 분류하고, 영역별로 정보 생활 용어, 정보 기기 용어, 정보 처리 용어, 정보 가공 용어로 나누어 분류하였다.

  • PDF

용어의 문맥활용을 통한 문헌 자동 분류의 성능 향상에 관한 연구 (A Study on Improving the Performance of Document Classification Using the Context of Terms)

  • 송성전;정영미
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.205-224
    • /
    • 2012
  • 자동 분류에서 문헌을 표현하는 일반적인 방식인 BOW는 용어를 독립적으로 처리하기 때문에 주변 문맥을 반영하지 못한다는 한계가 있다. 이에 본 연구는 각 용어마다 주제범주별 문맥적 특징을 파악해 프로파일로 정의하고, 이 프로파일과 실제 문헌에서의 문맥을 비교하는 과정을 통해 동일한 형태의 용어라도 그 의미나 주제적 배경에 따라 구분하고자 하였다. 이를 통해 주제가 서로 다름에도 불구하고 특정 용어의 출현만으로 잘못된 분류 판정을 하는 문제를 극복하고자 하였다. 본 연구에서는 이러한 문맥적 요소를 용어 가중치, 분류기 결합, 자질선정의 3가지 항목에 적용해 보고 그 분류 성능을 측정했다. 그 결과, 세 경우 모두 베이스라인보다 분류 성능이 향상되었고 가장 큰 성능 향상을 보인 것은 분류기 결합이었다. 또한 제안한 방법은 학습문헌 수가 많고 적음에 따라 발생하는 성능의 편향을 완화하는데도 효과적인 것으로 나타났다.

문헌 자동분류에서 용어가중치 기법에 대한 연구 (Comparative Evaluation of Term Weighting Methods in Automatic Document Classification)

  • 이재윤;최보영;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2000년도 제7회 학술대회 논문집
    • /
    • pp.41-44
    • /
    • 2000
  • 정보검색 시스템의 성능을 향상시키기 위해서 다양한 용어가중치 공식이 제안 되어왔다. 용어가중치는 질의와 문헌을 비교하는 검색의 경우뿐만 아니라 문헌과 문헌을 비교하는 자동분류에서도 성능에 영향을 미칠 수가 있다. 본 논문에서는 다양한 용어가중치 공식에 대해서 살펴보고, 문헌 자동분류 성능에 미치는 영향을 문헌 클러스터링 실험과 범주화 실험을 통해 확인해 보았다.

  • PDF

용어 자동분류를 위한 퍼지 클러스터링 기법 분석 (Analytical Study of Fuzzy Clustering Technique for Automatic Term Classification)

  • 한승희
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.95-103
    • /
    • 2003
  • 목차 및 권말색인과 같은 인쇄형태의 정보내용에 대한 구조화된 접근방식에서 착안하여 전자 문서의 내용에 대한 새로운 형태의 접근방식을 개발할 수 있는데, 이를 위한 방안으로 용어 자동분류 기법이 있다. 본 연구에서는 용어의 의미모호성 문제를 해결하는 동시에 용어간 계층관계 표현이 가능한 자동분류 기법으로 퍼지 클러스터링 기법을 제안하고, 대표적인 퍼지 클러스터링 알고리즘인 퍼지 c-means 기법에 대해 분석하고자 한다.

  • PDF

용어의 자동분류에 관한 연구 (A Study on Automatic Keyword Classification)

  • 서은경
    • 정보관리학회지
    • /
    • 제1권1호
    • /
    • pp.78-99
    • /
    • 1984
  • 본 논문은 기계가독형 데이타베이스를 탐색하는 자연어 정보검색 시스템에서 검색용 디소오러스를 이용하면 정보검색효율이 향상된다는 전제하에, 검색용 디스오러스 자동 작성방법 중의 하나인 용어 다동분류를 우리말 용어에 적용시켜 실험하였고, 이 결과로 형성된 용어군의 응용방법을 제시하였다. 용어자동분류는 용어사이에 존재하는 어의적 관계가 한 문장에서 출현하는 용어의 통계적 양상에 근거하여 밝혀질 수 있다는 가설하에 세워진 방법으로, 본 논문에서는 심리학 분야의 국내 학술잡지중 초록이 수록된 4개의 잡지를 실험대상잡지로 선택하였다.

  • PDF