• 제목/요약/키워드: 용어 분류

검색결과 477건 처리시간 0.026초

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 (Automatic Generating Stopword Methods for Improving Topic Model)

  • 이정빈;인호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.869-872
    • /
    • 2017
  • 정보검색(Information retrieval) 및 텍스트 분석을 위해 수집하는 비정형 데이터 즉, 자연어를 전처리하는 과정 중 하나인 불용어(Stopword) 제거는 모델의 품질을 높일 수 있는 쉽고, 효과적인 방법 중에 하나이다. 특히 다양한 텍스트 문서에 잠재된 주제를 추출하는 기법인 토픽모델링의 경우, 너무 오래되거나, 수집된 문서의 도메인이나 성격과 무관한 불용어의 제거로 인해, 해당 토픽 모델에서 학습되어 생성된 주제 관련 단어들의 일관성이 떨어지게 된다. 따라서 분석가가 분류된 주제를 올바르게 해석하는데 있어 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 일반적으로 사용되는 표준 불용어 대신 관련 도메인 문서로부터 추출되는 점별 상호정보량(PMI: Pointwise Mutual Information)을 이용하여 불용어를 자동으로 생성해주는 기법을 제안한다. 생성된 불용어와 표준 불용어를 통해 토픽 모델의 품질을 혼잡도(Perplexity)로써 측정한 결과, 본 논문에서 제안한 기법으로 생성한 30개의 불용어가 421개의 표준 불용어보다 더 높은 모델 성능을 보였다.

초등학교 컴퓨터 용어에 관한 연구 (A Study on Computer Terms in Elementary School)

  • 윤정석;김갑수
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2004년도 동계학술대회
    • /
    • pp.558-564
    • /
    • 2004
  • 21세기를 지식정보화 시대라고 한다. 자고 나면 새로운 것이 발견되고 새로운 책들이 쓰여지는 지식 홍수의 시대라고 할 수 있다. 그 중에서도 컴퓨터 분야는 타 분야에 비해 매우 빠른 변화를 보이고 있으며, 새로운 제품들이 끊임없이 개발 보급되고 있다. 이로 인해 과거에 쓰이던 컴퓨터 용어가 사라지기도 하고, 기술의 발달로 인해 새로운 용어가 생겨나기도 한다. 컴퓨터를 배우거나 컴퓨터를 효과적으로 사용하기 위해서는 컴퓨터에 관련된 용어에 대해 바르게 알고 있어야 한다. 그러나 대부분의 사람들은 잘못된 컴퓨터 용어를 사용하거나 여러 가지 용어를 섞어서 사용하고 있다. 따라서 본 연구는 최근에 개발된 컴퓨터 교과서 편수자료를 바탕으로 하여 현재 초등학교에서 사용하고 있는 계량활동 컴퓨터 교과서에 나타난 컴퓨터 용어를 분석하고 기존의 연구 자료와 비교해 본 후에 초등학교 수준에 맞는 컴퓨터용어를 선정하고, 더 나아가서 정보통신기술교육 영역별로 컴퓨터 용어를 분류해 보고자 한다.

  • PDF

과학기술 분야 통합 개념체계의 구축 방안 연구 (An Integrated Ontological Approach to Effective Information Management in Science and Technology)

  • 정영미;김명옥;이재윤;한승희;유재복
    • 정보관리학회지
    • /
    • 제19권1호
    • /
    • pp.135-161
    • /
    • 2002
  • 과학기술 분류표, 시소러스, 용어사전 등의 주요한 색인 및 검색 도구를 한국어, 영어 일본어의 3개 언어로 통합 구축하여 활용할 수 있도록 다기능, 다국어 과학기술 통합 개념체계의 모형을 설계하였다. 이 연구에서는 개념을 기본 단위로 한 시소러스 모형을 개발하였으며, 시소러스와 연계되는 용어사전 레코드는 ISO 12620 표준에 근거하여 필수요소를 지정하였다. 또한 과학기술분야 표준분류표를 마련하고 기존의 일반 분류표와의 매핑 테이블을 작성하여 다른 분류표를 통한 접근이 가능하도록 하였다. 본 연구에서 개발한 통합 개념체계를 이용하여 원자력 분야를 대상으로 한 프로토타입 시스템을 구축하고 실제 검색 사례를 제시하였다.

장르와 주제 범주간 용어 편차정보를 이용한 디지털 문서의 장르기반 분류 (A Genre-based Classification of Digital Documents by using Deviation Statistic of Genre-revealing Term and Subject-revealing Term)

  • 이용배;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1062-1071
    • /
    • 2003
  • 장르기반 분류는 문서를 내용이나 주제가 아닌 문서의 형식 또는 스타일에 의해 분류하는 것을 의미한다. 현재 장르분류 방법은 기존의 주제기반 분류방법에 사용되었던 알고리즘을 그대로 이용하거나 자질선택 방법에 있어서도 효과적이지 못하고 비교적 단순하여 분류 정확률 또한 상대적으로 낮았다. 본 연구에서는 장르기반으로 문서를 자동 분류할 수 있는 새로운 방법론을 제시한다. 장르분류 방법은 크게 두 가지 정보를 이용하여 학습과 분류를 하는데 장르 간 용어의 편차정보와 장르 내에 분포되어 있는 주제 범주 간 용어의 편차정보를 이용한다. 제안된 방법의 성능을 측정하기 위해 인터넷상에서 정제되지 않은 문서를 수집하였으며 이를 대상으로 실험한 결과 기존의 카이제곱 자질선택 방법 및 베이지안 분류 알고리즘과 비교하여 약 30% 정도 우수한 정확도를 나타내었다.

CRF를 이용한 생물/의학 전문용어 인식 (Biomedical Terminology Recognition using CRF)

  • 배영준;김재훈;옥철영;최윤수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.87-91
    • /
    • 2009
  • 전문용어의 수가 급증하면서 전문용어를 자동으로 인식하는 연구가 활발히 진행되고 있다. 전문용어를 인식하기 위해서 전문용어의 범위를 정한 뒤 그 전문용어의 분야를 선택해야 한다. 본 논문에서는 생물/의학 사전정보와 CRF(Conditional Random Fields) 기계학습 기법을 사용하여 연구를 진행한다. 기계학습을 위한 자질로 품사, 접사, 대소문자, 숫자, 특수문자, 단서어휘 등을 사용한다. 특히 단서어휘와 사전정보를 중요한 요소로 생각하여, 3가지 방법으로 나누어 실험한다. 총 분야의 개수는 7개이며, 각 분야별로 정확률, 재현율, F-measure를 측정한다. 경계인식은 83.92%의 정확률, 96.42%의 재현율, 89.73의 F-measure가 결과로 나타났고, 분야분류는 79.29%의 정확률, 91.06%의 재현율, 84.77%의 F-measure가 결과로 나타났다.

  • PDF

10학년 과학 교과서 지구과학 용어 분석 (An Analysis of Earth Science Vocabularies Used in the 10th Grade Science Textbooks)

  • 최행임;이효녕;조현준
    • 한국지구과학회지
    • /
    • 제29권4호
    • /
    • pp.363-371
    • /
    • 2008
  • 이 연구의 목적은 10학년 과학 교과서의 지구과학 용어들을 SWA 프로그램을 통해 분석하여 그 중 학생들이 어려워하는 용어들을 알아보는데 있다. 연구 목적을 위해, 먼저 11종의 10학년 과학교과서에서 지구과학 용어들을 추출한 다음, 표준국어대사전을 기반으로 한 SWA 프로그램으로 과학 전문어와 비과학 전문어로 분류를 하였다. 분류된 과학전문어와 비과학 전문어에 대해 560명의 10학년 학생들에게 이해하기 어려운 용어를 선택하도록 하였다. 프로그램을 통해 어휘의 수를 분석한 결과, 교과서별로 다소 차이는 있지만, 등급 외의 과학 전문어 빈도가 모든 교과서에서 다른 등급에 비해 가장 높았다. 또한 학생들에게 설문한 결과, 어렵다고 하는 용어들의 대부분이 등급 외에 속해 있었다. 이 연구 결과를 통해, 교과서 집필 과정에서 학생들의 인지 수준을 고려해야 하며 어려운 용어는 과학적 의미의 변화가 없는 범위 내에서 쉬운 용어로 대체되어야 한다는 것을 제안하였다.

북한 식생활 영역의 용어 연구를 통한 북한 식생활의 이해 (A Study on the North Koreans' Dietary Life by Analysis of the Dietary Life Terms)

  • 안순희;김유경
    • 한국가정과교육학회지
    • /
    • 제29권1호
    • /
    • pp.1-13
    • /
    • 2017
  • 본 연구는 북한 식생활 용어들을 모아 정리하여 추출된 용어들을 통해 북한 식생활을 이해하고, 동시에 남한의 중학교 기술 가정교과의 식생활 용어들과 서로 비교하여, 북한 식생활이해도를 높이고자 시도하였다. 본 연구의 자료는 북한용어 사전 2종과 웹사이트 2종을 검색하여 북한식생활과 관련된 용어를 추출하였으며, 남한의 중학교 1학년 기술 가정교과의 식생활영역 단원에서 남한식생활 관련 용어를 추출하였다. 분석결과는 1) 분류된 북한의 식생활용어는 식품분야의 용어가 과반 수 이상을 차지하였으며; 2) 또한 북한의 식량사정을 엿볼 수 있는 용어가 추출되었으며; 3) 북한의 식생활정책과 관련하여 식량증산을 위한 작물로 옥수수에 관한 용어가 비교적 많은 비중을 차지하였고; 4) 북한의 말다듬기 사업을 통해 다듬어진 한자어나 외래어가 여러 분류에서 다양하게 추출되었으며; 5) 북한용어 중 일부는 해석이 없이는 이해하기 어려운 용어들이 있었으며; 6) 농업과 관련된 용어 중 남한에서 사용되지 않는 용어들이 발견 되었으며; 7) 중학교 기술 가정교과에서는 남한식생활정책용어들과 다수의 외국어가 추출되었다. 본 연구 결과가 식생활영역의 남북언어이질화를 이해하고 남북한 청소년들이 서로의 용어를 이해할 수 있는 기초 자료로 활용될 수 있을 것으로 기대된다.

공통표준플랫폼 적용을 위한 공급사슬 기준정보 분류 및 표준화 (Classification and Standardization of Master-Data of Supply Chain for Adopting Common Standard Platform)

  • 장태우;윤소연;임혜선
    • 한국전자거래학회지
    • /
    • 제17권1호
    • /
    • pp.151-171
    • /
    • 2012
  • RFID/USN 적용 산업에서 공급사슬 참여자들의 시스템 이질성 문제 해결을 위해 본 연구는 공통표준플랫폼 개념의 도입과 데이터의 분류 및 용어에 대한 통일된 관점을 제공할 수 있는 표준화된 데이터 체계를 제시하고자 한다. 본 연구는 공통표준플랫폼의 최초 적용 산업인 의약품 산업과 유사한 특징을 가지는 화장품, 주류, 농수축산물과 가공식품 분야를 대상으로 한다. 각 산업의 공급사슬 단계별 사용되는 용어를 수집 및 정리하고, 데이터의 속성에 따라 기준을 정의하여 분류한다. 최종적으로 구성된 분류체계를 기반으로 표준용어를 제시한다. 본 연구를 통해 플랫폼을 사용할 비즈니스 파트너 간에 사용되는 데이터의 통일된 체계 및 용어를 제시함으로써 플랫폼이 적용되는 산업의 개발자 및 사용자, 비즈니스 파트너 간의 정보전달 및 획득에 유용성을 제공할 것이다.

KDC 제5판 건축공학분야 분류체계 개선 방안 (The Methods for the Improvement of the KDC 5th Edition of Architecture Engineering Classification System)

  • 김연례
    • 한국도서관정보학회지
    • /
    • 제40권4호
    • /
    • pp.401-425
    • /
    • 2009
  • 이 연구는 건축공학 분야의 학문체계와 KDC, DDC, LCC의 분류체계 및 한국연구재단의 연구분야분류표의 건축공학 분야의 분류체계에 대해 비교 분석한 후, 이를 토대로 KDC 건축공학 분야의 분류체계를 개선할 수 있는 방안을 제시하고자 시도하였다. 분석결과 KDC 제5판의 건축공학 분야는 학문발전의 추세를 반영하는 분류항목의 추가, 건축구조공학 분야의 등위류 분류용어의 적절한 전개, 세부 주제의 추가 전개, 적절한 분류용어의 선택, 분류기호, 영문표기의 오류, 분류항목의 상관색인 누락 등에 대한 개선이 필요한 것으로 나타났다. 이 연구에서는 이러한 문제들을 해결하기 위한 개선 방안을 제시하였다.

  • PDF