• 제목/요약/키워드: 용어 분류

검색결과 477건 처리시간 0.026초

지능적 웹 이미지 검색 엔진의 설계 (Design of Intelligeng Web Image Search Engine)

  • 박명선;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.51-53
    • /
    • 1999
  • 기존의 웹 이미지 검색 엔진은 웹 이미지를 검색할 때 웹 이미지의 특징과, 웹 이미지를 포함한 HTML 문서의 텍스트를 이용한다. 그러나, 텍스트는 문맥에 따라 의미가 달라질 수 있으므로, 검색 대상을 미리 분류하면 검색 효율을 높일 수 있다. 본 논문은 웹 문서의 텍스트에서 이미지와 관련이 있는 이미지 설명 텍스트를 자동으로 추출하고, 검색 효율을 높이기 위하여 웹 이미지를 자동으로 분류하는 지능적 웹 이미지 검색 엔진을 제안한다. 지능적 웹 이미지 검색 엔진은 분류와 용어, 용어와 용어 사이의 연관도를 이용하여 분류의 정확도를 높인다.

  • PDF

감성용어 및 패턴을 이용한 감성기반 분산 문서분류시스템 (Distributed Document Classification System using Susceptibility Terms and Patterns)

  • 김명규;인주호;채수환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (D)
    • /
    • pp.356-360
    • /
    • 2007
  • 인터넷이 폭 넓게 보급되어 개인의 의견을 개진할 기회가 확대됨에 따라 정치, 경제 등의 사안이나 제품 기업의 이미지, 공인에 대한 긍정.부정의 글을 개진할 수 있게 되었다. 이러한 현상에 따라 기업, 제품, 혹은 공공의 분야에서 일반 개인들이 어떻게 생각하는가에 대한 분석 및 자료수집의 필요성이 높아지고 있다. 감성용어 문서분류시스템은 문서의 내용 중 감성기반의 용어들에 기반하여 이에 대한 패턴을 정의하고 이에 대응하는 범주에 문서를 자동으로 할당하는 작업으로써 효율적인 정보 관리 및 검색을 가능하게 한다. 하지만 자동문서 분류를 하기 위해서는 방대한 양의 데이터를 수집 보관하기 위한 분산 환경이 반드시 필요하다. 본 논문에서는 감성기반 문서분류 시스템을 위한 감성용어 추출 및 긍정, 부정의 패턴을 검색해 자동 문서분류를 위해 RTI(Run Time Infrastructure)를 통한 분산 시스템 환경으로 구성하였다.

  • PDF

문서 분류를 위한 용어 가중치 기법 비교 (Comparison of term weighting schemes for document classification)

  • 정호영;신상민;최용석
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.265-276
    • /
    • 2019
  • 문서-용어 빈도행렬은 텍스트 마이닝에서 분석하고자 하는 개체 정보를 가지고 있는 일반적인 자료 형태이다. 본 연구에서 문서 분류를 위해 문서-용어 빈도행렬에 적용되는 기존의 용어 가중치인 TF-IDF를 소개한다. 추가하여 최근에 알려진 용어 가중치인 TF-IDF-ICSDF와 TF-IGM의 정의와 장단점을 소개하고 비교한다. 또한 문서 분류 분석의 질을 높이기 위해 핵심어를 추출하는 방법을 제시하고자 한다. 추출된 핵심어를 바탕으로 문서 분류에 있어서 가장 많이 활용된 기계학습 알고리즘 중에서 서포트 벡터 머신을 이용하였다. 본 연구에서 소개한 용어 가중치들의 성능을 비교하기 위하여 정확률, 재현율, F1-점수와 같은 성능 지표들을 이용하였다. 그 결과 TF-IGM 방법이 모두 높은 성능 지표를 보였고, 텍스트를 분류하는데 있어 최적화 된 방법으로 나타났다.

인터넷 쇼핑몰의 상품 분류체계에 대한 연구 (A Study of Classification Systems in the Internet Shopping Malls)

  • 곽철완
    • 정보관리학회지
    • /
    • 제18권4호
    • /
    • pp.201-215
    • /
    • 2001
  • 인터넷 쇼핑몰의 상품에 대한 분류체계를 도서관 분류이론에 적용하여, 효과적인 분류체계 구축을 위한 기준점을 파악하고자 하였다. 연구 방법은 기존의 웹 쇼핑몰 세 곳을 선정하여, 분류체계를 Ranganathan의 분류이론을 기준으로 하여 비교 분석하였다. 결과 크게 6가지 기준들이 파악되었는데, 상품의 특성, 범주의 포괄성, 다양한 접근점, 범부의 배열순서와 용어의 일관성, 용어의 최신성과 명백성, 용어의 반복적 사용의 금지들이었다. 추후 연구과제로 상품 탐색 형태와 인터페이스와의 관련성이 제시되었다.

  • PDF

대표용어를 이용한 kNN 분류기의 처리속도 개선 (Improving Time Efficiency of kNN Classifier Using Keywords)

  • 이재윤;유수현
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.65-72
    • /
    • 2003
  • kNN 기법은 높은 자동분류 성능을 보여주지만 처리 속도가 느리다는 단점이 있다. 이를 극복하기 위해 입력문서의 대표용어 w개를 선정하고 이를 포함한 학습문서만으로 학습집단을 축소함으로써 자동분류 속도를 향상시키는 kw_kNN을 제안하였다. 실험 결과 대표 용어를 5개 사용할 경우에는 kNN 대비 문서간 비교횟수를 평균 18.4%로 축소할 수 있었다. 그러면서도 성능저하를 최소화하여 매크로 평균 F1 척도면에서는 차이가 없고 마이크로 평균정확률 면에서는 약 l∼2% 포인트 이내로 kNN 기법의 성능에 근접한 결과를 얻었다.

  • PDF

지식조직체계의 용어관계 유형에 관한 연구 (A Study on the Semantic Relationships in Knowledge Organization Systems)

  • 백지원;정연경
    • 한국문헌정보학회지
    • /
    • 제39권4호
    • /
    • pp.119-138
    • /
    • 2005
  • 본 연구는 현행의 용어관계가 가진 문제점을 파악하기 위하여 용어관계의 다양한 사례를 조사 분석하고 이를 바탕으로 용어관계를 체계화하고자 하였다. 이를 위해 용어관계가 기반이 되는 분류, 시소러스, 주제명표목을 비롯하여 의미망, 온톨로지, 데이터베이스 등 기존의 여러 지식조직체계를 용어관계의 측면에서 재조명하여 그 특성 및 상호관계를 파악하였다. 또한 이들 지식조직체계에 실질적으로 나타나는 각종 용어관계의 사례와 용어관계에 대한 연구들을 광범위하게 수집하여 다양한 용어관계의 유형을 파악하였다. 이렇게 수집된 다양한 용어관계를 분석하여 실재하는 용어관계의 체계화 방안을 모색하였다.

음식문화 분야 인터넷자원 분류체계 분석을 통한 한국십진분류법의 항목명 확장에 관한 연구 (A Study on Expansion of Headings of Korean Decimal Classification Based Upon the Analysis of Directory Classifications of Internet Resources in Food and Culture)

  • 정연경;이미화
    • 정보관리학회지
    • /
    • 제27권4호
    • /
    • pp.49-69
    • /
    • 2010
  • 듀이십진분류법(DDC)은 문헌분류체계로 도서관에서 뿐만 아니라 인터넷자원을 분류하는 기반으로 사용되고 있는데, 이는 DDC가 주기적이며 지속적인 용어 확장을 통해 최신성과 실용성을 유지하기 때문이다. 반면, 한국십진분류법(KDC)은 비정기적인 개정 주기로, 용어의 최신성과 실용성이 떨어진다. KDC가 도서관뿐만 아니라 인터넷자원 분류에도 활용 가능하기 위해서는 실용적인 분류 항목명이 반영되어야 한다. 본 연구에서는 인터넷 자원의 디렉토리 분류체계와 KDC에서 사용하고 있는 분류항목명을 비교 분석하고 KDC에 추가할만한 분류항목명을 확장 제안하였다. 네이버, 야후, 교보문고, 아마존의 디렉토리 분류체계에서 음식문화 분야의 용어를 분석하였으며, 다른 분류체계를 참조하여 KDC로의 적용 방안을 제안하였다. KDC에 추가적인 분류항목명이 필요한 분야는 식품위생, 음료기술, 식품공학, 식품과 음료, 식사 및 식탁차림, 주방, 식당 공간이었으며 부족한 항목명은 음식 관련 용어 및 한식 관련 요리명이 주를 이루었다. 본 연구를 통해 KDC의 부족한 항목명과 적용방안을 제시함으로써 KDC가 도서관과 인터넷자원 분류에 활용될 수 있는 기반을 마련하였다.

Doc2Vec 문서 임베딩을 이용한 질의문과 판례 자동 연결 방안 연구 (A Study on the Connecting Method of Query and Legal Cases Using Doc2Vec Document Embedding)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.76-81
    • /
    • 2020
  • 법률 전문 지식이 없는 사람들이 법률 정보 검색을 성공적으로 하기 위해서는 일반 용어를 검색하더라도 전문 용어가 사용된 법령정보가 검색되어야 한다. 하지만 현 판례 검색 시스템은 사용자 선호도 검색이 불가능하며, 일반 용어를 사용하여 검색하면 사용자가 원하는 전문 자료를 도출하는 데 어려움이 있다. 이에 본 논문에서는 일반용어가 사용된 질의문과 전문용어가 사용된 판례를 자동으로 연결해 주고자 하였다. 질의문과 연관된 판례를 자동으로 연결해 주기 위해 전문용어가 사용된 전문가 답변을 바탕으로 문서분류에 높은 성능을 보이는 Doc2Vec을 이용한다. Doc2Vec 문서 임베딩 기법을 이용하여 전문용어가 사용된 전문가 답변과 유사한 답변을 제안하여 비슷한 주제의 답변들끼리 분류하였다. 또한 전문가 답변과 유사도가 높은 판례를 제안하여 질의문에 해당하는 판례를 자동으로 연결하였다.

  • PDF

텍스트 마이닝에서 심층 신경망을 이용한 문서 분류 (Document classification using a deep neural network in text mining)

  • 이보희;이수진;최용석
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.615-625
    • /
    • 2020
  • 문서-용어 빈도행렬은 그룹정보가 존재하는 문서들의 용어를 추출한 것으로 일반적인 텍스트 마이닝에서의 자료이다. 본 연구에서는 연구 분야 성격에 따른 문서 분류를 위해 문서-용어 빈도행렬을 생성하고, 전통적인 용어 가중치 함수인 TF-IDF와 최근 잘 알려진 용어 가중치 함수인 TF-IGM을 적용하였다. 또 용어 가중치가 적용된 문서-용어 가중행렬에 문서분류 정확도 향상을 위해 핵심어를 추출하여 문서-핵심어 가중행렬을 생성하였다. 핵심어가 추출된 행렬을 바탕으로, 심층 신경망을 이용해 문서를 분류하였다. 심층 신경망에서 최적의 모델을 찾기 위해 매개변수인 은닉층과 은닉노드수를 변화해가며 문서 분류 정확도를 확인하였다. 그 결과 8개의 은닉층을 가진 심층 신경망 모델이 가장 높은 정확도를 보였으며 매개변수 변화에 따른 모든 TF-IGM 문서 분류 정확도가 TF-IDF 문서 분류 정확도보다 높은 것을 확인하였다. 또한 개별 범주에 대한 문서 분류 분석 결과를 서포트 벡터 머신과 비교했을 때 심층 신경망이 대부분의 결과에서 더 좋은 정확도를 보임을 확인하였다.

웹페이지의 의학용어 출현 빈도와 하이퍼링크에 기반한 웹사이트 분류 (Website Classification based on Occurrence Frequency of Medical Terms and Hyperlinks in Webpage)

  • 이인근;김화선;조훈
    • 한국지능시스템학회논문지
    • /
    • 제23권2호
    • /
    • pp.126-132
    • /
    • 2013
  • 본 논문은 웹페이지에 포함된 의학용어의 출현 빈도와 웹페이지 간의 하이퍼링크로 이루어진 웹사이트의 구조에 기반하여 인터넷 웹사이트를 분류하는 방법을 제안한다. 제안하는 방법에서는 (1)웹페이지에 포함된 전체 용어에서의 의학용어 출현빈도와 (2)웹페이지에 포함된 중복을 제거한 용어에서의 의학용어 출현 빈도를 인자로 하여 웹페이지의 의학분야 적합도를 측정한다. 그리고 (3)홈페이지로부터 특정 웹페이지에 접근하기 위해 거쳐야 하는 하이퍼링크의 개수를 이용한 전체 웹페이지의 적합도 연산을 통해 웹사이트의 의학분야 적합도를 측정한다. 인터넷 포털 사이트의 디렉토리 검색 서비스에 등록된 80 개의 의학분야 웹사이트와 127 개의 비 의학분야 웹사이트를 대상으로 제안한 방법에 기반하여 웹사이트 분류 실험을 수행하였고, 82.5 %의 분류 정확률을 확인하였다.