• 제목/요약/키워드: 카테고리화

검색결과 166건 처리시간 0.037초

미관측문맥 모델링을 위한 다중단어카테고리 결정 (Determining Multiple Word Category Membership for Modeling Unseen Context)

  • 한명수;정민화
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.23-26
    • /
    • 2000
  • 본 논문에서는 연속음성인식에 사용되는 언어모델이 학습 코퍼스에서 나타나지 않는 문맥에 대하여 신뢰할만한 확률을 생성할 수 있도록 하는 방안으로 다중 단어 카테고리 결정방법을 제안하였다. 제안된 다중 단어 카테고리 결정 방법은 기존의 카테고리 기반 언어모델에서의 미관측 문맥에 대한 모델링 능력을 유지하면서 동형이의어에 대한 확률의 과도한 일반화를 방지한다. 제안된 방법을 이용한 언어모델의 성능을 측정하기 위해 미관측 문맥이 $31\%$ 포함된 인식문장에 대한 N-Best rescoring을 수행한 결과 word accuracy는 1-Best문장에 대해서 $3.2\%$의 향상을 얻었고 기존의 카테고리기반 언어모델을 적용한 결과에 비하여 $0.8\%$의 향상을 얻을 수 있었다.

  • PDF

소비자 분석을 위한 감성사전 모델링 (Sentiment lexicon modeling for consumer analysis)

  • 이재웅;윤현노;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.850-853
    • /
    • 2017
  • 본 논문은, 크롤링을 통해 얻은 비정형 데이터를 'Python'의 'KoNLPy' 라이브러리를 사용해 형태소 분석한 후 텍스트 마이닝을 통한 감성사전 구축을 목표로 하고 있으며, 형태소들의 빈도수를 기반으로 가중치로 두어 선별된 단어들을 이용해 긍정과 부정으로 나누어 카테고리화 한다. 이후, 선별한 카테고리에 단어의 극성을 판단하여 감성사전을 모델링한다. 실험을 위하여, 온라인 쇼핑몰 리뷰를 크롤링하여 비정형 데이터를 수집하고, 수집한 데이터를 분석, 가공 과정을 거쳐 정형화된 단어를 추출한다. 그 후에, 리뷰에 자주 사용되는 단어를 바탕으로 카테고리를 구성하였다. 구성된 카테고리 별로 단어의 극성을 판단하여 소비자 성향을 분석한 결과, 단순히 긍정과 부정을 표현하는 범용 감성사전보다 더 세분화된 감성 사전을 구축 할 수 있었다.

웹 메일 개인화를 위한 에이전트 (An Agent for Web Mail Personalization)

  • 정옥란;조동섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2003년도 하계학술대회 논문집 D
    • /
    • pp.2531-2533
    • /
    • 2003
  • 네트워크의 발달과 고성능 PC의 보급이 증가함에 따라 웹을 통한 이메일 사용량도 기하급수적으로 많아지고 있다. 또한 일반 사용자나 e-Commerce상에서 오가는 메일의 양도 갈수록 늘어나고 있다. 편리하다는 점을 이용해서 엄청난 양의 스팸메일도 매일 같이 쏟아져 나와 사회적 문제점으로 부각되고 있는 현실이다. 본 연구에서는 이메일 사용자 개개인에 맞게 메일을 자동 관리해주는 웹 메일 개인화를 위한 에이전트(An Agent for Web Mail Personalization)를 제안하고자 한다. 사용자가 새로운 메일을 받게 되면 먼저 사용자의 메일 처리과정을 학습하고, 각각 개인에 맞는 룰을 형성하고, 만들어진 개인적 룰(Personal Rule)를 바탕으로 메일을 자동 관리한다. 제안된 에이전트는 카테고리 설정, 카테고리별 분류 및 저장, 불필요한 메일이나 스팸메일을 자동 삭제 해 주는 것이다. 또한 자동분류 외에 수신된 메일에 대한 추천 카테고리(Recommendation Category)를 사용자에게 고려하게 하는 기능도 추가하였다.

  • PDF

수도권지역의 통행발생모형의 검증 (회귀모형과 카테고리모형을 중심으로) (Improvement of Trip Generation Model in Seoul Metropolitan Area)

  • 김진자;이종호
    • 대한교통학회지
    • /
    • 제22권3호
    • /
    • pp.49-58
    • /
    • 2004
  • 본 논문에서는 서울시와 경기도에서 발표한 통근 및 등교통행발생 회귀모형과 ${\ulcorner}$1996년 교통센서스 조사${\lrcorner}$ 자료로 만든 통근통행발생률 및 등교통행발생률을 이용하여 2002년의 통근 및 등교통행발생량을 예측하였다. 그리고 ${\ulcorner}$2002년 교통센서스 조사${\lrcorner}$의 관측값과 비교하여 기존 통행발생모형의 개선방법을 제시하였다. 연구의 결과, 경기도의 통근통행발생회귀모형과 카테고리모형의 예측은 유사한 분포를 보이는 반면, 서울시의 통근통행발생 회귀모형으로 예측한 경우 인천광역시와 경기도에서 관측값보다 평균 40.16% 과대 예측되었다. 등교통행발생 예측값과 관측값이 서울시와 경기도 지역에서 비슷하게 예측되었다. 인천광역시 지역의 경우 경기도에서 발표한 회귀모형으로 예측한 값이 관측값보다 평균 79.71% 작게 예측되었다. 분석 결과 수도권에서의 장래 통근과 등교통행발생량 예측에서 카테고리분석법이 회귀분석법 보다 예측력이 우수한 것으로 나타났다. 우리나라에서는 장래 카테고리화된 자료의 부재로 카테고리 분석의 장래의 통행량 예측에 어려움이 따른다. 이에 카테고리분석을 적용하여 회귀분석의 취약점을 보완할 수 있는 것으로 판단된다.

룰 필터링 컴포넌트 기반 이메일 추천 에이전트 시스템 (A Rule Filtering Component based on E-Mail Recommendation Agent System)

  • 정옥란;조동섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2004년도 하계학술대회 논문집 D
    • /
    • pp.2592-2594
    • /
    • 2004
  • 본 연구에서는 갈수록 늘어나는 이메일 문서의 관리를 효율적으로 하기 위한 방법으로 새로운 메일이 도착했을 때 해당 카테고리를 추천받아 사용자가 직접 최적의 분류를 할 수 있는 이메일 추천 에이전트 시스템을 제안한다. 이메일 문서들의 카테고리별 분류 및 해당 폴더 저장에서 핵심이 될 수 있는 정확한 분류를 위해 동적 임계치를 이용한 베이지안 학습 알고리즘을 적용하였으며, 또한 주요 모듈 부분을 확장성과 재 사용성을 위해 컴포넌트화 하였다.

  • PDF

K-NN과 객체 지향 시소러스를 이용한 웹 문서 자동 분류 (Automatic Document Categorization Using K-Nearest Neighbor Algorithm and Object-Oriented Thesaurus)

  • 방선이;양재동
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.145-147
    • /
    • 2001
  • 문서 자동 분류에는 통계적인 기법과 machine learning 기법의 맡은 알고리즘들이 이용되고 있다. 통계적인 기법 알고리즘을 이용한 문서 분류는 높은 성능을 보이지만 분류할 카테고리가 둘 이상인 경우가 빈번할 경우에는 정확률이 급격히 저하되는 단점이 있다. 본 논문에서는 K-NN알고리즘을 이용하여 일차적인 문서 분류를 수행한 후 특정 카테고리로 분류하기에 애매모호한 경우가 생길 경우 시소러스의 일반화 관계와 연관화 관계를 이용하여 모호성을 줄임으로써 문서 자동 분류의 성능을 높이기 위한 새 기법을 제안한다.

  • PDF

구매자의 구매 패턴을 이용한 상품추천서비스에 대한 연구 (A Study on Product Recommendation Service using Purchasing Pattern of Buyer)

  • 신민수;황준원;김성학;이창훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.313-316
    • /
    • 2000
  • 대부분의 온라인 전자상거래에서 상품 추천 서비스는 사용자의 정보 또는 구매 이력을 가지고 카테고리를 중심으로 상품을 추출하여 추천을 하는 구조이다. 또, 카테고리를 중심으로 추천을 하다 보니 단일한 구매 패턴에 의해서만 추천을 하게 되고, 상품에 각각에 대한 연관성을 찾아보기 힘들다. 또 단일 구매 패턴은 계산 비용이 작기는 하지만 사용자의 구매 패턴을 정확하게 반영하기 어렵다. 본 논문에서는 이러한 문제를 해결하기 위하여 카테고리 독립적이고, 다중 구매패턴을 고려한 상품추천 서비스의 설계를 제안한다 이를 위하여 단일 항목간의 구조화를 통하여 항목간의 연계성을 고려한 구조를 설계한다.

  • PDF

트위터 분석을 이용한 카테고리별 실시간 트렌드 추출 기법 (Real-time Category Trend Extraction Scheme based on Twitter Analysis)

  • 나병진;김용성;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1581-1584
    • /
    • 2015
  • 최근 소셜 네트워크 서비스상의 데이터를 실시간으로 분석하여 의미있는 정보를 찾아내기 위한 연구가 활발하게 진행되고 있다. 특히, 스마트폰과 같은 스마트 디바이스를 이용하는 많은 사용자들이 실시간으로 발생하는 이벤트를 소셜 네트워크상에 게재하고 서로 공유하면서, 대중들이 관심을 가지는 토픽의 경우 굉장히 빠르게 확산되는 경향을 보이고 있다. 본 논문에서는 이러한 SNS의 특성을 토대로 트위터상의 트윗을 분석하여 여러 분야의 토픽들을 카테고리별로 분류하고, 카테고리별 트렌드를 추출하여 실시간으로 시각화하는 기법을 제안한다. 이를 위해, 트위터를 기반으로 SVM 분류 알고리즘과 Twitter-LDA를 통하여 트윗을 분야별로 분류하고, 각각의 트렌드를 이루는 대표적인 키워드를 선출하여 이를 기반으로 실시간 트렌드를 추출한다. 제안하는 기법의 성능을 평가하기 위해, 분류 특징 선택의 신뢰도를 측정한다.

웹 포털 이용자 로그 데이터에 기반한 개인화 검색 서비스 모형의 설계 및 평가 (Design and Evaluation of a Personalized Search Service Model Based on Web Portal User Activities)

  • 이소영;정영미
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.179-196
    • /
    • 2006
  • 이 연구에서는 한국형 포털에 적합한 커뮤니티 기반 개인화검색 서비스 모형을 제안하였다. 개인화 검색 서비스 모형은 이용자의 관심 주제를 파악하는 과정과 이를, 반영한 검색 결과 재순위화 및 관련 주제 카테고리와 질의어 추천 과정으로 구성된다. 개인화 검색 모형의 유용성을 검증하기 위한 실험에서는 포털 사이트 다음에서 12일간 수집한 이용자 로그 데이터를 사용하였다. 실험 결과 개별 이용자의 주제 카테고리 선정에 사용한 카페 활동성 분석과 신지식 활동성 분석 데이터는 매우 유용한 것으로 나타났으며, 개인화 검색 결과와 추천서비스에 대한 만족도도 비교적 높게 나타났다.