• 제목/요약/키워드: 어휘 가중치

검색결과 59건 처리시간 0.032초

온톨로지를 이용한 맞춤형 여행정보 시스템 (The System of customized Travel Information based on Ontology)

  • 조미영;최창;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.187-189
    • /
    • 2006
  • 본 논문에서는 지능형 여행 정보 제공을 위해 제주여행 온톨로지를 구축하여 사용자별 맞춤형 여행정보 제공 및 검색을 위한 시스템을 제안하고자 한다. 기존의 일반 검색이 제한된 정보에 대한 키워드 매칭이 라면, 온톨로지 기반 검색은 키워드 검색, 사전에 의한 확장 검색, 지식입력에 의한 검색이 모두 가능하여 좀 더 지능적 검색이라 할 수 있겠다. 이러한 온톨로지 검색의 장정으로는 속성값, 분류, 메타 정보 등 관련된 여행정보를 모두 활용할 수 있다는 것과. 유사어 활용이 가능하다는 것이다. 또한 검색 어휘의 역할에 따른 차등적인 가중치값 등을 적용하여 Many-Answers-Problem 해결할 수 있다. 즉, 가장 관련 있는 정보를 상위에 랭크시켜 사용자의 체감 정확률을 향상시킬 수 있다.

  • PDF

지지벡터기계와 카이제곱 통계량을 이용한 스팸 블로그(Splog) 판별 시스템 (A Splog Detection System Using Support Vector Machines and $x^2$ Statistics)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.905-908
    • /
    • 2010
  • 본 연구의 목적은 웹 환경에서 스팸 블로그(Splog)를 자동으로 판별하는 시스템을 개발하는 것이다. 먼저 블로그의 HTML을 제거한 후 품사를 부착하였다. 어휘/품사 쌍을 자질로 사용하였으며 카이제곱 통계량을 이용하여 유용한 자질을 선택하였다. 선택된 자질의 가중치를 벡터로 표현한 후, 지지벡터 기계(Support Vector Machines)를 학습하여 자동으로 스팸 블로그를 판별하는 시스템을 제안하였으며, SPLOG 데이터 집합으로 실험한 결과 F1척도로 90.5%의 정확률을 얻었다.

  • PDF

UWIN을 이용한 접미파생명사 중의성 해소 (Derived Nouns of Suffixes Disambiguation using User-Word Intelligent Network)

  • 배영준;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.432-435
    • /
    • 2012
  • 지식정보화 사회로의 진입으로 언어처리의 필요성은 점차 확대되고 있으나, 현재의 언어처리 기술은 의미분석에 기반하지 않음으로써 많은 한계를 가지고 있다. 본 논문에서는 의미분석의 일환으로 접미사의 중의성 해소를 위해 한국어 사용자 어휘지능망(U-WIN)을 이용한 접미파생명사 분석 방법을 제시한다. 세종 말뭉치에서 중의성 접미사를 포함한 32,647개의 문장을 대상으로 접미사 앞의 어근을 추출하여 U-WIN과 매핑되는 노드에 가중치를 부여한 뒤 이를 접미사 중의성 해소에 사용한다. 동형이의 접미사 49종 중 세종말뭉치에 나타난 25개의 동형이의접미사만을 대상으로 실험한 결과 91.83%의 정확률을 보였다.

딥러닝 모델(BERT)과 감정 어휘 사전을 결합한 음원 가사 감정 분석 (Analysis of Emotions in Lyrics by Combining Deep Learning BERT and Emotional Lexicon)

  • 윤경섭;오종민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.471-474
    • /
    • 2022
  • 음원 스트리밍 서비스 시장은 지속해서 성장해왔다. 그중 최근에 가장 성장세가 돋보이는 서비스는 Spotify와 Youtube music이다. 두 서비스의 추천시스템은 사용자가 좋아할 만한 음악을 계속해서 추천해 줌으로써 많은 사랑을 받고 있다. 추천시스템 성능은 추천에 활용할 수 있는 변수(Feature) 수에 비례한다고 볼 수 있다. 최대한 많은 정보를 알아야 사용자가 원하는 추천이 가능하기 때문이다. 본 논문에서는 기존에 존재하는 감정분류 방법론인 사전기반과 딥러닝 BERT를 사용한 머신기반 방법론을 적절하게 결합하여 장점을 유지하면서 단점을 보완한 하이브리드 감정 분석 모델을 제안함으로써 가사에서 느껴지는 감정 비율을 분석한다. 감정 비율을 음원 가중치 변수로 사용하면 감정 정보를 포함한 고도화된 추천을 기대할 수 있다.

  • PDF

문서분류에서 가상문서기법을 이용한 성능 향상 (Performance Improvement by a Virtual Documents Technique in Text Categorization)

  • 이경순;안동언
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.501-508
    • /
    • 2004
  • 본 논문에서는 문서분류의 학습단계에 가상적합문서기법을 적용하여 성능을 향상시킬 수 있는 방법을 제안한다. 어떤 범주에 대해 적합하다고 판단된 두 개의 적합문서를 결합해서 생성된 문서 또한 적합문서가 된다는 관찰을 통해서, 문서분류기가 학습할 수 있는 새로운 정보를 추가함으로써 분류기의 학습을 돕는다. 제안하는 방법은 학습문서집합에 있는 적합문서들의 쌍을 조합해서 단순히 변환함으로써 가상의 문서를 생성한다. 이 방법에 의해서 생성된 가상 문서는 두 개의 적합문서에 같이 발생하는 어휘들에 대해서는 높은 가중치를 갖고, 문서 내의 어휘 공간이 확장되는 특성을 갖는다. 대량의 문서를 포함하는 TREC-11 필터링 태스크 참여에서 제안한 방법은 제공되는 학습문서를 이용한 기본 성능에 비해 71%의 성능 향상을 보였다. 또한 문서분류 연구에서 일반적으로 비교를 위해 이용하는 실험집합인 Routers-21578에서 학습집합의 적합문서 개수가 100개 이하인 범주에 대해서 기본 학습문서를 이용한 분류기에 비해 11%의 성능향상을 보였다. 가상문서를 계속 추가해 나가면서 성능의 변화를 분석한 결과, 가상문서의 추가는 문서분류기의 학습능력을 도와 성능이 꾸준히 향상되고 있음을 보였다.

텍스타일 기반의 협력적 필터링 기술과 디자인 요소에 따른 감성 분석을 이용한 패션 디자인 추천 에이전트 시스템 (A Fashion Design Recommender Agent System using Collaborative Filtering and Sensibilities related to Textile Design Factors)

  • 정경용;나영주;이정현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권2호
    • /
    • pp.174-188
    • /
    • 2004
  • 제품의 품질 및 가격뿐만 아니라 물질적 풍요로움과 더불어 다변화 되어가는 생활 환경 속에서 소비자의 감성과 선호도를 파악하는 것은 제품 판매 전략의 중요한 성공요소가 되고 있다. 이를 위하여 제품의 기능적 측면뿐만 아니라 개개인의 정서적 감정과 선호도가 반영된 제품의 설계나 디자인 또한 요구되고 있다. 본 연구에서는 사용자의 감성과 선호도를 중심으로 소재를 개발하는 방법의 하나로 협력적 필터링 개인화 기법을 응용하여 패션 디자인 추천 에이전트 시스템(FDRAS-pro)을 제안한다. 텍스타일 기반의 협력적 필터링 기술에서, 예측에 사용될 이웃의 수를 결정하기 위해서 Representative Attribute-Neighborhood 방법을 사용한다. 사용자들간의 유사도 가중치를 계산하기 위해서 피어슨 상관계수(Pearson Correlation Coefficient)를 사용한다. 소재에 대한 사용자의 감성이나 선호도에 대한 텍스타일의 대표 감성 어휘를 추출함으로써 소재 개발을 위한 감성 어휘 데이타베이스를 구축한다. FDRAS-pro는 구축된 감성 어휘 데이타베이스를 기반으로 성향이 비슷한 사용자에게 텍스타일 디자인을 추천한다. 디자인 요소에 따른 감성 분석을 하기 위해서, 텍스타일 디자인을 9가지 디자인 요소(디자인 소재, 모티브대 배경비율, 모티브의 변화도, 해석법, 모티브의 배열, 모티브의 명료성, 명도차, 색상차, 채도차)에 따라 분석하였다. 패션 디자인 추천 시스템으로 개발하여 시스템의 논리적 타당성과 유효성을 검증하기 위해 실험적인 적용을 시도하고자 한다.

온라인게임 채팅에서의 비속어 차단시스템 (A Swearword Filter System for Online Game Chatting)

  • 이성욱
    • 한국정보통신학회논문지
    • /
    • 제15권7호
    • /
    • pp.1531-1536
    • /
    • 2011
  • 온라인 게임의 활성화로 온라인 게임의 폐해도 증가하고 있는데 온라인 게임의 대표적인 폐해 중 하나인 언어 폭력 문제가 심각한 사회문제를 야기하고 있다. 본 논문은 온라인 게임의 채팅에 나타나는 비속어를 자동으로 차단하는 시스템을 제안한다. 우리는 온라인 게임의 채팅창에 나타나는 문장을 수집하였고 비속어 포함 문장과 정상 문장으로 수동으로 분류하였다. 음절 n-gram과 어휘-품사 쌍을 자질로 사용하며 카이제곱 통계량을 이용하여 자질을 선택한다. 선택된 자질들을 이진가중치로 표현하여 지지벡터기계(SVM)를 학습한 후, SVM 분류기로 각 문장의 차단 여부를 결정하였다. 실험 결과, 수집된 데이터에 대해 약 90.4%의 F1 정확률을 얻었다.

지지벡터기계를 이용한 스팸 블로그(Splog) 판별 시스템 (A Splog Detection System Using Support Vector Systems)

  • 이성욱
    • 한국정보통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.163-168
    • /
    • 2011
  • 블로그는 인터넷 공간에서 가장 손쉽게 정보 출간, 토론 참여, 커뮤니티 형성하는 수단이다. 그러나 최근에 광고를 유치하거나 페이지 순위를 올리기 위한 목적의 다양한 스팸 블로그가 범람하고 있다. 본 연구의 목적은 웹 환경에서 이러한 스팸 블로그(Splog)를 자동으로 판별하는 시스템을 개발하는 것이다. 먼저 블로그의 HTML을 제거한 후 품사를 부착하였다. 어휘/품사 쌍을 자질로 사용하였으며 카이제곱 통계량을 이용하여 유용한 자질을 선택하였다. 선택된 자질의 가중치를 벡터로 표현한 후, 지지벡터기계(Support Vector Machines)를 학습하여 자동으로 스팸 블로그를 판별하는 시스템을 제안하였으며, SPLOG 데이터 집합으로 실험한 결과 F1척도로 90.5%의 정확률을 얻었다.

질의생성 모델을 이용한 전자우편 질의응답 시스템 (An E-Mail Question Answering System using Question Generation Model)

  • 장정선;김상범;서희철;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.176-183
    • /
    • 2002
  • 전자우편과 같이 일정한 질의 형식을 가지고 있는 긴 자연어 질의에 대해서 사용자 질의 단어에 가중치를 부과하는 방법과 질의에 대한 정답을 기존의 질의응답 집합에서 유사한 질의를 검색하여 그 정답을 사용자에게 제공하는 전자우편 질의응답 시스템을 제안한다. 사용자의 긴 자연어 질의가 주어지면 질의의 범주와 문장의 중요도 정보를 이용하여 질의에서 사용된 단어가 주제어로 쓰였을 확률을 계산하고, 계산된 확률에 기반하여 중요도를 할당하는 질의생성 모델을 제안한다. 또한 사용자 질의와 기존에 문의되어진 전자우편 질의의 유사도를 단어의 빈도를 고려한 어휘유사도, 한글 시소러스(Thesaurus)를 이용한 의미유사도와 본 논문에서 제안한 질의생성 모델을 이용한 주제 유사도를 이용하여 계산한다. 실험을 위하여 실세계에서 사용 중인 질의응답 집합을 이용하여 실험을 하였으며 각 유사도 계산 방법의 기여도를 비교 평가하고 제안한 질의생성모델이 성능향상에 미치는 영향을 평가하였다.

  • PDF

Na$ddot{i}$ve-Bayesian Classifier를 이 용한 전자 카탈로그 자동 분류 시스템 (Extending Na$ddot{i}$ve Bayesian Classifier for Catalog Classification Systems)

  • 서광훈;이경종;김현철;이태희;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.91-93
    • /
    • 2004
  • B2B Marketplace상에서의 거래에서 나타나는 주요한 특징은 다품종 및 대량의 물품 거래가 n:n거래 관계에 놓여있다는 점과 거래자가 원활한 거래 및 기업 내 관리를 위해 각자의 전자 카탈로그를 이용한 거래를 원한다는 정이다. 하지만 개별적인 전자 카탈로그 사용과 미흡한 표준안은 전자 카탈로그 상호 연계의 걸림돌이 되어 시장 형성의 걸림돌이 되고 있다. B2B Marketplace는 표준 분류체계를 중심으로 거래 대상 상품을 재분류하여 구매 당사자간의 거래 대상 물품에 대한 상호 애핑을 지원하는 방법 등으로 이를 충족시키려 하고 있다. 하지만 요청되는 다량의 물품에 대해 매번 분류를 수행해야 하는 고비용의 작업이라는 문제점이 있다. 본 논문에서는 이를 극복하기 위하여 기계학습 기법을 이용한 전자 카탈로그 상품 자동분류기를 모델링하고 이를 구현하는 것에 초점을 두었다. 상품의 속성별로 분류에 끼치는 영향력이 다론 것이라는데 착안하여 전자 카탈로그를 상품 단위로 재 모델링 하였으며 속성별 정보가 풍부하지 못한 정물 극복하기 위하여 속성값을 어휘 단위로 구분한 데이터를 추가 하는 확장 모델을 정의하였다. 또한 해당 모델을 학습시키기 위한 알고리즘으로는 속성별로 다른 가중치를 부여 할 수 있도록 확장된 Naive Bayesian Classifier를 고안하였다. 그리고 이론 B2B Market Place상의 실 데이터에 적용하여 고안된 모델의 유효성을 검증하였다.

  • PDF