• 제목/요약/키워드: 가중치 마이닝

검색결과 116건 처리시간 0.023초

신경망에 기반한 개인화 기술 (A Personalization Technology Based on Neural Networks)

  • 김종수;도영아;류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.28-30
    • /
    • 2001
  • 현 인터넷상에서 취향에 맞는 항목(상품) 정보를 사용자에게 추천해 주는 개인화 기술은 대부분 특정 사용자와 유사한 선호도를 갖는 다른 사용자들의 특정 항목에 대한 선호도를 바탕으로 항목의 선호도를 추정하는 협력적 추천 기술을 적용하고 있다. 이중 최근접 이웃 방법은 적용하기가 용이한 반면 항목간의 가중치를 고려하지 못함으로써 추천의 정확도가 크게 떨어지는 문제점이 있다. 연관규칙 방법은 다른 항목에 대한 선호도 자료로부터 데이터 마이닝 기법을 적용하여 항목 선호에 대한 연관규칙을 추출하고 그 규칙을 사용하여 어떤 항목의 선호도를 추정한다. 따라서 항목들 간의 중요도가 연관규칙의 지지도나 신뢰도 등으로 나타난다고 할 수 있으나, 단순히 항목들간의 연관관계 즉 표면적인 연관관계에 의하여 선호도를 결정함으로써 항목들간의 어떤 내용적인 공통성 또는 어떤 상위개념에 의한 선호도가 고려되지 않음으로써 역시 정확도가 떨어지는 문제점이 있다. 본 논문에서는 추천의 정확도를 향상시키기 위한 신경망 추천 방법에 대해 분석하고, 내용기반 추천과 협력적 추천을 병합한 신경망 추천 방법을 제안한다. 또한, 다른 협력적 추천 방법과의 비교를 통하여 본 추천 방법의 장점과 성능의 우수함을 보인다.

  • PDF

SNS 비정형 데이터의 한국어 다중감성 분석 기법 (Korean Multiple Sensibility Analysis Technique of SNS Unstructured Data)

  • 김소연;유헌창
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2018년도 하계학술대회
    • /
    • pp.147-149
    • /
    • 2018
  • 음성인식, 행동패턴인식, 텍스트마이닝 등 사람의 자연스러운 사회적인 활동을 통해 감성을 분석하려는 연구는 지속적으로 증가하고 있다. 특히 SNS는 현대사회에서 없어서는 안 될 소통의 도구로 자리 잡았기 때문에 SNS의 비정형데이터를 이용한 감성분석은 마케팅 분야에서 중요한 활용도구로 사용되고 있다. 이러한 추세에 따라 한국어에 대한 감성인식 역시 다방면으로 분석, 활용되고 있고 한국어의 어순과 표현방식, 중의성, 방언 등의 몇 가지 특징으로 인해 영어와는 다른 방식으로의 접근방식에 대한 필요성이 많은 연구에서 논의되고 있다. 따라서, 이 연구에서는 이러한 한국어의 특징을 수용하여 분석할 수 있도록 시계열 분석에 유용한 LSTM과 중복단어에 대한 가중치를 적용하여 한국어 감성분석을 진행해보고자 한다.

  • PDF

단백질 모티프간 연관성 탐사 (Exploring Association Among Protein Motifs)

  • 이현숙;이도헌
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.47-50
    • /
    • 2002
  • 단백질 모티프(motif)란 유사한 기능을 가진 여러 단백질 서열에서 공통적으로 발견되는 패턴으로서 단백질의 기능을 예측하는 단서로 활용된다. 현재 Prosite, Pfam 등의 데이터베이스에서 정규식(regular expression), 가중치 행렬(weighted matrix). 은닉 마코프 모델(hidden Markov model)의 형태로 4천여종 이상의 모티프가 등록되어 있다. 하지만, 이러한 데이터베이스는 모티프와 단백질간의 일대일 관계만을 저장하고 있기 때문에, 모티프 간의 연관성을 파악하기는 어렵다. 본 논문에서는 모티프 간의 연관 관계를 연관 규칙의 형태로 발견하는 데이터 마이닝 기법을 제시한다. 아울러 HITS 데이터베이스로부터 입수한 단백질-모티프 데이터베이스에 본 기법을 적용함으로써 상당히 높은 연관성을 갖는 모티프 집단이 실제로 존재한다는 것을 밝힌다.

  • PDF

항목집합의 거리를 이용한 다중데이터베이스 클러스터링 (A MultiDatabase Clustering using Distance of Itemsets)

  • 김진현;박성련;윤성대
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1567-1570
    • /
    • 2003
  • 장바구니 데이터들로 구성된 다중데이터베이스를 마이닝 하기 위한 선처리 작업으로는 Ideal&Goodness 기법이 있으며, Ideal&Goodness기법은 유사한 항목이 존재하는 데이터베이스간의 식별이 불가능하다는 단점이 있다. 그러므로 본 논문에서 제안하는 기법은 항목으로만 구성된 집합을 생성하여 데이터베이스간의 거리를 측정하고 항목집합간의 식별능력을 향상시키기 위하여 항목과 지지도를 갖는 항목 데이터 집합을 생성하고 지지도에 대한 확률을 계산한 후, 이를 비교 연산하여 가중치를 계산한다. 본 논문에서는 장바구니 분석을 위한 선처리 단계로써 활용 가능한 클러스터링 기법을 제안하며 성능평가를 통하여 데이터베이스간의 우수한 식별 능력을 보인다.

  • PDF

학술DB에서 SNA(Social Network Analysis) 기법을 이용한 연관검색어 제공방안 연구 (A Study on Providing Relative Keyword using The Social Network Analysis Technique in Academic Database)

  • 김경용;서정연;선충녕
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.79-82
    • /
    • 2011
  • 본 논문은 다양한 주제 분야의 연구 성과물을 제공하는 학술DB에서 주제어(Keyword) 정보를 바탕으로 SNA(Social Network Analysis)기법을 적용해 검색어와 연관도가 높은 연관검색어를 제공하는 것을 그 목적으로 한다. 이를 위해 주제어들 간의 가중치(Weight)를 계산한 뒤 Ego Network 분석을 통해 검색어와 연관된 연관주제어를 추출하고 이를 기존 학술DB에서 제공한 연관검색어와 비교 정리하였다. 그리고 정리된 결과를 연관규칙 마이닝기법, 유사계수를 적용해 연관도측면에서 비교 평가하였다.

  • PDF

데이터 마이닝을 이용한 화장품 추천 시스템 (Cosmetics Recommendation System using Data Mining)

  • 장민혜;허윤희;이종호;박두순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1339-1341
    • /
    • 2012
  • 최근 전자상거래 시장은 시간과 장소의 제약이 없어 무한히 증가되고 있는 추세이다. 화장품은 눈으로 봐서 자신에게 맞는 상품을 선택하기가 어렵다. 본 논문에서는 사용자의 연령, 관심사, 사용자가 마이 페이지에 추가한 위시리스트 등의 세 가지 정보에 가중치를 부여하여 사용자와 비슷한 유사도를 보인 회원에게 화장품을 추천하는 시스템이다. 또한, 기존 사용자들의 관심도를 보여주기 위하여 블러그 정보를 제공한다.

연관규칙 흥미성 척도의 실용성 향상을 위한 장바구니 크기 효과 반영 방안 (Utilizing the Effect of Market Basket Size for Improving the Practicality of Association Rule Measures)

  • 김원서;정승렬;김남규
    • 정보처리학회논문지D
    • /
    • 제17D권1호
    • /
    • pp.1-8
    • /
    • 2010
  • 연관규칙 마이닝은 물품들 간의 동시 구매 패턴 파악에 사용되는 대표적 마이닝 기법 중 하나로, 카탈로그 설계, 교차판매, 매장배치 등 다양한 마케팅 전략 수립에 활용된다. 방대한 데이터로부터 도출된 많은 연관규칙 중 수익성이 있는 규칙만을 식별해 내는 작업은 지나치게 많은 시간 및 비용을 필요로 한다. 따라서 연관규칙들의 흥미성 평가 과정을 신속하고 체계적으로 수행하기 위해 다양한 흥미성 척도들이 고안되어 왔다. 하지만 신뢰도와 지지도를 비롯한 대다수의 척도들은 대상 물품들의 발생 빈도수에만 근거하여 도출되므로, 실제 판매 현상을 정확하게 반영하지 못한다는 한계를 갖는다. 예를 들어, 기존의 척도는 매우 큰 장바구니에서 동시 구매된 한 건의 거래와 작은 크기의 장바구니에서 동시 구매된 한 건의 거래를 동일한 빈도로 측정한다. 그런데 매우 큰 장바구니에서는 서로 연관관계가 없는 물품들이 우연히 동시에 존재할 가능성이 크므로, 이에 대한 보정이 이루어지는 것이 타당하다. 기존의 척도들과 달리, 본 논문에서는 장바구니 크기 효과를 반영한 흥미성 척도를 새롭게 소개한다. 제안하는 척도는 큰 바구니에서 발생한 패턴과 작은 바구니에서 발생한 패턴에 대해 상이한 가중치를 부여하는 방식으로 계산됨으로써, 우연히 발생한 패턴으로 인해 결과가 왜곡되는 현상을 최소화할 수 있을 것으로 기대된다. 또한, 시뮬레이션 데이터 및 실 데이터에 대한 실험을 통해 제안하는 척도와 기존 척도가 다양한 환경 하에서 보이는 정확성과 일관성을 분석하고 그 결과를 제시하였다.

텍스트마이닝 기법을 활용한 교육관점에서의 메타버스 관련 이슈 탐색 - 뉴스 빅데이터를 중심으로 (Exploring Issues Related to the Metaverse from the Educational Perspective Using Text Mining Techniques - Focusing on News Big Data)

  • 박주연;정도헌
    • 산업융합연구
    • /
    • 제20권6호
    • /
    • pp.27-35
    • /
    • 2022
  • 본 연구는 뉴스 빅데이터에 나타난 메타버스 관련 이슈들을 교육관점에서 분석하여 그 특징을 탐색하고, 메타버스의 교육적 활용가능성 및 미래교육에 대한 시사점을 제공하는데 목적이 있다. 이를 위해 포털사이트에서 검색되는 메타버스 관련 뉴스 데이터를 41,366건 수집하였고, 대표적인 용어 가중치 모델인 TF-IDF를 이용하여 추출된 모든 키워드의 가중치 값을 계산하여 순위화한 후, 워드클라우드로 시각화 분석을 수행하였다. 또한 정교한 확률기반 텍스트마이닝 기법인 토픽모델링(LDA)을 활용하여 주요 토픽들을 분석하였다. 연구결과 교육관점에서 메타버스의 핵심 이슈로는 플랫폼 산업, 미래인재, 기술의 확산 등과 같은 주제가 도출되었다. 또한, 기술, 직업, 교육이라는 세 개의 핵심 주제로 2차 데이터 분석을 실시한 결과 미래교육에서 메타버스는 교육플랫폼의 혁신, 미래 직업의 혁신, 미래 역량의 혁신과 관련한 이슈를 갖는 것으로 나타났다. 본 연구는 방대한 양의 뉴스 빅데이터를 단계적으로 분석하여 교육관점에서 이슈를 도출하고 미래교육에 대한 시사점을 제공하였다는 데 의의가 있다.

유사 비디오 데이터 집합에서 효율적인 특성정보 프로파일 생성 기법 (Efficient Generation of a Feature Profile in a Set of Similar Video Data)

  • 박동철;장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제12D권2호
    • /
    • pp.219-232
    • /
    • 2005
  • 산업정보사회가 발달함에 따라 다양한 형태의 비디오 데이터들이 여러 분야에서 대량으로 생성되고 있다. 이에 따라 이들의 가공을 통해 비디오에 나타난 의미 정보를 추출하려는 다양한 접근들이 시도되고 있으며, 근래 들어 데이터 마이닝 기법을 응용한 특성정보 프로파일 생성 방법에 대한 관심이 증대되고 있다. 그러나 기존의 연구에서는 시공간적으로 방대한 비디오 데이터의 특징으로 인해 해당 분야에 대한 연구가 소극적으로 진행되어왔다. 본 논문에서는 유사한 의미를 나타내는 비디오 데이터 집합에서 의미있는 지식을 추출하는 특성정보 프로파일 생성 기법을 제안한다. 더불어, 특성정보 프로파일 생성과정의 효율적인 수행을 위해서 다양한 추가 고려 사항을 제시한다. 전체 특성 정보들 중에서 주요 정보에만 집중함으로써 데이터 양을 감소시키는 방법, 잡음 요소를 제거하고 관심영역을 설정하여 데이터 양을 감소시키는 방법 및 동적인 영역에 가중치를 부여하여 추출된 정보의 정확도를 향상시키는 방법 등이 포함된다. 끝으로, 실험용 비디오 데이터에 대하여 논문에서 제안된 다양한 압축 방법을 적용하여 클러스터링을 수행하고 이를 통해 구해진 특성 정보 프로파일과 원본 비디오 데이터의 특성정보와 비교하여 본 논문에서 제시한 다양한 압축 알고리즘을 검증한다.

항만 경쟁력 평가를 위한 유사도 기반의 이산형 평균 알고리즘 (A Dispersion Mean Algorithm based on Similarity Measure for Evaluation of Port Competitiveness)

  • 추봉성;이철영
    • 한국항해항만학회지
    • /
    • 제28권3호
    • /
    • pp.185-191
    • /
    • 2004
  • 평균법과 클러스터링은 다속성 평가문제에서 널리 쓰이고 있는 중요한 데이터 마이닝 기법들이다. 그러나, 다양한 다속성 평가 문제에서 데이터 마이닝을 할 때, 데이터들의 특징은 그 중요성이 달라질 수 있기 때문에 이러한 데이터의 중요도 차이를 고려해야 할 필요가 있다. 따라서, 이러한 기법들은 데이터의 선택 및 중요도 등과 같이 그 특징을 얼마나 잘 반영하는 지가 중요하다. 게다가, 산술평균법의 경우에는 우선순위 및 가중치로 정의되는 평가구조에서 적합한 결과를 산출하기에는 한계가 있을뿐 만 아니라, 평가자 그룹별 특징을 반영하기 곤란하다. 따라서, 본 연구에서는 기하학적 도형을 바탕으로 유사도를 평가하여, 평가자 그룹별로 특징지어지는 이산적인 환경에서의 평균을 산출하는 알고리즘을 제안하였다. 본 알고리즘의 핵심사항 중 하나는, 항목별 우선순위의 혼돈없이 유사도를 평가할 수 있다는 점이다.