• 제목/요약/키워드: 데이타마이닝

검색결과 106건 처리시간 0.023초

연관 단어 마이닝을 사용한 웹문서의 특징 추출 (Feature Extraction of Web Document using Association Word Mining)

  • 고수정;최준혁;이정현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.351-361
    • /
    • 2003
  • 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존의 방법은 주기적으로 프로파일을 갱신해야하는 문제점, 명사구를 처리해야 하는 문제점, 명사구를 처리해야 하는 문제점, 색인어에 대한 화률을 계산해야 하는 문제점 등을 포함한다. 본 논문에서는 연관 단어 마이닝을 사용하여 문서의 특징을 효율적으로 추출하는 방법을 제안한다. 제안한 방법은 Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 백터로 표현한다. Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 벡터로 표현한다. Apriori 알고리즘을 사용하여 문서로부터 추출된 연관 단어는 이를 구성하는 수와 신뢰도와 지지도에 따라 차이를 보인다. 따라서 본 논문에서는 문서 분류의 성능을 향상 시키기 위허ㅐ 연관 단어를 구성하는 단어의 수와 지지도를 결정하는 효율적인 방법을 제안한다. 연관 단어 마이닝을 이용한 특징 추출 방법은 프로파일을 사용하지 않으므로 프로파일 갱신의 필요성이 없으며, 색인어에 대한 확률을 계산하지 않고도, Apriori 알고리즘의 신뢰도와 지지도에 따라 자동으로 명사구를 생성하므로 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존 방법에 대한 문제점을 해결한다. 제안한 방법의 성능을 평가하기 위해 Naive Bayes 분류자를 이용한 문서 분류에 적용하여 정보이득, 역문헌빈도의 방법과 비교하며, 또한 색인어의 연관성과 확률 모델을 기반으로 단어의 연관성을 이용하여 문서 분류를 하는 기존의 방법과 각각 비교한다.

서픽스 검사를 이용한 단계적 순차패턴 분할 탐사 방법 (A Partition Mining Method of Sequential Patterns using Suffix Checking)

  • 허용도;조동영;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제5권5호
    • /
    • pp.590-598
    • /
    • 2002
  • 효율적인 순차패턴 마이닝을 위해서는 후보패턴의 생성 비용을 줄이고 동시에 생성된 후보패턴에 대한 탐색공간을 줄여야 한다. 그러나 이전에 개발된 알고리즘들은 이러한 문제들을 효율적으로 해결하지 못하고 있다. 특히 Apriori-like 방법들은 알고리즘은 단순하지만 많은 크기의 후보패턴 집합생성, 대용량 데이터 베이스의 반복적인 탐사 등의 문제점이 있고, PrefixSpan[2]은 단계별로 분할된 프레픽스 프로젝티드(prefix projected) 데이터 베이스들을 구성 하여 후보패턴의 지지도 계산을 위한 탐색 공간을 줄이지만 프로젝티드 데이타베이스들의 구성비용이 크다는 문제점이 있다. 이러한 문제점들의 개선을 위해 본 논문에서는 새로운 순차패턴 마이닝 방법인 Suffixspan(Suffix Checked Sequential Pattern mining)을 제 안한다. Suffixspan은 순차패턴 집합의 단계별 분할특성과 서픽스(suffix) 특성을 이용하여 적은 비용으로 작은 크기의 후보패턴 집합을 생성하고, 1-프레픽스 프로젝티드 데이타베이스를 구성하여 후보패턴 검사를 위한 탐색공간을 줄인다.

  • PDF

멀티모달 방법론과 텍스트 마이닝 기반의 뉴스 비디오 마이닝 (A News Video Mining based on Multi-modal Approach and Text Mining)

  • 이한성;임영희;유재학;오승근;박대희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권3호
    • /
    • pp.127-136
    • /
    • 2010
  • 정보 통신기술이 발전함에 따라 멀티미디어 데이터를 포함하는 디지털 기록물의 양은 기하급수적으로 증가하고 있다. 특히 뉴스 비디오는 시대상을 반영하는 풍부한 정보를 내포하고 있으므로, 이를 효과적으로 관리하고 분석하기 위한 뉴스 비디오 데이터베이스 및 뉴스 비디오 마이닝은 광범위하게 연구되어왔다. 그러나 현재까지의 뉴스 비디오 관련 연구들은 뉴스 기사에 대한 브라우징, 검색, 요약에 치중되어 있으며, 뉴스 비디오에 내재되어 있는 풍부한 잠재적 지식을 탐사하는 고수준의 의미 분석 단계에는 이르지 못하고 있다. 본 논문에서는 뉴스 비디오 클립과 스크립트를 동시에 이용하는, 멀티모달 방법론과 텍스트 마이닝 기반의 뉴스 비디오 마이닝 시스템을 제안한다. 제안된 시스템은 텍스트 마이닝의 군집분석을 통해 뉴스 기사들을 자동 분류하고, 분류 결과에 대해 기간별 군집 추이그래프, 군집성장도 분석 및 네트워크 분석을 수행함으로써, 뉴스 비디오의 기사별 주제와 관련한 다각적 분석을 수행한다. 제안된 시스템의 타당성 검증을 위하여 "2007년 제2차 남북 정상회담" 관련 뉴스 비디오를 대상으로 뉴스 비디오 분석을 수행하였다.

확률적 다차원 연속패턴의 생성을 위한 효율적인 마이닝 알고리즘 (An Efficient Mining Algorithm for Generating Probabilistic Multidimensional Sequential Patterns)

  • 이창환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권2호
    • /
    • pp.75-84
    • /
    • 2005
  • 연속패턴은 다양한 분야에서 사용되는 데이타 마이닝 기법의 한 종류이다. 하지만 현재의 연속 패턴 방법은 한개의 속성내에서의 패턴만을 감지할 수 있으며 속성간의 패턴을 생성할 수 없다. 다차원의 연속패턴은 일차원에 비하여 훤씬 유용한 정보를 제공할 수 있다. 본 연구에서는 Hellinger 엔트로피 함수를 사용하여 다차원의 연속패턴을 생성하는 방법을 게시한다 기존의 연속패턴방법과 달리 본 방법에서는 각 연속패턴의 중요도를 자동으로 계산할 수 있다. 또한 계산의 복잡도를 감소시키기 위한 다수의 법칙이 개발되었으며 다수의 실험 결과를 제시하였다.

다중크로스셀링 기반의 개인 상품 추천 시스템의 설계 (A Design of Goods Recommendation System based on Multi-crossselling)

  • 윤종찬;김종진;윤성대
    • 한국멀티미디어학회논문지
    • /
    • 제9권9호
    • /
    • pp.1095-1106
    • /
    • 2006
  • 전자상거래시스템의 효율적인 운영과 관리를 위해서 더욱 많은 노력이 요구되고 있으며 고객의 요구에 대해서 가장 적절한 상품 정보를 제공함으로서 만족을 극대화할 수 있어야 한다. 이를 위해서 많은 지능형 에이전트기술을 사용한 전자상거래시스템이 도입되고 있다. 본 논문에서는 전자상거래시스템에서 개인 상품 추천 지원을 위한 사례기반추론기법과 다중크로스 셀링기법(Multi-Crossselling)을 기반으로 한 상품 추천시스템을 제안하였다. 제안한 시스템은 다중크로스셀링 기법을 통해 고객패턴의 유사값에 가까운 여러 상품을 추출하고 사례기반추론기법을 통해 특정 조건에서 고객의 요구에 대해 적절한 상품 정보를 제공하고자 한다.

  • PDF

Wasserstein 거리를 이용한 연속형 변수 이산화 기법 (Discretization Method for Continuous Data using Wasserstein Distance)

  • 하상원;김한준
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.159-169
    • /
    • 2018
  • 연속형 변수의 이산화(Discretization)는 양적 변수(Quantitative variable)를 질적 변수(Qualitative variable)로 변형시켜 데이터 마이닝(Data mining) 기법 등 다양한 알고리즘의 성능을 향상시키는데 사용 목적이 있다. 데이터에 적절한 이산화 기법을 사용한다면 분류 알고리즘에 대해 더 좋은 성능뿐 아니라 간결한 결과 해석, 속도 향상까지 기대할 수 있다. 현재까지 다양한 이산화 기법들이 연구되었으며, 현재도 이산화와 관련한 연구에 수요가 많다. 본 논문은 데이터의 클래스에 대한 연속형 변수 값의 분포를 고려하여, Wasserstein 거리를 이용해 분할점을 자동 설정하는 이산화 기법을 제안한다. 본 논문에서 제안하는 기법과 우수함이 입증된 기존의 이산화 기법에 대해 성능비교를 통해 제안 기법의 우수성을 보인다.

당뇨병 모바일 앱 관련 연구동향: 텍스트 네트워크 분석 및 토픽 모델링 (Research Trend on Diabetes Mobile Applications: Text Network Analysis and Topic Modeling)

  • 박승미;곽은주;김영지
    • Journal of Korean Biological Nursing Science
    • /
    • 제23권3호
    • /
    • pp.170-179
    • /
    • 2021
  • Purpose: The aim of this study was to identify core keywords and topic groups in the 'Diabetes mellitus and mobile applications' field of research for better understanding research trends in the past 20 years. Methods: This study was a text-mining and topic modeling study including four steps such as 'collecting abstracts', 'extracting and cleaning semantic morphemes', 'building a co-occurrence matrix', and 'analyzing network features and clustering topic groups'. Results: A total of 789 papers published between 2002 and 2021 were found in databases (Springer). Among them, 435 words were extracted from 118 articles selected according to the conditions: 'analyzed by text network analysis and topic modeling'. The core keywords were 'self-management', 'intervention', 'health', 'support', 'technique' and 'system'. Through the topic modeling analysis, four themes were derived: 'intervention', 'blood glucose level control', 'self-management' and 'mobile health'. The main topic of this study was 'self-management'. Conclusion: While more recent work has investigated mobile applications, the highest feature was related to self-management in the diabetes care and prevention. Nursing interventions utilizing mobile application are expected to not only effective and powerful glycemic control and self-management tools, but can be also used for patient-driven lifestyle modification.

블로그 연결망의 성향 판정 방안 (An Approach for Determining Propensities of Blog Networks)

  • 윤석호;박선주;김상욱
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권3호
    • /
    • pp.178-188
    • /
    • 2009
  • 블로그(blog)는 사용자가 글을 작성하여 게시할 수 있는 일종의 개인 웹사이트이며, 블로그는 다른 블로그와 관계를 맺을 수 있다 본 논문에서는 블로그와 블로그 간의 관계들로 이루어진 연결망을 블로그 연결망(blog network)이라고 정의한다. 블로그 연결망은 그 내부에 게시된 글의 목적에 따라 정보 중시 성향과 친분 중시 성향을 가질 수 있다. 블로그 연결망이 가지고 있는 각 성향의 정도는 블로그 연결망의 비즈니스 정책 결정에 중요한 요소로서 사용된다. 본 논문에서는 주어진 블로그 연결망과 두 성향의 정도를 판정하는 방안에 관하여 논의한다. 먼저, 데이타 마이닝 기법의 하나인 분류(classification)를 이용하여 블로그 연결망의 기본 단위인 관계 성향의 정도를 판정하고, 그 결과를 이용하여 주어진 연결망의 전체 성향의 정도를 판정한다. 또한, 블로그 연결망의 규모에 따라 성향의 정도가 좌우되는 문제를 해결하기 위한 기법을 제안한다. 본 논문에서는 제안하는 방안의 우수성을 검증하기 위하여 실제 블로그 데이타를 이용한 다양한 실험을 수행한다. 실험 결과에 의하면, 판정된 관계 성향의 정도는 두 성향에 대하여 모두 약 93%의 높은 정확도를 보였다. 또한, 실제 블로그 연결망의 각 성향의 정도를 판정함으로써 제안하는 방안이 정보 중시 성향과 친분 중시 성향의 연결망을 올바르게 판정할 수 있는 지를 보였다.

상품 리뷰 요약에서의 문맥 정보를 이용한 의견 분류 방법 (A Sentiment Classification Method Using Context Information in Product Review Summarization)

  • 양정연;명재석;이상구
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권4호
    • /
    • pp.254-262
    • /
    • 2009
  • e비즈니스가 활발히 이루어지면서 소비자들은 온라인 쇼핑몰올 통해 수많은 상품을 접할 수 있게 되었고, 상품구매 시 다른 사람들의 리뷰를 참고하게 되었다. 하지만, 리뷰의 수도 많아짐에 따라 소비자가 모든 리뷰들을 살펴보기가 힘들다는 문제점이 대두되었으며 이를 해결하기 위해서 리뷰의 상품에 대한 평가를 요약하고 성향을 파악하는 오피니언 마이닝 연구가 나타나게 되었다. 본 논문에서는 상품리뷰를 대상으로 오피니언 마이닝을 수행하는 경우 어휘의 의견 성향을 파악할 때, 문맥정보를 활용하여 기존의 의견분류방법 보다 좀 더 정확한 의견 판단이 가능한 방법에 대해 다루고 있다. 이를 위해, 어휘가 사용될 때의 문맥정보를 정의하고 이를 의견분류에 적용하는 방법을 제안하였으며, 실험을 통하여 기존 연구 보다 상황별 알맞은 의견분류가 가능함을 보였다. 또한 수작업으로 말뭉치의 핵심 어휘들을 정의했던 기존 연구들에서의 방식에서 벗어나, 리뷰본문과 리뷰점수를 활용하여 자동으로 상황에 맞는 말뭉치를 구축하는 방법도 제안하였다. 이를 통해 상품리뷰에 나타난 어휘들의 문맥에 맞는 의미 성향을 정확하고 쉽게 판별해 낼 수 있게 되었다.

EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템 (An Example-Based Natural Language Dialogue System for EPG Information Access)

  • 김석환;이청재;정상근;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.123-130
    • /
    • 2007
  • 본 논문에서는 EPG 정보 검색을 위한 자연어 대화 시스템에 대해 논한다. 자연어 대화 시스템 구축을 위한, 대화 예제를 이용한 상황 기반 대화 관리 방법론은, 효율적이고 실용적인 대화 시스템 구축을 가능하게 한다. 대화 시스템은 사용자 발화에 대해 적합한 시스템 응답 발화를 출력하는 과정으로 진행되며, 이를 위해, 사용자 발화 의미 분석, 대화 관리, 시스템 응답 발화 생성의 과정을 거친다. 정확하고 신속한 정보의 전달이 중요한 EPG 정보 검색 도메인의 특성상 EPG 데이타베이스의 관리 및 갱신이 중요한 요소로 작용한다. 이를 위해 웹마이닝 기반의 EPG 데이타베이스 관리자를 구현함으로써 데이타베이스 구축에 필요한 비용을 최소화하고, 신속하고 정확한 정보를 제공할 수 있었다. 실험 결과를 통해 본 시스템이 EPG 정보 검색을 위해 적은 비용으로 높은 성능을 보이고 있음을 확인한다.