• 제목/요약/키워드: Data Miming

검색결과 5건 처리시간 0.023초

BOOTSTRAP TESTS FOR THE EQUALITY OF DISTRIBUTIONS

  • Ping, Jing
    • Journal of applied mathematics & informatics
    • /
    • 제7권2호
    • /
    • pp.467-482
    • /
    • 2000
  • Testing equality of two and k distributions has long been an interesting issue in statistical inference. To overcome the sparseness of data points in high-dimensional space and deal with the general cases, we suggest several projection pursuit type statistics. Some results on the limiting distributions of the statistics are obtained, some properties of Bootstrap approximation are investigated. Furthermore, for computational reasons an approximation for the statistics the based on Number theoretic method is applied. Several simulation experiments are performed.

설명기반 유전자알고리즘을 활용한 경영성과 데이터베이스이 데이터마이닝 (Data-Mining in Business Performance Database Using Explanation-Based Genetic Algorithms)

  • 조성훈;정민용
    • 경영과학
    • /
    • 제18권1호
    • /
    • pp.135-145
    • /
    • 2001
  • In recent environment of dynamic management, there is growing recognition that information and knowledge management systems are essential for efficient/effective decision making by CEO. To cope with this situation, we suggest the Data-Miming scheme as a key component of integrated information and knowledge management system. The proposed system measures business performance by considering both VA(Value-Added), which represents stakeholder’s point of view and EVA (Economic Value-Added), which represents shareholder’s point of view. To mine the new information & Knowledge discovery, we applied the improved genetic algorithms that consider predictability, understandability (lucidity) and reasonability factors simultaneously, we use a linear combination model for GAs learning structure. Although this model’s predictability will be more decreased than non-linear model, this model can increase the knowledge’s understandability that is meaning of induced values. Moreover, we introduce a random variable scheme based on normal distribution for initial chromosomes in GAs, so we can expect to increase the knowledge’s reasonability that is degree of expert’s acceptability. the random variable scheme based on normal distribution uses statistical correlation/determination coefficient that is calculated with training data. To demonstrate the performance of the system, we conducted a case study using financial data of Korean automobile industry over 16 years from 1981 to 1996, which is taken from database of KISFAS (Korea Investors Services Financial Analysis System).

  • PDF

단어 빈도와 α-cut에 의한 연관 웹문서 분류를 이용한 추천 시스템 (Recommendation System using Associative Web Document Classification by Word Frequency and α-Cut)

  • 정경용;하원식
    • 한국콘텐츠학회논문지
    • /
    • 제8권1호
    • /
    • pp.282-289
    • /
    • 2008
  • 협력적 필터링을 개선하기 위하여 많은 기술들이 개발되고 실용화되었으나 아이템의 연관 관계를 정확하게 반영하지는 못한다. 본 논문에서는 협력적 필터링의 문제점을 보완하기 위하여 단어 빈도와 ${\alpha}$-cut에 의한 연관 웹문서 분류를 이용한 추천 시스템을 제안한다. 제안된 방법은 형태소 분석을 통한 웹문서에서 단어를 추출하고 빈도 가중치를 계산한다. 추출된 단어를 Apriori 알고리즘을 이용해서 연관 규칙을 생성하고 신뢰도에 단어 빈도 가중치를 적용한다. 그리고 연관 규칙 하이퍼그래프 분할을 이용하여 연관 단어간의 유사도를 계산한다. 마지막으로 유사 클래스를 기반으로 연관 웹문서를 ${\alpha}$-cut을 이용하여 분류하고 개선된 코사인 유사도를 이용하여 유사도를 계산한다. 실험 결과 제안한 방법이 기존의 방법들보다 우수함을 확인하였다.

소셜 컴퓨팅을 위한 연구·학습 주제의 계층적 지식기반 구축 (Building Hierarchical Knowledge Base of Research Interests and Learning Topics for Social Computing Support)

  • 김선호;김강회;여운동
    • 한국콘텐츠학회논문지
    • /
    • 제12권12호
    • /
    • pp.489-498
    • /
    • 2012
  • 본 논문은 연구 학습 주제 지식베이스를 통한 소셜컴퓨팅 지원에 관한 연구로 두 가지 하부 연구로 구성되었다. 첫 번째 연구는 다양한 학문분야에서 전자 도서관 이용자들의 연구 및 학습 주제를 추출하기 위해 분야별로 분류가 잘 되어 있는 NDLTD Union catalog의 석박사 학위 논문 (Electronic Theses and Dissertations : ETDs)을 분석하여 계층적 지식베이스를 구축하는 연구이다. 석박사 학위 논문 이외에 ACM Transactions 저널의 논문과 컴퓨터 분야 국제 학술대회 웹사이트도 추가로 분석하였는데 이는 컴퓨팅 분야의 보다 세분화된 지식베이스를 얻기 위해서이다. 계층적 지식베이스는 개인화 서비스, 추천시스템, 텍스트 마이닝, 기술기회탐색, 정보 가시화 등의 정보서비스와 소셜컴퓨팅에 유용하게 사용될 수 있다. 본 논문의 두 번째 연구 부분에서는 우리가 만든 계층적 지식기반을 활용하여 4개의 사용자 커뮤니티 마이닝 알고리즘 중에서 우리가 수행중인 소셜 컴퓨팅 연구, 즉 구성원간의 결합도에 기반한 추천시스템에 최상의 성능을 보이는 그룹핑 알고리즘을 찾는 성능 평가 연구 결과를 제시하였다. 우리는 이 논문을 통해서 우리가 제안하는 연구 학습 주제 데이터베이스를 사용하는 방법이 기존에 사용자 커뮤니티 마이닝을 위해 사용되던 비용이 많이 필요하고, 느리며, 개인정보 침해의 위험이 있는 인터뷰나 설문에 기반한 방법을 자동화되고, 비용이 적게 들고, 빠르고, 개인정보 침해 위험이 없으며, 반복 수행시에도 일관된 결과를 보여주는 방법으로 대체할 수 있음을 보이고자 한다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.