• Title/Summary/Keyword: 데이터 척도

Search Result 684, Processing Time 0.035 seconds

Application of Data Cube to Identify Differentially Expressed Proteins by Disease (질병 의존 단백질 도출을 위한 데이터 큐브의 응용)

  • 김단비;이원석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.268-270
    • /
    • 2004
  • 주어진 셀이나 조직에 발현된 단백질 프로파일의 구조적인 분석을 다루는 단백질체학(Proteomics) 연구에 있어서, 질병에 대한 마커 단백질(marker proteins)을 도출(identification)하는 것은 핵심 논점 중 하나이다. 수십 개의 샘플로부터 추출한 셀이나 조직 내에는 수많은 단백질이 포함되어 있으며, 존재하는 단백질의 질병에 의한 발현량(expression level) 변화 및 임상 특성에 의한 영향을 분석하기 위해서 데이터베이스와 데이터 마이닝 기술의 활용이 효과적이다. 본 논문에서는 질병 일 임상 특성에 따른 단백질의 발현량 변화를 분석하기 위한 OLAP 데이터 큐브(Data cube)의 응용 방법과 단백질 데이터의 분석에 적합한 척도(measure)를 제안하고, 유효성을 보인다.

  • PDF

Utilizing the Effect of Market Basket Size for Improving the Practicality of Association Rule Measures (연관규칙 흥미성 척도의 실용성 향상을 위한 장바구니 크기 효과 반영 방안)

  • Kim, Won-Seo;Jeong, Seung-Ryul;Kim, Nam-Gyu
    • The KIPS Transactions:PartD
    • /
    • v.17D no.1
    • /
    • pp.1-8
    • /
    • 2010
  • Association rule mining techniques enable us to acquire knowledge concerning sales patterns among individual items from voluminous transactional data. Certainly, one of the major purposes of association rule mining is utilizing the acquired knowledge to provide marketing strategies such as catalogue design, cross-selling and shop allocation. However, this requires too much time and high cost to only extract the actionable and profitable knowledge from tremendous numbers of discovered patterns. In currently available literature, a number of interest measures have been devised to accelerate and systematize the process of pattern evaluation. Unfortunately, most of such measures, including support and confidence, are prone to yielding impractical results because they are calculated only from the sales frequencies of items. For instance, traditional measures cannot differentiate between the purchases in a small basket and those in a large shopping cart. Therefore, some adjustment should be made to the size of market baskets because there is a strong possibility that mutually irrelevant items could appear together in a large shopping cart. Contrary to the previous approaches, we attempted to consider market basket's size in calculating interest measures. Because the devised measure assigns different weights to individual purchases according to their basket sizes, we expect that the measure can minimize distortion of results caused by accidental patterns. Additionally, we performed intensive computer simulations under various environments, and we performed real case analyses to analyze the correctness and consistency of the devised measure.

An Efficient Multidimensional Scaling Method based on CUDA and Divide-and-Conquer (CUDA 및 분할-정복 기반의 효율적인 다차원 척도법)

  • Park, Sung-In;Hwang, Kyu-Baek
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.4
    • /
    • pp.427-431
    • /
    • 2010
  • Multidimensional scaling (MDS) is a widely used method for dimensionality reduction, of which purpose is to represent high-dimensional data in a low-dimensional space while preserving distances among objects as much as possible. MDS has mainly been applied to data visualization and feature selection. Among various MDS methods, the classical MDS is not readily applicable to data which has large numbers of objects, on normal desktop computers due to its computational complexity. More precisely, it needs to solve eigenpair problems on dissimilarity matrices based on Euclidean distance. Thus, running time and required memory of the classical MDS highly increase as n (the number of objects) grows up, restricting its use in large-scale domains. In this paper, we propose an efficient approximation algorithm for the classical MDS based on divide-and-conquer and CUDA. Through a set of experiments, we show that our approach is highly efficient and effective for analysis and visualization of data consisting of several thousands of objects.

Evaluation Method of Technical Review in Software Development Process (소프트웨어 개발과정의 기술 리뷰 평가 방법)

  • Jeon, Heui-bae;Yang, Hae-Sool
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.9 no.5
    • /
    • pp.1234-1241
    • /
    • 2008
  • Cost effectiveness is greatly related with the degree of reducing the testing cost by the technical reviews. In this paper, we present a new metric My for evaluating the cost effectiveness of technical reviews during software development. First, we estimate and compare My with conventional measure using data collected during practical software development procedure, then we show the validity and usefulness of the proposed measure My. Also by formulating the relationship between the data collected during the reviews and the test, we present a method to estimate the value of the metric My using only the data collected during review phase.

Discovery of Interesting Knowlege using Concept Hierarchy (개념 계층 이용 흥미로운 부분 데이터의 탐색)

  • 홍정희;김성민;남도원;이동하;이전영
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.04a
    • /
    • pp.261-270
    • /
    • 2000
  • 개념 계층(Concept Hierarchy)은 데이터베이스 분야에서 사용되는 대표적인 배경 지식(Background Knowledge)으로써, 데이터베이스에 내재되어 있는 구조적인 정보, 데이터의 분포, 영역전문가(Domain Expert)에 의해 주어지는 외부 지식 등이 반영되어 있다. 개념 계층의 특성상 부모(parent)-자식(child) 관계가 있는 두 노드가 있을 때, 한 노드의 값으로부터 다른 노드의 값을 추정할 수 있다. 이 추정된 값을 기대치라고 하고, 한 노드의 값으로부터 추정된 기대치와 실제치가 상당히 상이한 값을 보이는 노드가 있을 때, 이를 흥미롭다(interesting)라고 할 수 있다. 그러나 아직까지 개념계층상에서의 흥미로운 부분 탐색에 대한 연구가 없었으며, 흥미로움(interestingness)의 척도(measurement)에 대한 연구로서는 신뢰도(confidence), 리프트(lift), 컨빅션(conviction)등이 있다. 그러나 이런 흥미도의 척도에 관한 연구도 연관규칙에 한정되어 이루어졌으므로 개념계층상의 데이터에 적용하기 위해서는 약간의 수정 및 새로운 정의가 필요하다. 본 논문에서는 데이터의 특성에 따른 개념계층이 존재할 때, 이를 이용하여 기대치와 실제치가 상이한 흥미로운 부분을 발견하고자 하며, 이를 위하여 개념계층이 존재할 때, 이를 이용하여 기대치와 실제치가 상이한 흥미로운 부분을 발견하고자 하며, 이를 위하여 개념계층상에서의 흥미도의 척도를 제안하고 흥미로운 부분을 탐색하는 방법을 기술하고자 한다. 또한 데이터마이닝의 결과인 연관규칙을 개념계층에 적용하여 연관규칙을 통해 얻어질 수 있는 기대치를, 지지도(support), 신뢰도(confidence), 리프트(lift), 컨빅션(conviction)등의 관계를 통해 다양한 방법으로 모색해본다. 이 연구에서 제안하는 이러한 개념계층상의 흥미로운 부분의 탐색은, 전자 상거래에서의 CRM(Customer Relationship Management)나 틈새시장(niche market) 마케팅 등에 적용가능하리라 여겨진다.

  • PDF

Discovery of Interesting Knowledge using Concept Hierarchy (개념 계층 이용 흥미로운 부분 데이터의 탐색)

  • 홍정희;김성민;남도원;이동하;이전영
    • Journal of Intelligence and Information Systems
    • /
    • v.6 no.2
    • /
    • pp.77-89
    • /
    • 2000
  • 개념 계층(Concept Hierarchy)은 데이터베이스 분야에서 사용되는 대표적인 배경 지식(Background Knowledge)으로써, 데이터베이스에 내재되어 있는 구조적인 정보, 데이터의 분포, 영역전문가 (Domain Expert)에 의해 주어지는 외부 지식 등이 반영되어 있다. 개념계층의 특성상 부모(parent)-자 식(child) 관계가 있는 두 노드가 있을 때, 한 노드의 값으로부터 다른 노드의 값을 추정할 수 있다 이 추정된 값을 기대치라고 하고, 한 노드의 값으로부터 추정된 기대치와 실제치가 상당히 상이한 값을 보이는 노드가 있을 때, 이를 흥미롭다(interesting)고 말할 수 있다. 그러나 아직까지 개념계층 상에서의 흥미로운 부분 탐색에 대한 연구가 없었으며, 흥미로움(interestingness)의 척도(measurement) 에 대한 연구로서는 신뢰도(confidence),리프트(lift),컨빅션(conviction)등이 있었다. 그러나 이런 흥미도 의 척도에 관한 연구도 연관규칙에 한정되어 이루어졌으므로 개념계층상의 데이터에 적용하기 위해 서는 약간의 수정 및 새로운 정의가 필요하다. 본 논문에서는 데이터의 특성에 따른 개념계층이 존재할 때, 이를 이용하여 기대치와 실제치가 상이한 흥미로운 부분을 발견하고자 하며, 이를 위하여 개념계층상에서의 흥미도의 척도를 제안하고 흥미로운 부분을 탐색하는 방법을 기술하고자 한다. 또한 데이터마이닝의 결과인 연관규칙을 개념 계층에 적용하여 연관규칙을 통해 얻어질 수 있는 기대치를, 지지도(support), 신뢰도(confidence), 리프트(lift), 컨빅션(conviction)등의 관계를 통해 다양한 방법으로 모색해본다. 이 연구에서 제안하는 이러한 개념계층상의 흥미로운 부분의 탐색은, 전자 상거래에서 CRM(Customer Relationship Management)나 틈새시장(niche market) 마케팅 등에 적용 가능하리라 여겨진다.

  • PDF

An data classification and application of psychophyscial scale (Psychophyscial scale에 의한 자료 분류 및 적용)

  • 곽효연;제종식
    • Journal of the Korea Society of Computer and Information
    • /
    • v.1 no.1
    • /
    • pp.139-146
    • /
    • 1996
  • The estimation technique of psychophysical magnitude Is useful tool which measures to subjective feeling or opinion of human. This paper Introduces properties of the measured data, scales(nominal. ordinal. Interval. and ratio scale). and right analyzing methods of the measured data.

  • PDF

Author Co-citation Network Analysis Using Triangle Betweenness Centrality Measure (중심성 척도 TBC를 이용한 저자동시인용 네트워크 분석)

  • Lee, Jae-Yun
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2005.08a
    • /
    • pp.357-364
    • /
    • 2005
  • 저자동시인용 자료에 대한 분석 도구로 삼각매개중심성 (triangle betweenness centrality; TBC) 척도를 비롯하여 네 가지 새로운 척도를 제안하고 정보학 분야의 지적 구조 분석에 적용해보았다. 제안한 척도는 사회네트워크 분석 분야에서 사용되고 있는 여러 중심성 척도를 참고하여 동시인용 데이터에 적합하도륵 고안되었다. 검증을 위해서 이은숙, 정영미(2002)의 연구에서 수집한 1990년부터2000년까지 11년간 Journal of America Society for Information Science에 인용된 주요 저자50명의 동시인용 네트워크를 여러 중심성 척도를 사용해서 분석하였다. 전통적인 분석 도구인 다차원척도법이나 군집분석과 달리 중심성 척도를 통해서는 저작물에 반영된 개별 저자의 입지와 영향력에 대한 구체적인 분석이 가능하였다. 특히 삼각매개중심성 척도는 측정 범위의 조절이 자유로와서 지역적 중심성과 전역적 중심성을 모두 파악할 수 있는 것으로 나타났다.

  • PDF

Small diagnostic scale for internet addiction (인터넷 중독 자가진단 소형척도 개발)

  • Oh, Kwang-Sik
    • Journal of the Korean Data and Information Science Society
    • /
    • v.21 no.6
    • /
    • pp.1203-1209
    • /
    • 2010
  • Internet addiction is a serious social problem in information society. The purpose of this study is to develope a small diagnostic scale in order to detect internet addiction easily. The reliability and validity of K-scale and Kimberly Young-scale is investigated. Five small diagnostic scale is suggested by factor analysis and regression. The comparision of these small scale is established by correlation coefficient, chi-square test, gamma value of concordance in contingency table. In view of reliability and validity, we suggest a small diagnostic scale. The results of this study may be useful to detect internet addiction by oneself.

An approach of the Reliability Metrics Identification Using an Application Condition Matrix (적용조건 매트릭스를 이용한 신뢰성 척도 식별 기법)

  • Park, Jin-Hee;Choi, Okjoo;Baik, Jongmoon;Shin, Ju-Hwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.236-239
    • /
    • 2010
  • 소프트웨어 신뢰성 보증을 위한 소프트웨어 신뢰성 평가 프로세스는 다양한 관점에서 대상 소프트웨어 시스템뿐만 아니라 관련된 조직 및 개발 프로세스에 대한 분석을 필요로 한다. 특히, 신뢰성 평가 프로세스 수행 단계 중 단계별 척도 식별단계는 대상 시스템의 도메인 특성을 반영해야 하는 까다로운 작업이다. 현재 신뢰성 관련 척도들이 여러 문서에 다양한 의미로 혼재해 있어 이를 조사하는데 많은 노력이 들며 대상 시스템 환경에 적합한 척도 식별을 위해 불필요하게 많은 회의와 인터뷰를 진행하고 있는 실정이다. 본 논문에서는 표준문서 및 관련문헌에 근거하여 신뢰성 척도 POOL 을 구성하고 각 척도 원시 데이터의 수집 조건에 기반한 적용조건 매트릭스를 이용하여 기존의 신뢰성 관련 척도 조사 및 수집, 척도 식별 과정에서 소요되는 자원, 시간의 낭비를 줄이고자 한다. 이 방법을 적용하였을 때 소요된 시간과 기존의 회의를 통해 소요되는 시간을 비교하여 본 논문에서 제시하는 방법의 효과를 평가한다.