• 제목/요약/키워드: 연관성

검색결과 8,900건 처리시간 0.04초

문헌 클러스터링을 위한 유사계수간의 연관성 측정 (A Measurement of Relationship among Similarity Coefficients for Document Clustering)

  • 한승희;이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1999년도 제6회 학술대회 논문집
    • /
    • pp.25-28
    • /
    • 1999
  • 자동분류나 정보검색에 주로 이용되는 문헌 클러스터링에서는 문헌간의 유사성을 측정하기 위해 다양한 유사계수를 이용하는데, 모든 유사계수가 동일한 클러스터링 결과를 가져오는 것은 아니다. 본고에서는 50건의 신문기사를 대상으로 SPSS 통계 패키지를 이용하여 다양한 유사계수에 각각 달라지는 문헌 클러스터링의 결과를 살펴본 후, 유사계수간의 연관성을 측정하였다.

  • PDF

방문 웹 페이지 로그를 이용한 개인화된 문맥광고 기법 (Personalized Contextual Advertising Scheme using Logs of Web Page Visited)

  • 심규선;이명수;최재호;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.743-744
    • /
    • 2009
  • 사용자가 방문한 웹 사이트와 연관된 광고를 웹 페이지에 실어주는 문맥광고 관련 연구가 광고 효율성 측면에서 최근 주목을 받고 있다. 이러한 문맥광고 관련 연구의 핵심은 웹 페이지와 웹 광고간의 연관성을 높여주는데 있는데, 연관성 향상 방안으로 최근 사용자 의도 분석을 통한 연관성 향상 기법이 많이 연구되고 있다. 그러나 기존 연구에서는 사용자가 로그인을 해야 하거나, 로그 정보를 일정기간이상 수집해야만 사용자 의도 분석이 가능 하다는 문제점이 존재 한다. 본 논문에서는 로그인이나 많은 양의 로그정보 수집 없이 한 세션 내에서 방문한 웹 페이지 로그만을 이용하여 개인화된 문맥 광고를 제공하는 문맥광고 기법을 제안한다. 실험 결과에서는 제안하는 기법이 기존의 광고 기법에 비해 사용자가 판단하는 웹 페이지와 웹 광고의 연관성 (precison) 이 기존의 기법에 비해 높아짐을 증명한다.

연관 규칙 마이닝에서 비교 기여 순수 신뢰도의 제안 (The proposition of compared and attributably pure confidence in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.523-532
    • /
    • 2013
  • 데이터 마이닝은 빅 데이터에 잠재되어 있는 지식이나 패턴을 찾아내는 기술이며, 대표적인 기법 중의 하나가 연관성 규칙 마이닝이다. 이 기법은 지지도, 신뢰도, 향상도 등의 연관성 평가 기준을 기반으로 하여 각 항목들 간의 관련성을 찾아내는 데 활용되고 있다. 연관성을 평가하기 위한 기준으로 여러 가지 흥미도 측도가 개발되어 있는데, 그 중에서도 신뢰도가 가장 많이 활용되고 있으나 연관성의 방향을 알 수가 없다는 단점을 가지고 있다. 이를 보완하기 위한 측도로 순수 신뢰도가 개발되었으나. 양의 신뢰도과 음의 신뢰도의 값이 동일한 경우에는 이 측도의 값이 같아지므로 정확한 연관성 규칙을 발견할 수 없게 된다. 이러한 단점을 보완하기 위해 기여 순수 신뢰도와 비교 신뢰도가 개발되었는데 이들은 이들 측도들이 취할 수 있는 값의 범위에 대한 문제를 제외하고는 흥미도 측도로서는 매우 바람직하다고 할 수 있으나 값의 범위에 대한 문제점이 존재한다. 이 문제를 해결하기 위해 본 논문에서는 기여 순수 신뢰도와 비교 신뢰도의 크기를 동시에 고려한 비교 기여 순수 신뢰도를 제안하였다. 또한 예제를 통하여 그 유용성을 알아본 결과, 비교 기여 순수 신뢰도는 그 부호에 의해 연관성 규칙의 방향을 파악할 수 있는 동시에 그 값의 범위가 [-1, +1]의 값을 가지므로 행태적 해석이 가능한 것으로 확인되었다.

연관 단어 마이닝을 사용한 웹문서의 특징 추출 (Feature Extraction of Web Document using Association Word Mining)

  • 고수정;최준혁;이정현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.351-361
    • /
    • 2003
  • 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존의 방법은 주기적으로 프로파일을 갱신해야하는 문제점, 명사구를 처리해야 하는 문제점, 명사구를 처리해야 하는 문제점, 색인어에 대한 화률을 계산해야 하는 문제점 등을 포함한다. 본 논문에서는 연관 단어 마이닝을 사용하여 문서의 특징을 효율적으로 추출하는 방법을 제안한다. 제안한 방법은 Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 백터로 표현한다. Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 벡터로 표현한다. Apriori 알고리즘을 사용하여 문서로부터 추출된 연관 단어는 이를 구성하는 수와 신뢰도와 지지도에 따라 차이를 보인다. 따라서 본 논문에서는 문서 분류의 성능을 향상 시키기 위허ㅐ 연관 단어를 구성하는 단어의 수와 지지도를 결정하는 효율적인 방법을 제안한다. 연관 단어 마이닝을 이용한 특징 추출 방법은 프로파일을 사용하지 않으므로 프로파일 갱신의 필요성이 없으며, 색인어에 대한 확률을 계산하지 않고도, Apriori 알고리즘의 신뢰도와 지지도에 따라 자동으로 명사구를 생성하므로 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존 방법에 대한 문제점을 해결한다. 제안한 방법의 성능을 평가하기 위해 Naive Bayes 분류자를 이용한 문서 분류에 적용하여 정보이득, 역문헌빈도의 방법과 비교하며, 또한 색인어의 연관성과 확률 모델을 기반으로 단어의 연관성을 이용하여 문서 분류를 하는 기존의 방법과 각각 비교한다.

한국 중고령층의 폐쇄성 수면무호흡증 위험과 주관적 건강 및 건강 관련 삶의 질 간의 연관성 (Association between Risk of Obstructive Sleep Apnea and Subjective Health and Health-Related Quality of Life of the Korean Middle-Aged and Elderly Population)

  • 전누리;김민수;양정민;김재현
    • 보건행정학회지
    • /
    • 제34권2호
    • /
    • pp.141-155
    • /
    • 2024
  • 연구배경: 최근 국내 중고령층 수면무호흡증 환자 수는 증가되는 추세이며, 그 중 가장 임상적으로 흔히 나타나는 폐쇄성 수면무호흡증은 전반적인 건강 및 웰빙과 연관된다. 이에 본 연구는 한국 중고령층의 폐쇄성 수면무호흡증 위험과 주관적 건강 및 건강 관련 삶의 질 간의 연관성을 파악하고자 하였다. 방법: 2019-2020년 국민건강영양조사(Korea National Health and Nutrition Examination Survey VIII) 전체 응답자 22,559명 중 40세 이상 성인을 추출하여, 결측치가 없는 총 6,659명의 중고령층을 대상으로 데이터를 2차 분석하였다. 그리고 로지스틱 회귀분석과 다중회귀분석을 통해 폐쇄성 수면무호흡 위험 여부와 주관적 건강 및 건강 관련 삶의 질 간의 연관성을 조사하였다. 결과: 폐쇄성 수면무호흡 비위험군에 비해 위험군인 경우 주관적 건강이 저하될 오즈비는 1.84배(p<0.001) 통계적으로 유의하게 높았고, 건강 관련 삶의 질은 0.02점(β, -0.02; p<0.001) 통계적으로 유의하게 낮은 것으로 나타났다. 특정 변수에 대해 하위그룹 분석을 실시한 결과, 성별, 수면시간, 우울증 여부, 가구소득, 가구원 수에 따라 폐쇄성 수면무호흡 위험과 주관적 건강 및 건강 관련 삶의 질 간의 연관성이 통계적으로 유의하게 나타났다. 폐쇄성 수면무호흡 위험군을 기준으로 하였을 때, 남성에 비해 여성에서 주관적 건강이 낮을 연관성이 더 높았고 건강 관련 삶의 질 점수가 낮았다. 수면시간이 8시간 이상이거나 6시간 이하인 경우 6-8시간인 경우보다 주관적 건강이 낮을 연관성이 더 높았고 건강 관련 삶의 질 점수가 낮았다. 우울증이 있는 경우 없는 경우보다 주관적 건강이 낮을 연관성이 높았다. 가구소득 수준이 낮을수록, 가구원 수가 감소할수록 주관적 건강이 낮을 연관성이 높아지고 건강 관련 삶의 질 점수가 낮아졌다. 결론: 폐쇄성 수면무호흡증 위험이 단순히 수면장애로만 직결되는 것이 아니라 개인의 주관적 건강과 건강 관련 삶의 질과도 연관성이 있다는 점을 인식할 수 있도록 사회적인 지원 및 교육이 제공되어야 한다. 특히 여성, 낮은 가구소득, 1인 가구원, 우울증이 있는 취약계층을 대상으로 폐쇄성 수면무호흡증 예방 및 관리프로그램을 통해 주관적 건강과 건강 관련 삶의 질을 향상시킬 수 있도록 해야 할 것이다.

전자상거래 이용시 연관성 분석을 통한 맞춤형 상품추천 모델 설계 (Design of customized product recommendation model on correlation analysis when using electronic commerce)

  • ;박기용;최상현
    • 한국융합학회논문지
    • /
    • 제13권3호
    • /
    • pp.203-216
    • /
    • 2022
  • 본 연구에서는 COVID-19의 영향과 온라인 시장을 중심으로 구매패턴이 변화하는 현 경영환경의 시대에서 온라인 배송업체의 구매정보와 상품정보를 기반으로 군집분석과 연관성 분석을 실시하였다. 고객군집, 상품군집, 그리고 교차결합을 통해 데이터를 세분화시켜 결합군집을 생성하여 학문적으로 새로운 방안의 군집분석을 시도하였으며, 각각의 군집분석 결과를 토대로 연관성 분석을 하였다. 연관성 분석 결과, 상대적으로 결합군집에서 더 많은 연관 규칙이 도출 되었으며, 중복률은 더 적은 것으로 분석되어 효율성이 매우 높은 것으로 나타났다. 이는 고객의 니즈에 맞게 상품을 추천하기 위해서는 결합군집이 가장 적합한 모델이라고 판단된다. 결합군집 모델은 소비자에겐 시간 절약과 유용한 정보를 제공하면서, 해당 업체에는 판매량을 증가시키는 등의 긍정적인 효과를 가져올 것으로 사료된다. 향후 연구과제로써, 다양한 특성을 갖고 있는 다수의 온라인 배송업체들을 대상으로 비교·분석한다면 좀 더 명확하고 유의미한 연구결과를 도출할 수 있을것으로 기대된다.

연관성규칙 발견을 위한 데이터마이닝 알고리즘 설계 (An Efficient Data Mining Algorithm For An Association Rule Discovery)

  • 이해각
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.587-591
    • /
    • 2004
  • 수많은 데이터로부터 우리가 이용할 수 있는 의미 있는 연관성 규칙을 찾는 것은 대단히 중요하다. 연관성 규칙은 데이터베이스의 각 트랜잭션을 분석하여 이에 대한 각종 측정치를 수집하여 이루어지는데 대단히 많은 시간과 노력을 요한다. 본 논문에서는 통계적 추론을 이용하여 탐색도중 주어진 조건을 만족하는 항목에 대하여 의사결정을 내려 탐색시간은 단축할 수 있는 알고리즘을 제안한다. 또한 추론에 따른 오류발생을 최소화 할 수 있는 기법을 제시한다.

  • PDF

항목 계층 구조에 기반한 빈발 항목 집합 나열 방법 (Item Hierarchy based Frequent Itemset Ordering Method)

  • 김준우;강현경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2013년도 춘계 종합학술대회 논문집
    • /
    • pp.301-302
    • /
    • 2013
  • 연관 규칙 탐사는 이산적인 항목들을 포함하는 트랜잭션 데이터에 존재하는 항목 간 동시 발생 관계를 찾아내는 데 그 목적을 두고 있다. 연관 규칙은 {전항}${\rightarrow}${후항}의 형태를 갖고, 전, 후항은 모두 사전에 정의된 지지도 하한을 만족하는 빈발 항목 집합으로 구성된다. 연관 규칙 탐사에서 문제가 되는 것은 일반적으로 탐사되는 빈발 항목 집합의 개수가 많아지면서 규칙의 개수도 많아지고, 이들 사이에 중복성이 존재한다는 점이다. 따라서 단순히 지지도나 신뢰도 순으로 빈발 항목 집합이나 규칙을 나열하기보다는 항목들의 연관성을 고려하는 것이 분석자에게 보다 도움이 될 수 있다. 본 논문에서는 이를 위하여 연관 규칙 탐사와 함께 계층 군집 분석을 실시하여 항목들 간 연관성을 정리하고, 이를 토대로 빈발 항목 집합들을 나열하는 방법을 제안하고자 한다.

  • PDF

단백질 모티프간 연관성 탐사 (Exploring Association Among Protein Motifs)

  • 이현숙;이도헌
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.47-50
    • /
    • 2002
  • 단백질 모티프(motif)란 유사한 기능을 가진 여러 단백질 서열에서 공통적으로 발견되는 패턴으로서 단백질의 기능을 예측하는 단서로 활용된다. 현재 Prosite, Pfam 등의 데이터베이스에서 정규식(regular expression), 가중치 행렬(weighted matrix). 은닉 마코프 모델(hidden Markov model)의 형태로 4천여종 이상의 모티프가 등록되어 있다. 하지만, 이러한 데이터베이스는 모티프와 단백질간의 일대일 관계만을 저장하고 있기 때문에, 모티프 간의 연관성을 파악하기는 어렵다. 본 논문에서는 모티프 간의 연관 관계를 연관 규칙의 형태로 발견하는 데이터 마이닝 기법을 제시한다. 아울러 HITS 데이터베이스로부터 입수한 단백질-모티프 데이터베이스에 본 기법을 적용함으로써 상당히 높은 연관성을 갖는 모티프 집단이 실제로 존재한다는 것을 밝힌다.

  • PDF

연관법칙 마이닝(Association Rule Mining)을 이용한 ANIDS (Advanced Network Based IDS) 설계 (ANIDS(Advanced Network Based Intrusion Detection System) Design Using Association Rule Mining)

  • 정은희;이병관
    • 한국정보통신학회논문지
    • /
    • 제11권12호
    • /
    • pp.2287-2297
    • /
    • 2007
  • 제안한 ANIDS(Advanced Network based IDS)는 네트워크 패킷을 수집하여 연관규칙 마이닝 기법을 이용하여 패킷의 연관성을 분석하고, 연관성이 높은 패킷을 이용해 패턴 그래프를 생성한 후, 생성된 패턴 그래프를 이용해 침입인지를 판단하는 네트워크 기반 침입 탐지 시스템이다. ANIDS는 패킷 수집 및 관리하는 PMM(Packet Management Module), 연관성 있는 패킷들만을 이용해 패턴 그래프를 생성하는 PGGM (Pattern Graph Generate Module), 침입을 탐지하는 IDM(Intrusion Detection Module)으로 구성된다. 특히, PGGM은 Apriori 알고리즘을 이용해 $Sup_{min}$보다 큰 연관규칙의 후보 패킷을 찾은 후, 연관규칙의 신뢰도를 측정하여 최소 신뢰도 $Conf_{min}$보다 큰 연관규칙의 패턴 그래프를 생성한다. ANIDS는 패킷간의 연관성을 분석하여 침입인지를 탐지 할 수 있는 패턴 그래프를 사용함으로써, 침입 탐지의 긍정적 결함 오류를 감소시킬 수 있으며, 완벽한 패턴 그래프 패턴이 생성되기 전에, 이미 침입으로 판정된 패턴 그래프 패턴과 비교하여 유사한 패턴 형태를 침입으로 간주하므로 기존의 침입 탐지 시스템에 비해 침입 탐지속도를 감소시키고 침입 탐지율을 증가시킬 수 있다.