• 제목/요약/키워드: 데이터 항목

검색결과 1,281건 처리시간 0.026초

상품평 데이터와 웹 검색엔진을 이용한 상품별 평가항목 자동 추출 (Automatic Product Attribute Extraction from Reviews Using Web Search Engine)

  • 이우철;이현아
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.107-110
    • /
    • 2008
  • 상품평은 인터넷 쇼핑 이용자들의 최종 구매결정에 큰 영향을 미치는 것으로 알려져 있다. 많은 쇼핑몰에서 상품평 활성화를 위해 노력하고 있지만, 상품평을 모으는 것에만 주력할 뿐 기존에 수집된 상품평을 제공하는 방법에 있어서는 원시적인 수준에 그치고 있다. 상품평을 좀 더 효율적으로 제공하려면 사용자들이 상품평에서 찾게 될 평가항목들을 미리 예측하여 그 항목에 따라 상품평을 분류/요약해서 제공하는 방법을 생각할 수 있다. 본 논문에서는 상품평과 웹 검색엔진을 이용하여 각 상품별 평가항목들을 자동으로 추출하는 방법을 제안한다. 상품평 데이터의 특성상 노이즈가 많기 때문에 먼저 데이터를 정제하고, 정제된 상품평 데이터를 형태소 분석하여 후보명사들을 선택한다. 선택된 후보명사를 웹 검색엔진에 질의하여 반환된 결과 값으로 상품 카테고리와 후보명사 간 연관도를 계산하여 평가항목을 추출한다. 실험은 5개 상품 카테고리의 170,294개 실제 상품평을 대상으로 각 카테고리별 평가항목을 추출하였다.

형식 개념 분석을 통한 공공데이터의 메타데이터 분석 (Metadata Analysis of Open Government Data by Formal Concept Analysis)

  • 김학래
    • 한국콘텐츠학회논문지
    • /
    • 제18권1호
    • /
    • pp.305-313
    • /
    • 2018
  • 공공데이터는 공공기관이 만들어내는 자료나 정보를 국민에게 공개한 것이다. 정부는 공공데이터포털과 개별기관의 웹사이트를 통해 공공데이터를 개방하고 있다. 그러나 데이터 사용자 관점에서 원하는 공공데이터를 탐색하고 활용하는데 제약이 있는 것이 현실이다. 특히, 데이터 목록의 특성을 파악하고 서로 다른 데이터를 연계하는 과정에 많은 노력과 시간이 필요하다. 본 연구는 공공데이터로 개방된 데이터 목록이 갖고 있는 항목명의 공통 관계를 분석하여 데이터 목록사이의 연결 가능성을 제안한다. 공공데이터포털에서 제공하는 데이터 목록을 수집하고, 데이터 목록에 포함된 데이터 항목명을 추출한다. 추출된 항목명은 형식 개념 분석을 통해 형식 문맥 (formal context)과 형식 개념 (formal concept)으로 구성된다. 형식 개념은 데이터 목록과 항목명을 각각 외연과 내연으로 갖고 있고, 내연의 공통항목을 분석해 데이터 연결 가능성을 판별한다. 형식 개념 분석을 통해 도출한 결과는 데이터 목록의 의미적 연결에 효과적으로 활용될 수 있고, 공공데이터 개방을 위한 데이터 표준 및 품질개선에 적용할 수 있다.

데이터의 지역성을 이용한 빈발구간 항목집합 생성방법 (A Method for Generating Large-Interval Itemset using Locality of Data)

  • 박원환;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제4권5호
    • /
    • pp.465-475
    • /
    • 2001
  • 최근에 대용량의 데이터베이스로부터 연관규칙을 발견하고자 하는 연구가 활발하며, 수량항목에도 적용할 수 있도록 이들 방법을 확장하는 연구도 소개되고 있다. 본 논문에서는 수량항목을 이진 항목으로 변환하기 위하여 빈발구간 항목집합을 생성할 때, 수량 항목의 정의 영역 내에서 특정 영역에 집중하여 발생하는 특성인 지역성을 이용하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 세밀도를 판단하여 활용할 수 있는 생성순서 정보도 포함하고 있어, 원 데이터가 가지고 있는 특성의 손실을 최소화할 수 있는 특징이 있다. 인구센서스 등 실 데이터를 사용한 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF

빈발 항목집합 추출을 위한 알고리즘 (Algorithm for Extraction of Large itemsets)

  • 채덕진;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.117-120
    • /
    • 2000
  • 데이터 마이닝이란 대량의 실제 데이터로부터, 이전에 잘 알려지지는 않았지만, 잠재적으로 유용한 정보를 추출하는 작업이라 정의한다. 데이터 마이닝 기술 중에서 현재 가장 활발하게 연구되고 있는 것들 중의 하나가 연관 규칙 탐사이다. 연관 규칙이란 어떤 사건이 일어나면 다른 사건이 일어나는 관련성을 의미한다. 기존의 연관 규칙을 발견하기 위한 알고리즘들은 k-빈발 항목집합을 추출하기 위하여 k-후보 항목집합의 개수를 줄이거나 데이터베이스의 크기를 줄이는데 많은 연구가 이루어져 오고 있다. 본 논문에서는 상대적으로 많은 후보 항목집합의 데이터베이스 스캔을 통하여 추출되는 2-빈발 항목집합은 해쉬 기법을 사용하여 추출하고 k(k>2)-빈발 항목집합은 데이터베이스를 전처리하여 트랜잭션의 길이에 따라 두 개의 트랜잭션 집합으로 분리하고 분리된 데이터베이스에 다른 알고리즘을 사용하여 빈발 항목집합을 찾는 알고리즘을 제안한다. 그리고 성능 평가를 통하여 제안하는 방법의 성능 및 타당성을 보인다.

  • PDF

항목집합의 트랜잭션 유틸리티를 이용한 높은 유틸리티 항목집합 마이닝 (High Utility Itemset Mining Using Transaction Utility of Itemsets)

  • 이세린;박종수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권11호
    • /
    • pp.499-508
    • /
    • 2015
  • 높은 유틸리티 항목집합 마이닝은 트랜잭션 데이터베이스에서 사용자가 지정한 최솟값 이상의 유틸리티를 갖는 항목집합들을 항목의 수량과 가중치값을 동시에 고려하여 찾아내는 것이다. 최근에 연구된 유틸리티-리스트 기반의 높은 유틸리티 항목집합 마이닝 알고리즘은 많은 후보 항목집합들을 피하기 위해 제안되었으며 비용이 높은 조인 연산을 수행한다. 본 논문은 유틸리티-리스트 구조에 항목집합의 트랜잭션 유틸리티와 공통 유틸리티 속성을 추가한 새로운 알고리즘을 제안한다. 이 새로운 알고리즘은 조인 연산의 수를 줄이고 탐색 공간을 효과적으로 가지치기한다. 생성 데이터와 실 환경 데이터상의 실험 결과를 통해 제안된 알고리즘이 다른 최근 알고리즘들에 비해 실행 시간 면에서 아주 우수하고, 특히 데이터가 조밀하거나 항목집합의 길이가 긴 경우에 더 효율적이라는 것을 보여준다.

효과적인 빈발 항목 생성 알고리즘T (An Effective Large itemset Generation Algorithm)

  • 채덕진;황부현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.198-200
    • /
    • 2000
  • 대용량의 데이터베이스에서 여러 트랜잭션에 동시에 나타나는 항목들의 모임인 빈발 항목집합을 찾아내는 데이터 마이닝 방법을 연관 규칙 탐사라고 한다. 빈발 항목집합을 찾아내는 데이터 마이닝 방법을 연관 규칙 탐사라고 한다. 빈방 항목집합을 찾아내는 문제는 항목 집합들의 후보 집합을 생성하고 빈발 항목집합의 조건을 충족시키는 후보 집합을 추출함으로써 해결된다. 그리고 이러한 작업은 각각의 빈발 k-항목집합에 대해 k가 증가함에 따라 반복적으로 수행된다. 그러나 연관 규칙 탐사에 관한 기존의 연구는 주로 데이터베이스를 이루는 항목들의 수가 많거나 트랜잭션의 길이가 긴 경우의 대용량 데이터베이스에서 빈발 항목집합의 발견에 초점을 맞추고 있다. 본 논문에서는 데이터베이스를 이루는 전체 항목의 수가 적거나 트랜잭션의 크기가 작은 경우 효과적으로 빈발 항목집합을 찾을 수 있는 연관 규칙 탐사 방법을 제안한다. 그리고 성능 평가를 통하여 제안하는 방법의 성능 및 타당성을 보인다.

  • PDF

복수 샘플링과 트리밍을 통한 고품질 연관규칙 추출법 (Improved Association Rule Mining by Multiple Sampling & Trimming)

  • 황원태;김동승
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (A)
    • /
    • pp.919-921
    • /
    • 2005
  • 본 논문은 전체 데이터베이스에서 일부 추출된 샘플 데이터에서 빈발항목 집합을 찾는 연관규칙 마이닝 알고리즘을 기술한다. 샘플링기술을 이용하면 마이닝과정에서 필요한 데이터베이스의 접근 양을 줄이므로써 실행시간을 단축시킬 수 있다는 장점이 있지만, 전체데이터베이스를 이용한 마이닝보다 정확도가 떨어진다는 단점이 함께 존재한다. 이전의 Chen의 FAST알고리즘은 샘플링을 이용한 마이닝과정에서 거리오차함수를 이용한 트리밍과정을 통해 빈발 1항목집합에 대한 정확도를 개선시켰다. 이후 IFAST 알고리즘은 트리밍과정에서 빈발2-항목집합까지 고려하여 빈발2-항목집합 이상의 빈발항목집합에서도 정확도를 개선시켰다. 본 논문에서는 트리밍과정에서 사용될 추정데이터를 여러 개의 샘플데이터를 이용하여 얻으므로써 오류항목집합(false itemset)의 수를 줄이고 전체적인 정확도를 향상시키는 새로운 알고리즘을 소개한다.

  • PDF

L2-tree를 이용한 효율적인 빈발항목 집합 탐사 (An Efficient Algorithm for mining frequent itemsets using L2-tree)

  • 박인창;장중혁;이원석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.259-261
    • /
    • 2002
  • 데이터마이닝 분야에서 빈발항목집합 탐사에 관한 연구는 활발히 진행되어 왔지만 여전히 많은 메모리 공간과 시간을 필요로 한다. 특히 apriori 알고리즘에 기반한 방법들은 긴 패턴이 생성될수록 지수적으로 시간과 공간이 증가한다. 최근에 발표된 fp-growth는 일반적인 데이터 집합에서 우수한 성능을 보이나 희소 데이터 집합에서 효율적인 성능을 보여주지 못한다. 본 논문에서는 길이가 2인 빈발항목집합 L2에 기반한 L2-tree 구조를 제안한다. 또한 L2-tree에서 빈발항목집합을 탐사하는 L2-traverse 알고리즘을 제안한다. L2-tree는 L2를 기반으로 하기 때문에 L2가 상대적으로 적은 희소 데이터 집합 환경에서 적은 메모리 공간을 사용하게 된다. L2-traverse 알고리즘은 별도의 추출 데이터베이스를 생성하는 FP-growth와 달리 단순히 L2-tree를 오직 한번의 깊이 우선 탐사를 통해 빈발항목집합을 찾는다. 최적화 기법으로써 길이가 3인 빈발항목집합 L3가 되지 않는 L2 패턴들을 미리 제거하는 방법으로 C3-traverse 알고리즘을 제안하며 실험을 통해 기존 알고리즘과 비교 검증한다.

  • PDF

구매이력 데이터에서 상품 분류 체계를 고려한 시퀀스 유사도 측정 기법 (A Sequence Similarity Measure Considering the Product Taxonomy in Transaction Data)

  • 양유정;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.367-370
    • /
    • 2019
  • 본 논문은 구매이력 데이터에서 상품간의 분류 체계를 고려하여 시퀀스 간의 유사도를 계산하는 새로운 방법을 제안한다. 시퀀스란 두 항목간의 순서가 존재하는 데이터를 의미한다. 항목 간의 선후관계가 중요한 시퀀스 데이터에서는 두 시퀀스 간의 유사도를 정확히 정의하는 것이 중요하다. 본 논문에서는 대표적인 시퀀스 유사도 측정 알고리즘인 편집 거리 알고리즘을 활용하여 구매이력 데이터에서 시퀀스 간의 유사도를 정의한다. 상품은 상품의 특성에 따라 항목 분류 체계에서 여러 범주로 분류된다. 이 경우 기존의 편집 거리 알고리즘에서 문자의 일치유무에 따라 단순히 0 또는 1을 부여하는 것은 부정확하다. 따라서 본 논문은 편집 거리 알고리즘의 수정 연산 중 대체 연산 비용 계산 시 항목 분류 트리를 사용하여 연산 비용이 0 에서 1 사이의 값을 가지도록 세분화하였다. 실험 결과 제안 방법은 대체 연산 비용 계산 시 두 문자가 다르면 단순히 1 을 부여하는 기존의 편집 거리 알고리즘에 비해 시퀀스 간의 유사도를 더 정확하게 계산함을 확인하였다.

데이터 스트림에서 데이터 마이닝 기법 기반의 시간을 고려한 상대적인 빈발항목 탐색 (Finding the time sensitive frequent itemsets based on data mining technique in data streams)

  • 박태수;전석주;이주홍;강윤희;최범기
    • 정보교육학회논문지
    • /
    • 제9권3호
    • /
    • pp.453-462
    • /
    • 2005
  • 최근 들어 저장장치의 발전과 네트워크의 발달로 인하여 대용량의 데이터에 내재되어 있는 정보를 빠른시간 내에 처리하여 새로운 지식을 창출하려는 요구가 증가하고 있다. 연속적이고 빠르게 증가하는 데이터를 지칭하는 데이터 스트림에서 데이터 마이닝 기법을 이용하여 시간이 흐름에 따라 변하고, 무한적으로 증가하는 데이터 스트림에서의 빈발항목을 찾는 연구가 활발하게 진행되고 있다. 하지만 기존의 연구들은 시간의 흐름에 따른 빈발항목 탐색방법을 적절히 제시하지 못하고 있으며 단지 집계를 이용하여 빈발항목을 탐색하고 있다. 본 논문에서는 데이터 스트림에서 시간적 측면을 고려하여 상대적인 빈발항목을 탐색하기 위한 새로운 알고리즘으로 한정적인 메모리를 고려하여 빈발항목과 부분 빈발항목만을 저장하고 시간의 흐름에 따른 빈발항목의 갱신방법에 관하여 제안하였다. 논문에서 제안하는 알고리즘의 성능은 다양한 실험을 통해서 검증된다. 제안된 방법은 웹 코스웨어로 학습하는 학생들의 행동패턴을 시간대별로 파악하여 빈발항목 및 상대적인 빈발항목을 탐색함으로써 학생들의 학습효과 증진 및 지도 방향을 설정하는데 활용할 수 있다.

  • PDF