• Title/Summary/Keyword: 중요도 가중치

Search Result 1,069, Processing Time 0.029 seconds

Dual SMS SPAM Filtering: A Graph-based Feature Weighting Method (듀얼 SMS 스팸 필터링: 그래프 기반 자질 가중치 기법)

  • Hwang, Jae-Won;Ko, Young-Joong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.95-99
    • /
    • 2014
  • 본 논문에서는 최근 급속히 증가하여 사회적 이슈가 되고 있는 SMS 스팸 필터링을 위한 듀얼 SMS 스팸필터링 기법을 제안한다. 지속적으로 증가하고 새롭게 변형되는 SMS 문자 필터링을 위해서는 패턴 및 스팸 단어 사전을 통한 필터링은 많은 수작업을 요구하여 부적합하다. 그리하여 기계 학습을 이용한 자동화 시스템 구축이 요구되고 있으며, 효과적인 기계 학습을 위해서는 자질 선택과 자질의 가중치 책정 방법이 중요하다. 하지만 SMS 문자 특성상 문장들이 짧기 때문에 출현하는 자질의 수가 적어 분류의 어려움을 겪게 된다. 이 같은 문제를 개선하기 위하여 본 논문에서는 슬라이딩 윈도우 기반 N-gram 확장을 통해 자질을 확장하고, 확장된 자질로 그래프를 구축하여 얕은 구조적 특징을 표현한다. 학습 데이터에 출현한 N-gram 자질을 정점(Vertex)으로, 자질의 출현 빈도를 그래프의 간선(Edge)의 가중치로 설정하여 햄(HAM)과 스팸(SPAM) 그래프를 각각 구성한다. 이렇게 구성된 그래프를 바탕으로 노드의 중요도와 간선의 가중치를 활용하여 최종적인 자질의 가중치를 결정한다. 입력 문자가 도착하면 스팸과 햄의 그래프를 각각 이용하여 입력 문자의 2개의 자질 벡터(Vector)를 생성한다. 생성된 자질 벡터를 지지 벡터 기계(Support Vector Machine)를 이용하여 각 SVM 확률 값(Probability Score)을 얻어 스팸 여부를 결정한다. 3가지의 실험환경에서 바이그램 자질과 이진 가중치를 사용한 기본 시스템보다 F1-Score의 약 최대 2.7%, 최소 0.5%까지 향상되었으며, 결과적으로 평균 약 1.35%의 성능 향상을 얻을 수 있었다.

  • PDF

A Research on Inference Method in Fuzzy Production System (퍼지 프러덕션시스템의 추론방법에 관한 연구)

  • 송수섭
    • Journal of Intelligence and Information Systems
    • /
    • v.2 no.2
    • /
    • pp.1-15
    • /
    • 1996
  • 전문가의 지식을 지식베이스화하여 의사결정지원시스템으로 사용하려는 노력이 증대하고 있다. 특히 투자의사결정과 같은 원인결과의 관계를 명확히 규정할 수 없는 복작한 영역에서 전문가의 지식베이스는 비전문가의 의사결정에 중요한 조언을 제공할 수 있다. 불확실한 지식을 지식베이스화하는 한 방법으로 퍼지프러덕션시스템이 널리 사용되고 있다. 주식시장과 같은 동태적인 시스템에서 어떤 정보의 중요성은 상황에 따라 변화하는데 이를 정태적인 프로덕션시스템의 규칙으로 지식베이스화하는 것은 불가능하다. 그러나 추론을 수행하는 과정에서 수행당시 각 정보의 중요도에 부응하는 가중치를 부여하여 평가함으로써 정태적인 지식베이스에 동태적인 실제시스템의 특성을 반영할 수 있다. 이는 가중치가 높은 정보에 해당하는 조건명제의 충족정도가 해당규칙의 전체평가결과에 더욱 중요하게 반영되게 하여 좀더 현실성 있는 추론 결과를 얻게 한다. AHP(Analytic Hierachy Process) 방법에 의하여 얻어진 정보의 상대적 중요도에 따른 가중치 (w)를 해당 정보와 조건명제의 합치정도(Degree of Match : DM)에 (DM)w 의 형식으로 적용함으로써 퍼지프러덕션시스템에서 정보의 중요도를 반영하여 프러덕션규칙을 평가하는 방법을 제시한다.

  • PDF

Korean Dependency Parsing Based on Learning Weights of Features (자질 가중치 학습을 이용한 한국어 의존파싱)

  • Kim, Young-Tae;Ra, Dong-Yul;Lim, SooJong
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.63-67
    • /
    • 2010
  • 본 논문에서는 자질(feature)의 가중치를 학습하여 이용하는 기계학습 기반 한국어 의존 파싱 기법을 소개한다. 이를 위하여 모든 가능한 의존관계에 대하여 각 의존관계마다 일정한 수의 자질을 생성한다. 자질마다 가중치에 의하여 그 중요도를 나타낸다. 자질의 가중치 값은 의존관계가 태깅된 구문구조 학습 말뭉치를 이용하여 학습한다. 이를 위해 본 논문에서는 간단한 가중치 기계학습 기법을 제시한다. 실험을 위한 언어 자원으로는 구구조부착 세종말뭉치를 변환하여 구한 의존관계 부착 말뭉치를 사용하였다. 실험 결과 약 86.5%의 정확률을 가지는 의존파싱이 가능함을 관찰하였다.

  • PDF

Efficient Mining of Dynamic Weighted Sequential Patterns (동적 가중치를 이용한 효율적인 순차 패턴 탐사 기법)

  • Choi, Pilsun;Kang, Donghyun;Kim, Hwan;Kim, Daein;Hwang, Buhyun
    • Annual Conference of KIPS
    • /
    • 2012.11a
    • /
    • pp.1365-1368
    • /
    • 2012
  • 순차 패턴 탐사 기법은 순서를 갖는 패턴들의 집합 중에 빈발하게 발생하는 패턴을 찾아내는 기법이다. 순차 패턴 탐사 분야 중에 동적 가중치 순차 패턴 탐사는 가중치가 시간에 따라 변화하는 컴퓨팅 환경에 적용하는 마이닝 기법으로 동적인 중요도 변화를 마이닝에 적용하여 다양한 환경에서 활용 가능하다. 이 논문에서는 다양한 순차 데이터에서 동적 가중치를 적용하여 순차 패턴을 탐사하는 새로운 시퀀스 데이터 마이닝 기법에 대하여 제안한다. 제안하는 기법은 시간 순서에 의한 상대적인 동적 가중치를 사용하여 탐색해야 하는 후보 패턴을 줄여줄 수 있어 빈발한 시퀀스 패턴을 빠르게 찾을 수 있다. 이 기법을 사용하면 기존 가중치를 적용하는 방식보다 메모리 사용과 처리 시간을 줄여줘 매우 효율적이다.

An associative service mining based on dynamic weight (동적 가중치 기반의 연관 서비스 탐사 기법)

  • Hwang, Jeong Hee
    • Journal of Digital Contents Society
    • /
    • v.17 no.5
    • /
    • pp.359-366
    • /
    • 2016
  • In order to provide useful services for user in ubiquitous environment, a technique that can get the helpful information considering user activity and preference is needed and also user's interest actually changes as time passes. Therefore, the discovering method which reflects the concern degree of service information is needed. In this paper, we present the finding method of frequent pattern with dynamic weight on individual item based on service ontology we design. Our method can be applied to provide interested service information for user depending on context.

Image Retrieval by Important Feature Weighting for Each Class (영상 클레스별 중요 특징 가중에 의한 영상 검색 방법)

  • Yoo, Donggeun;Park, Chaehoon;Choi, Yukyung;Kweon, In So
    • Annual Conference of KIPS
    • /
    • 2012.04a
    • /
    • pp.382-385
    • /
    • 2012
  • 이 논문에서는 영상 검색(image retrieval) 및 영상 부류(image categorization)을 위하여 영상을 기술할 때 영상의 클레스(class)별로 서로 다른 주요 특징량(feature)에 가중치 를 주는 방법론을 제안한다. 기존에 연구되어온 영상의 특징량 벡터에 가중치를 주는 방식은 모든 영상 클레스에 대하여 동일하게 가중치를 적용하기 때문에 영상이 클레스별로 서로 다른 특징량이 중요하다는 성질을 이용할 수 없다. 영상이 클레 별로 서로 다른 특징량이 중요하다는 성질을 이용하기 위하여 영상의 클레스별로 특징량 벡터에 서로 다른 가중치 벡터(weight vector)를 학습하였다. 그 후 질의 영상(query image)이 입력되면, 기존의 영상 검색 프레임워크(framework)를 통해 데이터베이 스(database)로 부터 미리 정의된 서브 클레스(sub-class)의 수에 해당하는 영상부 집합(subset)을 만들었다. 그리고 영상부 집합의 특징량 벡터들에 클레스별로 각각 학습된 가중치 벡터를 적용하여 특징량 벡터들 간의 거리를 다시 계산하여 리랭킹(re-ranking)하였다. 이 방법론을 UKBench Dataset에 적용하여 실험을 해보았으며 가중치를 주기 전과 비교 하였을 때 더 높은 정확도를 보였다.

Efficient Dynamic Weighted Frequent Pattern Mining by using a Prefix-Tree (Prefix-트리를 이용한 동적 가중치 빈발 패턴 탐색 기법)

  • Jeong, Byeong-Soo;Farhan, Ahmed
    • The KIPS Transactions:PartD
    • /
    • v.17D no.4
    • /
    • pp.253-258
    • /
    • 2010
  • Traditional frequent pattern mining considers equal profit/weight value of every item. Weighted Frequent Pattern (WFP) mining becomes an important research issue in data mining and knowledge discovery by considering different weights for different items. Existing algorithms in this area are based on fixed weight. But in our real world scenarios the price/weight/importance of a pattern may vary frequently due to some unavoidable situations. Tracking these dynamic changes is very necessary in different application area such as retail market basket data analysis and web click stream management. In this paper, we propose a novel concept of dynamic weight and an algorithm DWFPM (dynamic weighted frequent pattern mining). Our algorithm can handle the situation where price/weight of a pattern may vary dynamically. It scans the database exactly once and also eligible for real time data processing. To our knowledge, this is the first research work to mine weighted frequent patterns using dynamic weights. Extensive performance analyses show that our algorithm is very efficient and scalable for WFP mining using dynamic weights.

Development of Web Credibility Evaluation Model Using AHP (AHP를 이용한 웹 사이트 신뢰성 평가 모델 개발)

  • Kim, Young-Kee
    • Journal of Korean Library and Information Science Society
    • /
    • v.39 no.4
    • /
    • pp.51-69
    • /
    • 2008
  • This study tired to develop the web credibility evaluation model by calculating weighted values and sensitivities of indicators which presented on preceding researches using Analytic Hierarchy Process. "Expert Choice 2000" was used as the tool for analysing AHP. 25 experts are answered for this questionnaire who are selected by judgement sampling method, one of the non-probability sampling method. Also, sensitivity analyses was performed to graphically see how the alternatives change with respect to the importance of the indicators or sub-indicators. The main results are summarized as followings; i) importance analysis in first level factors: trust-worthiness(0,606), expertness(0.222), safety(0.173), ii) importance analysis in second level factors: trustfulness (0.519), reputation(0.087), usefulness (0.102), timeliness(0,093), competency(0.027), security(0.115), reliability(0,058). iii) some of the importance analysis in third level factors: the site provides comprehensive information that is attributed to a specific source(0.252), the site has articles that list citations and references(0.153), the site contains user opinions and reviews(0.072), etc. iv) sensitivity analyses showed that the importance of the indicators or sub-indicators are slightly changed with respect to the alternatives change.

  • PDF

Texture Classification by a Fusion of Weighted Feature (가중치 특징 벡터를 이용한 질감 영상 인식 방법)

  • 정수연;곽동민;윤옥경;박길흠
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.407-410
    • /
    • 2001
  • 최근 영상 검색(retrieval)과 분류(classification)에서 질감 특징(texture feature)을 이용한 연구들이 활발하게 진행되고 있다. 본 논문에서는 효율적인 질감 특징 추출을 위해 명암도 상호발생 행렬법(gray level co-occurrence matrix)과 웨이블릿 변환(wavelet transform)을 이용하여 질감의 특징을 추출한 후 특징의 중요도에 따라서 가중치를 부여하는 방법을 제안한다. 이렇게 추출된 가중치 대표 벡터들을 기반으로 베이시안 분류기(Bayesian classifier)를 통해 임의의 질감을 인식하였다.

  • PDF

A Research on Enhancement of Text Categorization Performance by using Okapi BM25 Word Weight Method (Okapi BM25 단어 가중치법 적용을 통한 문서 범주화의 성능 향상)

  • Lee, Yong-Hun;Lee, Sang-Bum
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.11 no.12
    • /
    • pp.5089-5096
    • /
    • 2010
  • Text categorization is one of important features in information searching system which classifies documents according to some criteria. The general method of categorization performs the classification of the target documents by eliciting important index words and providing the weight on them. Therefore, the effectiveness of algorithm is so important since performance and correctness of text categorization totally depends on such algorithm. In this paper, an enhanced method for text categorization by improving word weighting technique is introduced. A method called Okapi BM25 has been proved its effectiveness from some information retrieval engines. We applied Okapi BM25 and showed its good performance in the categorization. Various other words weights methods are compared: TF-IDF, TF-ICF and TF-ISF. The target documents used for this experiment is Reuter-21578, and SVM and KNN algorithms are used. Finally, modified Okapi BM25 shows the most excellent performance.