• 제목/요약/키워드: 연관규칙 학습

검색결과 67건 처리시간 0.027초

기계학습 기반 경쟁자 자동추출 방법 (Competitor Extraction based on Machine Learning Methods)

  • 이충희;김현진;류법모;김현기;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-112
    • /
    • 2012
  • 본 논문은 일반 텍스트에 나타나는 경쟁 관계에 있는 고유명사들을 경쟁자로 자동 추출하는 방법에 대한 것으로, 규칙 기반 방법과 기계 학습 기반 방법을 모두 제안하고 비교하였다. 제안한 시스템은 뉴스 기사를 대상으로 하였고, 문장에 경쟁관계를 나타내는 명확한 정보가 있는 경우에만 추출하는 것을 목표로 하였다. 규칙기반 경쟁어 추출 시스템은 2개의 고유명사가 경쟁관계임을 나타내는 단서단어에 기반해서 경쟁어를 추출하는 시스템이며, 경쟁표현 단서단어는 620개가 수집되어 사용됐다. 기계학습 기반 경쟁어 추출시스템은 경쟁어 추출을 경쟁어 후보에 대한 경쟁여부의 바이너리 분류 문제로 접근하였다. 분류 알고리즘은 Support Vector Machines을 사용하였고, 경쟁어 주변 문맥 정보를 대표할 수 있는 언어 독립적 5개 자질에 기반해서 모델을 학습하였다. 성능평가를 위해서 이슈화되고 있는 핫키워드 54개에 대해서 623개의 경쟁어를 뉴스 기사로부터 수집해서 평가셋을 구축하였다. 비교 평가를 위해서 기준시스템으로 연관어에 기반해서 경쟁어를 추출하는 시스템을 구현하였고, Recall/Precision/F1 성능으로 0.119/0.214/0.153을 얻었다. 제안 시스템의 실험 결과로 규칙기반 시스템은 0.793/0.207/0.328 성능을 보였고, 기계 학습기반 시스템은 0.578/0.730/0.645 성능을 보였다. Recall 성능은 규칙기반 시스템이 0.793으로 가장 좋았고, 기준시스템에 비해서 67.4%의 성능 향상이 있었다. Precision과 F1 성능은 기계학습기반 시스템이 0.730과 0.645로 가장 좋았고, 기준시스템에 비해서 각각 61.6%, 49.2%의 성능향상이 있었다. 기준시스템에 비해서 제안한 시스템이 Recall, Precision, F1 성능이 모두 대폭적으로 향상되었으므로 제안한 방법이 효과적임을 알 수 있다.

  • PDF

교통사고 데이터의 패턴 분석과 Hybrid Model을 이용한 피해자 상해 심각도 예측 (Pattern Analysis of Traffic Accident data and Prediction of Victim Injury Severity Using Hybrid Model)

  • 주영지;홍택은;신주현
    • 스마트미디어저널
    • /
    • 제5권4호
    • /
    • pp.75-82
    • /
    • 2016
  • 우리나라의 경제 성장과 도로 환경의 변화를 통해 국내 자동차 시장이 성장하였으나, 이로 인해 교통사고율 또한 증가하였고, 인명 피해가 심각한 수준이다. 이에 따라, 정부에서는 교통사고 데이터를 개방하고 문제를 해결하기 위한 정책을 수립 및 추진 중이다. 본 논문에서는 교통사고 데이터를 이용하여 클래스의 불균형을 해소하고, Hybrid Model 구축을 통한 교통사고 예측을 위해 원본 교통사고 데이터와 Sampling을 수행한 데이터를 학습 데이터로 사용한다. 두 학습데이터에 연관규칙 학습기법인 FP-Growth 알고리즘을 이용하여 교통사고 상해 심각도와 연관된 패턴을 학습한다. 두 학습 데이터의 연관 패턴을 분석을 통해 같은 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱 회귀분석기법에 연관된 속성에 가중치를 부여하여 융합형 Hybrid Model을 구축하고 교통사고 피해자 상해 심각도를 예측하는 방법에 대해 제안한다.

학습 기반 개인 맞춤형 음식 추천 에이전트 (Learning Based Personalized Foods Recommendation Agent)

  • 한현구;서의현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.313-314
    • /
    • 2009
  • 추천 시스템은 고객의 탐색 시간과 노력을 줄여주기 위한 시스템으로서 고객의 만족도를 제고시키기 위한 시스템에 대한 많은 연구들이 진행되고 있다. 본 논문은 사용자의 프로파일과 음식 주문 내용을 기반으로 개인의 선호도를 분석하여 음식을 추천할 뿐 아니라 새로운 음식에 대한 정보를 제공하기 위해 데이터 마이닝 기법 중 연관규칙을 사용하여 시스템의 유연성을 높인 음식 추천 에이전트를 제안하고 구축한다. 본 시스템은 시간이 지남에 따라 사용자의 만족도가 상승하는 것을 알 수 있었다.

사전정보를 활용한 앙상블 클러스터링 알고리즘 (An Ensemble Clustering Algorithm based on a Prior Knowledge)

  • 고송;김대원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권2호
    • /
    • pp.109-121
    • /
    • 2009
  • 사전정보는 클러스터링 성능을 유도할 수 있는 요인이지만, 활용 방법에 따라 차이는 발생한다. 특히, 사전정보를 초기 중심으로 활용할 때, 사전정보 간 유사도에 대해 고려하는 것이 필요하다. 레이블이 같더라도 낮은 유사도를 갖는 사전정보로 인해 초기 중심 설정 시 문제가 발생할 수 있기 때문에, 이들을 구분하여 활용하는 방법이 필요하다. 따라서 본 논문은 낮은 유사도를 갖는 사전정보를 구분하여 문제를 해결하는 방법을 제시한다. 또한 유사도에 의해 구분된 사전정보는 다양하게 활용함으로써 생성되는 다양한 클러스터링 결과를 연관규칙에 기반하여 앙상블 함으로써 통합된 하나의 분석 결과를 도출하여 클러스터링 분석 성능을 더욱 개선시킬 수 있다.

FMM 신경망에서 연관도요소를 이용한 규칙 추출 기법 (A Rule Extraction Method Using Relevance Factor for FMM Neural Networks)

  • 이승강;이재혁;김호준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권5호
    • /
    • pp.341-346
    • /
    • 2013
  • 본 연구에서는 수정된 구조의 FMM 신경망으로부터 패턴 인식을 위한 규칙 추출 방법을 제안한다. 제안된 방법은 학습데이터에서 특징값에 대한 빈도 요소를 반영하는 하이퍼박스 정의를 기반으로 하는데, 이로부터 특징과 패턴클래스 간의 상호 연관도 요소를 정의 하였다. 이는 기존의 모델에서 사용되는 하이퍼박스 중첩테스트 및 축소(contraction) 기법을 사용하지 않아도 하이퍼박스의 중첩에 의한 분류의 모호성을 해결할 수 있게 한다. 본 연구에서는 패턴 클래스의 각 차원별로 퍼지 분할을 기반으로 하는 수정된 하이퍼박스 멤버쉽 함수와 이를 사용하는 학습방법을 제시한다. 제안된 기법으로부터 특정패턴의 분류를 위한 자극성(excitatory) 특징 및 억제성(inhibitory) 특징을 구분하고 이들 정보는 규칙 생성과정에 적용된다. 수화 인식에 관한 실험에 제안된 방법론을 적용함으로써 제안된 이론의 타당성을 실험적으로 고찰하였다.

연관 규칙 기반의 표출 영역 추천 시스템 (Association Rule Based Display Area Recommender System)

  • 김성진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.550-552
    • /
    • 2022
  • 비디오 월 컨트롤러는 여러 개의 모니터를 연속적으로 배치하여 하나의 큰 스크린으로 표출하는 특수한 형태의 멀티 모니터를 가진다. 멀티스크린에 여러 영상을 동시에 표출하고자 하는 경우, 운영자는 표출할 영상과 모니터를 미리 매핑하여 저장한다. 멀티스크린의 모니터 개수가 많지 않은 소규모의 시스템에서는 영상과 모니터의 매핑 작업이 단순하지만, 모니터의 개수가 늘어날수록 매핑의 경우의 수가 늘어나므로 업무효율이 저하된다. 이에 본 논문에서는 연관 규칙 기반의 학습을 이용하여 영상을 표출할 모니터를 추천하여 매핑 작업의 효율성을 향상시키는 모델을 제안한다.

  • PDF

클러스터링과 퍼지 규칙을 이용한 뉴로-퍼지 시스템 학습 및 모델링 (Learning and Modeling of Neuro-Fuzzy modeling using Clustering and Fuzzy rules)

  • 김승석;곽근창;김주식;유정웅
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2005년도 제36회 하계학술대회 논문집 D
    • /
    • pp.2879-2881
    • /
    • 2005
  • 본 논문에서는 뉴로-퍼지 모델의 전제부 소속함수의 새로운 학습방법을 통한 모델링 기법을 제안한다. 모델의 크기와 학습시간을 줄이는 기법으로 클러스터링 기법을 이용한 모델의 초기 파라미터 결정 방법이 있다. 이는 클러스터링 후 이들 파라미터를 다시 모델에 적용하여 모델을 학습하는 순차적 방법으로써 모델의 학습이 끝난 후의 전제부 파라미터가 클러스터링 파라미터와 연관성을 가지지 못하는 경우가 발생하였다. 또한 오차미분 기반 학습에서는 전제부 초기치가 국부적 최적해에서 벋어나지 못하는 문제점을 가지고 있다. 본 논문에서는 자율적으로 클러스터의 수를 추정하며 이들 파라미터를 최적화하며 이를 이용하여 뉴로-퍼지 모델의 학습을 실시하는 학습기법을 제안하였다. 제안된 방법에서는 기존의 오차미분 기반 학습을 클러스터링 기반 학습으로 확장하였으며 이를 이용한 모델의 성능을 기존의 연구결과와 비교하여 우수성을 보인다.

  • PDF

한국농수산대학 신입생 자기소개서의 텍스트 마이닝과 연관규칙 분석 (1) (Text Mining and Association Rules Analysis to a Self-Introduction Letter of Freshman at Korea National College of Agricultural and Fisheries (1))

  • 주진수;이소영;김종숙;신용광;박노복
    • 현장농수산연구지
    • /
    • 제22권1호
    • /
    • pp.113-129
    • /
    • 2020
  • 본 연구는 2020년 한농대 입학생의 비정형 텍스트인 자소서에서 의미 있는 정보 혹은 규칙을 추출하기 위하여 고교 재학 중 '학업 및 학습경험'과 '교내 활동'을 기술한 두 개 문항에 대하여 텍스트 마이닝에 의한 토픽 분석과 연관성 분석을 하였다. 모집 전형을 구분하지 않은 텍스트 마이닝 분석 결과에서 '학업 및 학습 경험' 항목과 관련된 주요 키워드는 '공부', '생각', '노력', '문제', '친구' 등의 순으로 많이 나타났으며, '교내 활동' 항목과 관련된 주요 키워드는 '활동', '생각', '친구', '동아리', '학교' 등의 순으로 빈도가 높게 나타났다. 그러나 도시 인재 전형과 농수산 인재 전형 신입생들의 키워드 빈도 순위는 두 항목 모두 전형 특성에 따른 약간의 차이를 나타냈다. 빈도 분석에 결과는 빈도수 상위 50위까지의 키워드를 워드 클라우드로 시각화하여 키워드를 알기 쉽게 표현하였다. 연관 분석은 apriori() 함수를 사용하였으며 적정한 계산을 위하여 support(지지도)와 confidence(신뢰도)의 기준값을 항목별로 설정하였다. 먼저 '학업' 항목에 대한 연관 규칙은 46개를 추출하였으며, 그 가운데 {공부} => {생각}, {성적} => {공부} 및 {과목} => {공부} 등의 규칙에서 높은 연관성을 볼 수 있었다. 이 규칙을 바탕으로 매개체 역할의 키워드를 평가하는 관계 중심성 평가와 노드에 연결된 edge의 수에 따라 중요도를 파악하는 연결 중심성 평가에서는 '생각', '공부', '노력', '시간' 등의 키워드가 중심적인 역할을 하는 정보를 획득하였다. 다음으로 '교내 활동' 항목에서는 45개의 연관 규칙을 생성하여 {활동} => {생각}, {동아리} => {활동} 등의 규칙에서 높은 연관성을 볼 수 있었으며, 관계 중심성 평가와 연결 중심성 평가에서는 '생각', '활동', '학교', '시간', '친구' 등의 키워드가 중심 키워드라는 결과를 얻었다. 다음 연구에서는 자소서의 나머지 두 개의 문항 '배려·나눔·협력·갈등관리' 항목과 한농대 '지원동기와 향후 진로계획' 항목을 분석한다. 분석에는 '키워드의 빈도'에 '문서 빈도의 역수'를 곱하여 주로 다량의 문서에서 핵심어를 추출하는 TF-IDF(Term Frequency-Inverse Document Frequency) 분석을 추가한다.

협력적 추천을 위한 사용자와 항목 모델의 효율적인 통합 방법 ((Efficient Methods for Combining User and Article Models for Collaborative Recommendation))

  • 도영아;김종수;류정우;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.540-549
    • /
    • 2003
  • 협력적 추천에서는 일반적으로 사용자 모델과 항목 모델이 사용되어진다. 사용자 모델은 사용자들간의 선호도 상관관계를 학습하고, 추천하고자 하는 항목에 대한 다른 사용자들의 선호도를 기반으로 그 항목을 추천한다. 이와 유사한 방식으로 항목 모델은 항목들간의 선호도 상관관계를 학습하고, 다른 항목들간의 선호도를 기반으로 추천 받는 사용자에게 항목을 추천한다. 본 논문에서는 추천 성능의 향상을 위해서 사용자 모델과 항목 모델간의 다양한 통합 방법을 제안한다. 제안하는 통합 방법으로는 순차적, 병렬적 통합 방법, 퍼셉트론 또는 다층 퍼셉트론을 이용한 통합 방법, 퍼지 규칙을 이용한 통합 방법 그리고 BKS를 적용한 방법이다. 본 실험에서는 통합 모델을 위해서 다층 퍼셉트론을 이용하여 사용자와 항목 모델을 각각 학습한다. 다층 퍼셉트론은 최근접 이웃방법이나 연관 규칙을 이용한 방법과 같은 기존의 추천 방법보다 연관된 항목들간의 가중치를 학습할 수 있고, 기호 데이타와 수치 데이타를 쉽게 처리할 수 있는 장점이 있다. 본 논문에서는 통합된 모델이 어떠한 단일 모델보다도 우수하고, 실험을 통하여 다층 퍼셉트론을 이용한 통합 방법이 다른 통합 방법보다 효율적인 통합 방법임을 보여주고 있다.

데이터마이닝기법을 이용한 인터넷교육 맞춤 시스템 (Internet Learning customized System for using Data Mining Techniques)

  • 이진호;류준석;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.763-764
    • /
    • 2009
  • 정보통신 기술의 발전은 우리의 생활 전반에 걸쳐 빠르게 흡수되며 급속히 진행되고 있다. 특히 교육의 패러다임이 변화됨에 따라 오늘날 인터넷을 기반으로 한 가상교육의 형태는 학생들로 하여금 더 많은 지식 습득 기회를 제공한다. 본 논문에서는 인터넷상의 교육 시스템에서 개인의 정보를 수집하고, 개인별 교육성향을 분석하여 개인별로 적절한 서비스를 제공하기 위한 연구를 하였다. 데이터 마이닝 기법 중 연관규칙과 클러스터링 협업 필터링을 이용하여 학습자의 교육성향을 파악할 수 있다. 이를 마케팅에 적용한다면 학습자의 선호도를 상승시키고 해당 회사에 신뢰도가 높아져 이익을 증가시킬 수 있는 시스템으로 활용될 수 있다.