• 제목/요약/키워드: 데이터 필터링

검색결과 985건 처리시간 0.026초

리뷰 데이터 마이닝을 이용한 하이브리드 추천시스템 개발: Amazon Kindle Store 데이터 분석사례 (Development of Hybrid Recommender System Using Review Data Mining: Kindle Store Data Analysis Case)

  • 장예화;이청용;최일영;김재경
    • 경영정보학연구
    • /
    • 제23권1호
    • /
    • pp.155-172
    • /
    • 2021
  • 최근 온라인 상품 구매의 증가로 인해 사용자의 선호에 맞는 상품을 추천해주는 시스템이 지속적으로 연구되고 있다. 추천 시스템은 사용자들에게 개인화된 상품 추천 서비스를 제공하는 시스템으로 사용자가 상품에 남긴 평점을 이용한 협업 필터링(Collaborative Filtering)이 가장 널리 쓰이는 추천 방법이다. 협업 필터링에서 상품 간의 유사도 계산은 시간이 많이 소요되는데, 특히 리뷰 데이터와 같은 빅데이터를 사용할 경우 더욱 많은 시간을 소요한다. 그래서 본 연구에서는 리뷰 데이터 마이닝을 이용하여 상품 간의 유사도 계산을 빠르게 수행할 수 있으면서 정확도를 높일 있도록 2단계(2-Phase) 방법을 이용한 하이브리드 추천시스템 방식을 제안한다. 이를 위해 온라인 전자책 상거래 상점인 아마존 킨들 스토어(Amazon Kindle Store)의 약 98만 개의 온라인 소비자 평점과 리뷰 데이터를 수집하였다. 실험 결과 본 연구에서 제안한 사용자의 평점과 리뷰를 단계적으로 반영한 하이브리드 추천 방식이 전통적인 추천 방식과 비교하여 추천 시간은 비슷하였으나 높은 정확도를 나타내는 것을 확인하였다. 따라서 제안한 방법을 사용하면 사용자가 선호하는 상품을 빠르고 정확하게 추천함으로써 고객의 만족을 높여서 기업의 매출 증대에 기여할수 있을 것으로 기대된다.

SemFilter: 단순하며 효율적인 시맨틱 XML 메시지 필터링 (SemFilter: A Simple and Efficient Semantic XML Message Filtering)

  • 김재훈;박석
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권7호
    • /
    • pp.680-693
    • /
    • 2008
  • XML 메시지 필터링에 관한 최근의 연구들은 모든 출판되는 데이타 소스들이 필터링 시스템에 정의된 유일한 전역 스키마를 따르는 것을 가정한다. 하지만 이러한 가정을 넘어서, 데이타 제공자들이 그들 자신의 스키마를 자유롭게 사용할 수 있는 서비스를 고려할 수 있다. 즉, 데이타 소스들이 이질적인 환경이다. 하지만 XML 필터링 시스템에서 데이타 소스는 다수이며, 또한 출판되는 데이타들은 수시로 생성되고, 갱신되며, 사라진다. 즉, 매우 다이내믹한 환경이다. 본 논문에서는 그러한 다이내믹한 환경을 고려하여 고안된 단순하며 효율적인 의미적 XPath 질의 번역 구현을 소개한다. 특별히 제안되는 질의 번역 기법은 어떤 비주얼한 데이타 가이드가 제공되지 않는 환경에서 사용자가 자신의 지식과 경험에만 의존하여 작성한 질의를 번역하는 것에 초점을 맞춘다. 이러한 환경에서, 사용자는 다수의 이질적인 데이타를 질의하기 때문에, 사용자의 기억상의 스키마에 의존하여 작성된 질의는 실제 스키마와 불일치할 수 있다. 본 연구에서는 제안하는 의미적 XPath 질의 기법이 이러한 문제를 고려하도록 설계한다. 몇 가지 실험 결과는 제안된 질의 번역 기법이 수용할 만한 질의 번역시간을 제공하며, 기존의 방법과 비교하여 실제적임을 보여 준다.

근접 이웃 선정 협력적 필터링 추천시스템에서 이웃 선정 방법에 관한 연구 (A study on neighbor selection methods in k-NN collaborative filtering recommender system)

  • 이석준
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권5호
    • /
    • pp.809-818
    • /
    • 2009
  • 협력적 필터링 기법은 전자상거래에서 거래되는 아이템에 대하여 고객들이 평가한 선호 정보를 이용하여 특정 상품에 대한 선호도 예측 대상 고객의 선호도를 예측하는 기법이다. 협력적 필터링 기법을 통한 예측 정확도를 향상시키기 위해서는 예측에 이용할 수 있는 고객들의 선호 정보를 충분히 확보하여야 한다. 그러나 과도한 이웃 고객의 선호 정보는 오히려 예측 정확도에 부정적 영향을 미치며 또한 과소 정보 역시 예측 정확도 감소에 영향을 미칠 수 있다. 본 연구에서는 협력적 필터링 알고리즘 적용에 있어 k명의 근접 이웃을 결정하는 이웃 선정방법을 개선하였으며 개별 고객의 선호도 평가 정보를 이용하여 적정 이웃 수를 결정할 수 있는 방법을 제시한다. 본 연구의 결과는 근접 이웃 수 결정을 위한 기존 방법인 탐색적 방법을 개선함과 동시에 선호도 예측 정확도를 향상시키는데 유용한 방법을 제공할 수 있다.

  • PDF

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 (A Method for Spam Message Filtering Based on Lifelong Machine Learning)

  • 안연선;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1393-1399
    • /
    • 2019
  • 인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

나이브 베이지안 분류자와 메세지 규칙을 이용한 스팸메일 필터링 시스템 (Spam-mail Filtering System Using Naive Bayesian Classifier and Message Rule)

  • 조한철;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.223-225
    • /
    • 2002
  • 인터넷의 급속한 성장과 함께 E-Mail은 대표적인 통신수단의 하나가 되어버렸다. 편리하다는 점을 이용해서 엄청난 양의 스팸메일이 매일같이 쏟아져 오고 , 그 문제점의 심각성에 정보통신부에서 정보통신망 이용촉진 및 정보보호 등에 관한 법률이라는 새로운 법률까지 생겨났다. 본 논문에서는 이 법률에서 요구하는 '광고'라는 문구를 걸러내는 등의 메시지 규칙을 갖는 시스템과 기존의 문서 분류에 널리 쓰이던 나이브 베이지안 분류자(Naive Baesian Classifier)를 결합한 스팸 메일 필터링 시스템(Spam-mail Fitering System)을 제안한다. 제안된 시스템에서는 사용자가 직접 규칙을 작성할 필요없이 학습한 데이터를 갖고 자동으로 스팸메일을 분류할 수가 있다. 들어온 메일은 메시지 규칙 기반 필터가 먼저 적용되고, 메세지 규칙 기반 필터에서 분류되지 않으면 나이브 베이지안 필터에서 분류된다. 실험에서는 제안된 시스템의 성능을 평가하기 위해서 메시지 규칙을 사용한 시스템 및 나이브 베이지만 분류자 시스템과 비교 평가하였다. 또한 임계치를 변경함으로써 제안된 시스템의 성능을 높일 수있도록 하였다.

  • PDF

추천 시스템의 성능 안정성을 위한 예측적 군집화 기반 협업 필터링 기법 (Predictive Clustering-based Collaborative Filtering Technique for Performance-Stability of Recommendation System)

  • 이오준;유은순
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.119-142
    • /
    • 2015
  • 사용자의 취향과 선호도를 고려하여 정보를 제공하는 추천 시스템의 중요성이 높아졌다. 이를 위해 다양한 기법들이 제안되었는데, 비교적 도메인의 제약이 적은 협업 필터링이 널리 사용되고 있다. 협업 필터링의 한 종류인 모델 기반 협업 필터링은 기계학습이나 데이터 마이닝 모델을 협업 필터링에 접목한 방법이다. 이는 희박성 문제와 확장성 문제 등의 협업 필터링의 근본적인 한계를 개선하지만, 모델 생성 비용이 높고 성능/확장성 트레이드오프가 발생한다는 한계점을 갖는다. 성능/확장성 트레이드오프는 희박성 문제의 일종인 적용범위 감소 문제를 발생시킨다. 또한, 높은 모델 생성 비용은 도메인 환경 변화의 누적으로 인한 성능 불안정의 원인이 된다. 본 연구에서는 이 문제를 해결하기 위해, 군집화 기반 협업 필터링에 마르코프 전이확률모델과 퍼지 군집화의 개념을 접목하여, 적용범위 감소 문제와 성능 불안정성 문제를 해결한 예측적 군집화 기반 협업 필터링 기법을 제안한다. 이 기법은 첫째, 사용자 기호(Preference)의 변화를 추적하여 정적인 모델과 동적인 사용자간의 괴리 해소를 통해 성능 불안정 문제를 개선한다. 둘째, 전이확률과 군집 소속 확률에 기반한 적용범위 확장으로 적용범위 감소 문제를 개선한다. 제안하는 기법의 검증은 각각 성능 불안정성 문제와 확장성/성능 트레이드오프 문제에 대한 강건성(robustness)시험을 통해 이뤄졌다. 제안하는 기법은 기존 기법들에 비해 성능의 향상 폭은 미미하다. 또한 데이터의 변동 정도를 나타내는 지표인 표준 편차의 측면에서도 의미 있는 개선을 보이지 못하였다. 하지만, 성능의 변동 폭을 나타내는 범위의 측면에서는 기존 기법들에 비해 개선을 보였다. 첫 번째 실험에서는 모델 생성 전후의 성능 변동폭에서 51.31%의 개선을, 두 번째 실험에서는 군집 수 변화에 따른 성능 변동폭에서 36.05%의 개선을 보였다. 이는 제안하는 기법이 성능의 향상을 보여주지는 못하지만, 성능 안정성의 측면에서는 기존의 기법들을 개선하고 있음을 의미한다.

변형된 비속어 탐지를 위한 토큰 기반의 분류 및 데이터셋 (Token-Based Classification and Dataset Construction for Detecting Modified Profanity)

  • 고성민;신유현
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.181-188
    • /
    • 2024
  • 기존의 비속어 탐지 방법들은 의도적으로 변형된 비속어를 식별하는 데 한계가 있다. 이 논문에서는 자연어 처리의 한 분야인 개체명 인식에 기반한 새로운 방법을 소개한다. 우리는 시퀀스 레이블링을 이용한 비속어 탐지 기법을 개발하고, 이를 위해 한국어 악성 댓글 중 일부 비속어를 레이블링하여 직접 데이터셋을 구축하여 실험을 수행하였다. 또한 모델의 성능을 향상시키기 위하여 거대 언어 모델중 하나인 ChatGPT를 활용해 한국어 혐오발언 데이터셋의 일부를 레이블링을 하는 방식으로 데이터셋을 증강하여 학습을 진행하였고, 이 과정에서 거대 언어 모델이 생성한 데이터셋을 인간이 필터링 하는 것만으로도 성능을 향상시킬 수 있음을 확인하였다. 이를 통해 데이터셋 증강 과정에는 여전히 인간의 관리감독이 필요함을 제시하였다.

문서영상에서 표 구성 직선과 데이터 추출 (The Extraction of Table Lines and Data in Document Image)

  • 장대근;김의정
    • 한국정보통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.556-563
    • /
    • 2006
  • 문서 영상에서 표 영역을 분류하고 구조를 파악하려면 표를 구성하는 직선과 데이터를 추출할 수 있어야 한다. 그러나 영상 입력 장치의 오차나 영상축소로 인해 표를 구성하는 직선이 끊어지거나 길이가 변하며 직선에 노이즈나 문자가 붙어 표로부터 직선과 데이터의 정확한 추출이 어렵다. 본 논문에서 는 1차원 메디안 필터를 이용하여 표를 구성하는 수평선과 수직선을 추출한다. 1차원 메디안 필터는 필터링 방향의 직선을 추출하는 과정에서 노이즈와 필터링 방향에 수직한 직선을 제거할 뿐 아니라 직선의 끊어진 부분이 필터 탭 길이보다 짧은 경우 끊어진 부분을 연결한다. 또한 수직선을 추출하는 과정에서 직선에 붙어 있던 문자들을 분리함으로써 상용제품을 포함한 기존의 방법에 비해 표 영역 분류 및 구조 분석을 위한 직선과 데이터 추출이 우수한 방법을 제안한다.

실시간 이차원 웨이블릿 변환의 FPGA 구현을 위한 효율적인 메모리 사상 (The Efficient Memory Mapping of FPGA Implementation for Real-Time 2-D Discrete Wavelet Transform)

  • 김왕현;서영호;김종현;김동욱
    • 한국통신학회논문지
    • /
    • 제26권8B호
    • /
    • pp.1119-1128
    • /
    • 2001
  • 본 논문에서는 이차원(2-D) 이산 웨이블릿 면환(Discrete Wavelet Transform, DWT)을 이용한 연상압축기를 FPGA 칩에서 실시간으로 동작 가능하도록 하는 효율적인 메모리 스케줄링 방법(E$^2$M$^2$)을 제안하였다. S/W적으로 위의 메모리 사상 방법을 검증한 후, 실제로 상용화된 SFRAM을 선정하여 메모리 제어기를 구현하였다. 본 논문에서는 Mallet-tree를 이용한 2-D DWT 영상압축 칩을 구현할 경우를 가정하였다. 이 알고리즘은 연산 과정에서 많은 데이터를 정장하여야 하는데, FPGA는 많은 데이터를 저장할 수 있는 메모리가 내장되어 있지 않으므로 외부 메모리를 사용하여야 한다. 외부메모리는 열(row)에 대해서만 연속(burst) 읽기, 쓰기 동작이 가능하기 때문에 Mallet-tree 알고리즘의 데이터 입출력을 그대로 적용할 경우 실시간 동작을 수행하는 DWT 압축 칩을 구현할 수 없다. 본 논문에서는 데이터 쓰기를 수행할 경우에는 메모리 셀(cell)의 수직 방향을 저장시키고 읽기를 수행할 때는 수평으로 데이터의 연속 읽기를 수행함으로써 필터가 항상 수평 방향에 위치하게 하는 방법을 제안하였다. 입방법을 C-언어로 DWT 커넬(Kernel)과 메모리의 에뮬레이터(emulator)를 구현하여 실험한 결과, Mallat-tree 이론을 그대로 적용시켰을 때와 동일한 필터링을 수행할 수 있음을 검증하였다. 또한, 상용화된 SDRAM의 메모리 제어기를 H/W로 구현하여 시뮬레이션 함으로써 본 논문에서 제안한 방법이 실제적인 하드웨어로 실시간 동작을 할 수 있음을 보였다.

  • PDF

항행시스템 성능향상을 위한 강인한 필터링 알고리즘 (Robust Filtering Algorithm for Improvement of Air Navigation System)

  • 조태환;김진혁;최상방
    • 한국항행학회논문지
    • /
    • 제19권2호
    • /
    • pp.123-132
    • /
    • 2015
  • CNS/ATM(communication navigation surveillance / air traffic management)의 감시 분야에서는 ADS-B(automatic dependent surveillance - broadcast) 시스템, MLAT(multilateration) 시스템, WAM(wide area multilateration) 시스템이 구축되고 있다. ADS-B, MLAT, WAM 시스템의 항공기 추적 성능이 기존의 레이더에 비해 매우 우수하지만 여전히 오차를 포함하고 있다. 따라서 본 논문에서는 차세대 항행시스템의 오차를 줄이고 항공기 추적 성능을 높일 수 있는 필터링 알고리즘을 제안하였다. 필터링 알고리즘 중에서 가장 유용하다고 알려진 IMM(interacting multiple model) 필터를 개선한 Robust IMM 필터를 사용하였으며, ADS-B, MLAT, WAM 시스템 등의 차세대 항공기 추적 시스템에 적용하였다. Robust IMM 필터는 항공기 추적성능을 향상시킬 뿐만 아니라 항공기 위치 데이터가 손실되더라도 필터에서 계산한 추정값을 이용하여 지속적인 위치 추적을 가능하게 한다. 필터링 알고리즘을 차세대 항행시스템에 적용했을 때 평균 19.21%의 성능향상이 있었다.