• 제목/요약/키워드: Online Hard Example Mining

검색결과 6건 처리시간 0.02초

단-단계 물체 탐지기 학습을 위한 고난도 예들의 온라인 마이닝 (Online Hard Example Mining for Training One-Stage Object Detectors)

  • 김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권5호
    • /
    • pp.195-204
    • /
    • 2018
  • 본 논문에서는 심층 합성 곱 신경망 모델 기반의 단-단계 물체 탐지기들의 탐지 성능을 향상시킬 수 있는 새로운 손실 함수와 온라인 고난도 예 마이닝 방식을 제안한다. 본 논문에서 제안하는 손실 함수와 온라인 고난도 예 마이닝 방식은 물체와 배경 간의 학습 데이터 불균형 문제를 해결할 뿐만 아니라, 각 물체의 위치 추정 정확도를 더 개선시킬 수 있다. 따라서 물체 탐지 속도가 빠른 단-단계 물체 탐지기들에 이-단계 물체 탐지기들과 비슷하거나 더 우수한 탐지 성능을 제공할 수 있다. PASCAL VOC 2007 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해, 본 논문에서 제안하는 손실 함수와 온라인 고난도 예 마이닝 방식이 단-단계 물체 탐지기들의 성능 개선에 도움이 된다는 것을 입증해 보인다.

High-Quality Coarse-to-Fine Fruit Detector for Harvesting Robot in Open Environment

  • Zhang, Li;Ren, YanZhao;Tao, Sha;Jia, Jingdun;Gao, Wanlin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권2호
    • /
    • pp.421-441
    • /
    • 2021
  • Fruit detection in orchards is one of the most crucial tasks for designing the visual system of an automated harvesting robot. It is the first and foremost tool employed for tasks such as sorting, grading, harvesting, disease control, and yield estimation, etc. Efficient visual systems are crucial for designing an automated robot. However, conventional fruit detection methods always a trade-off with accuracy, real-time response, and extensibility. Therefore, an improved method is proposed based on coarse-to-fine multitask cascaded convolutional networks (MTCNN) with three aspects to enable the practical application. First, the architecture of Fruit-MTCNN was improved to increase its power to discriminate between objects and their backgrounds. Then, with a few manual labels and operations, synthetic images and labels were generated to increase the diversity and the number of image samples. Further, through the online hard example mining (OHEM) strategy during training, the detector retrained hard examples. Finally, the improved detector was tested for its performance that proved superior in predicted accuracy and retaining good performances on portability with the low time cost. Based on performance, it was concluded that the detector could be applied practically in the actual orchard environment.

연관규칙 마이닝에서의 동시성 기준 확장에 대한 연구 (An Investigation on Expanding Co-occurrence Criteria in Association Rule Mining)

  • 김미성;김남규;안재현
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.23-38
    • /
    • 2012
  • 온라인 쇼핑몰은 인터넷을 통해 손쉽게 접근이 가능하기 때문에, 최초 구매의사가 발생한 시점으로부터 이에 대한 실제 구매가 실현되기까지의 기간이 오프라인 쇼핑몰에 비해 비교적 짧게 나타난다. 즉 오프라인 쇼핑몰의 경우 구매희망 물품을 바로 구매하기 보다는 몇 개의 물품들을 모아서 구매하는 행태가 일반적이다. 하지만, 인터넷 쇼핑몰의 경우 단 하나의 물품만을 포함하고 있는 주문이 전체 주문의 절반 이상을 차지한다. 따라서 온라인 쇼핑몰 데이터의 장바구니 분석에 전통적 데이터마이닝 기법을 그대로 적용할 경우, Null Transaction의 수가 지나치게 많음으로 인해 합리적 수준의 지지도(Support)를 만족시키는 규칙을 찾는 것이 매우 어렵게 된다. 이러한 이유로 온라인 데이터를 사용한 많은 연구는 동시성 기준을 여러 방법으로 확장하여 사용하였는데, 이들 동시성 기준은 명확한 근거나 합의 없이 연구자의 상황에 따라 임의로 선택된 측면이 있다. 따라서 본 연구에서는 온라인 마켓 분석에 적용되는 구매의 동시성 기준을 정확도 측면에서 평가함으로써, 구매의 동시성 기준 선정을 위한 근거를 제시하고자 한다. 또한 동시성 기준의 정확도가 고객의 평균 구매간격에 따라 상이하게 나타나는 것을 파악하여, 향후 고객의 특성에 따른 차별화된 추천 시스템 구축을 위한 기본 방향을 제시하고자 한다. 이를 위해 국내 대형 인터넷 쇼핑몰의 최근 2년간 실제 거래 내역을 대상으로 실험을 수행하였으며, 실험 결과 단골 고객의 구매 추천을 위한 분석의 경우 추천 범위와 분석 데이터의 동시성 기준을 맞추어 연관규칙을 도출하는 것이 바람직하며, 비단골 고객의 경우 대부분의 추천 범위에 대해서 분석 데이터의 동시성 기준을 비교적 길게 설정하여 연관규칙을 도출하는 것이 바람직한 것으로 나타났다.

연관상품 추천을 위한 회귀분석모형 기반 연관 규칙 척도 결합기법 (A Regression-Model-based Method for Combining Interestingness Measures of Association Rule Mining)

  • 이동원
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.127-141
    • /
    • 2017
  • 인터넷과 모바일 관련 기술의 발전과 기기의 보급은 물리적 공간의 제약을 극복하게 하고, 다양한 상품과 서비스를 소비자에게 제공함으로써, 소비자에게 선택의 폭을 넓히는 기회를 제공하는 반면, 많은 시간과 노력을 기울이고도 소비자가 자신의 기호에 적합한 품목을 선택하기 힘들어지는 부작용을 낳았다. 이에 따라, 기업은 추천 시스템을 활용하여 소비자가 원하는 품목을 더 쉽게 찾는 수단을 제공하고 있다. 상품 간의 연관성을 통계적으로 분석하는 연관 규칙 마이닝 기법은 직관적인 형태의 척도를 규칙과 함께 제공함으로써, 이로부터 도출된 규칙에 포함된 품목 간의 관계를 이해하고, 이를 추천에 적용하기 쉽다는 강점을 갖는다. 그러나, 서로 다른 규칙의 척도가 일관되게 어느 한 쪽의 규칙이 더 우위에 있음을 알려주지 못한다면, 수많은 품목 중 추천에 적합한 품목을 적절히 선별해내기 힘든 상황이 발생한다. 본 연구에서는 추천 상품의 순위를 결정할 수 있도록 연관 규칙 마이닝 기법에 회귀분석모형을 보완적으로 적용하는 방안을 제시하고자 수행되었다. 연관 규칙 마이닝에서 보편적으로 사용되고 있는 지지도, 신뢰도, 향상도를 활용하여 모형을 구현함으로써, 직관적으로 이해하기 쉬울 뿐만 아니라, 실무에서도 활용하기 쉬운 방안을 제시하고자 하였다. 국내 최대규모의 온라인 쇼핑몰의 주문 데이터를 활용한 실험을 통해, 제안된 모형으로부터 얻어진 추천 점수를 기반으로 추천상품을 결정하고, 이를 추천에 적용함으로써 추천 적중률을 향상시킬 수 있음을 보였다. 특히, 최근 모바일 상거래가 빠르게 확산됨에 따라, 제한된 화면에 한정된 수의 추천 품목을 제시해야 하는 상황에서 적합한 추천 기법임을 확인할 수 있었다.

온라인 상품평의 내용적 특성이 소비자의 인지된 유용성에 미치는 영향 (Impact of Semantic Characteristics on Perceived Helpfulness of Online Reviews)

  • 박윤주;김경재
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.29-44
    • /
    • 2017
  • 인터넷 상거래에서, 소비자들은 기존에 제품을 구매한 다른 사용자들이 작성한 상품평에 많은 영향을 받는다. 그러나, 상품평이 점차 축적되어감에 따라, 소비자들이 방대한 상품평을 일일이 확인하는데 많은 시간과 노력이 소요되고, 또한 무성의하게 작성된 상품평들은 오히려 소비자들의 불편을 초래하기도 한다. 이에, 본 연구는 온라인 상품평의 유용성에 영향을 미치는 요인들을 분석하여, 소비자들에게 실제로 도움이 될 수 있는 상품평을 선별적으로 제공하는 예측모형을 도출하는 것을 목적으로 한다. 이를 위해, 텍스트마이닝 기법을 사용하여, 상품평에 포함되어있는 다양한 언어적, 심리적, 지각적 요소들을 추출하였으며, 이러한 요소들 중에서 상품평의 유용성에 영향을 미치는 결정요인이 무엇인지 파악하였다. 특히, 경험재인 의류군과 탐색재인 전자제품군에 대한 상품평의 특성 및 유용성 결정요인이 상이할 수 있음을 고려하여, 제품군별로 상품평의 특성을 비교하고, 각각의 결정요인을 도출하였다. 본 연구에는 아마존닷컴(Amazon.com)의 의류군 상품평 7,498건과 전자제품군 상품평 106,962건이 사용되었다. 또한, 언어분석 소프트웨어인 LIWC(Linguistic Inquiry and Word Count)를 활용하여 상품평에 포함된 특징들을 추출하였고, 이후, 데이터마이닝 소프트웨어인 RapidMiner를 사용하여, 회귀분석을 통한, 결정요인 분석을 수행하였다. 본 연구결과, 제품에 대한 리뷰어의 평가가 높고, 상품평에 포함된 전체 단어 수가 많으며, 상품평의 내용에 지각적 과정이 많이 포함되어 있는 반면, 부정적 감정은 적게 포함된 상품평들이 두 제품 모두에서 유용하다고 인식되는 것을 알 수 있었다. 그 외, 의류군의 경우, 비교급 표현이 많고, 전문성 지수는 낮으며, 한 문장에 포함된 단어 수가 적은 간결한 상품평이 유용하다고 인식되고 있었으며, 전자제품의 경우, 전문성 지수가 높고, 분석적이며, 진솔한 표현이 많고, 인지적 과정과 긍정적 감정(PosEmo)이 많이 포함된 상품평이 유용하게 인식되고 있었다. 이러한 연구결과는 향후, 소비자들이 효과적으로 유용한 상품평들을 확인하는데 도움이 될 것으로 기대된다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).