• Title/Summary/Keyword: 분류별 검색

Search Result 307, Processing Time 0.037 seconds

Extracting Alternative Word Candidates for Patent Information Search (특허 정보 검색을 위한 대체어 후보 추출 방법)

  • Baik, Jong-Bum;Kim, Seong-Min;Lee, Soo-Won
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.4
    • /
    • pp.299-303
    • /
    • 2009
  • Patent information search is used for checking existence of earlier works. In patent information search, there are many reasons that fails to get appropriate information. This research proposes a method extracting alternative word candidates in order to minimize search failure due to keyword mismatch. Assuming that two words have similar meaning if they have similar co-occurrence words, the proposed method uses the concept of concentration, association word set, cosine similarity between association word sets and a ranking modification technique. Performance of the proposed method is evaluated using a manually extracted alternative word candidate list. Evaluation results show that the proposed method outperforms the document vector space model in recall.

Issue summarization scheme based on real-time SNS trend analysis (실시간 SNS 트렌드 분석에 기반한 이슈 요약 기법)

  • Kim, Daeyong;Kim, Daehoon;Hwang, Eenjun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1096-1097
    • /
    • 2013
  • 최근 Twitter를 비롯한 소셜 네트워크 서비스의 급속한 확산으로 인해, 많은 수의 SNS 메시지가 실시간으로 생성되고 있다. 이러한 SNS 상의 모든 글을 읽어보는 것은 현실적으로 불가능하며, 여러 포탈 사이트에서 제공되는 실시간 검색어 순위만으로는 상세 내용을 직관적으로 파악하기 어렵다. 따라서, 이러한 SNS상의 글을 실시간으로 분석하여 최신의 트렌드를 찾고 이와 연관된 내용을 분류 및 요약할 수 있다면, 사용자에게 유용한 최신 정보를 생성하여 제공할 수 있다. 본 논문에서는 Tweet 들을 분석하여 얻은 트렌드 키워드를 기반으로 관련된 Tweet 들을 주제 별로 분류한 후, 각 주제 별로 세부 내용을 요약해서 제공하는 기법을 제안한다. 제안하는 기법은 실시간으로 생성되는 Tweet 내에서 최근 화제가 된 트렌드 및 연관 키워드를 추출해낸다. 그 후, 해당 키워드가 출현한 Tweet 내에서 핵심 키워드를 찾고, 이를 기반으로 Tweet 들을 각각의 주제별로 분류하고 각 주제를 '이슈'로 정의한다. 마지막으로, 특정한 이슈에 해당되는 Tweet들을 분석하여 각 이슈 별로 키워드 리스트 및 단문 형식으로 요약된 줄거리를 생성한다. 제안된 기법을 바탕으로 프로토타입 시스템을 구현하고, 다양한 실험을 통하여 이슈 검출 기법의 유용성 면에서 성능을 평가한다.

Implementation of CNN-based Classification Training Model for Unstructured Fashion Image Retrieval using Preprocessing with MASK R-CNN (비정형 패션 이미지 검색을 위한 MASK R-CNN 선형처리 기반 CNN 분류 학습모델 구현)

  • Seunga, Cho;Hayoung, Lee;Hyelim, Jang;Kyuri, Kim;Hyeon-Ji, Lee;Bong-Ki, Son;Jaeho, Lee
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.27 no.6
    • /
    • pp.13-23
    • /
    • 2022
  • In this paper, we propose a detailed component image classification algorithm by fashion item for unstructured data retrieval in the fashion field. Due to the COVID-19 environment, AI-based online shopping malls are increasing recently. However, there is a limit to accurate unstructured data search with existing keyword search and personalized style recommendations based on user surfing behavior. In this study, pre-processing using Mask R-CNN was conducted using images crawled from online shopping sites and then classified components for each fashion item through CNN. We obtain the accuaracy for collar of the shirt's as 93.28%, the pattern of the shirt as 98.10%, the 3 classese fit of the jeans as 91.73%, And, we further obtained one for the 4 classes fit of jeans as 81.59% and the color of the jeans as 93.91%. At the results for the decorated items, we also obtained the accuract of the washing of the jeans as 91.20% and the demage of jeans accuaracy as 92.96%.

Character image database retrieval using MPEG-7 Color Descriptors (MPEG-7 컬러 기술자를 활용한 캐릭터 이미지 데이터베이스 검색)

  • 유광석;김회율
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.641-644
    • /
    • 2001
  • 멀티미디어 검색을 위한 MPEG-7 표준화 작업이 완료되어감에 따라, 멀티미디어 특징 기술자를 활용한 다양한 응용들이 나타나고 있다. 본 논문에서는 미키 마우스, 포켓 몬스터 또는 호돌이와 같은 지적 재산 정보인 동시에 고부가가치 대상인 캐릭터 이미지를 대상으로 하여, 캐릭터 이미지 특징을 분석하고, MPEG-7 에서 정의된 컬러 기술들간의 검색 효율을 비교하여, 캐릭터 이미지에 가장 적합한 기술자를 제안한다. 캐릭터 이미지는 자연 이미지와는 달리, 질감(Texture)이나 모양 (Shape)정보에 비해, 주로 컬러 정보에 의존하며,존재하는 컬러의 수가 3-6 개 범위 내에 주로 존재하고, 컬러의 분포가 고르며, 질감 성분이 많지 않은 특징을 갖고 있다. MPEG-7 에 정의된 Dominant Color, Scalable Color, Color Layout 및 Color Structure 4 종류의 기술자를 캐릭터 이미지 특징에 맞는 기술자를 유형별로 분류된 3,834개의 이미지 셋에 적용하여, 검색 성능 평가 지수인 ANMRR(Average Normalized Modified Retrieval Rank) 를 측정하여 가장 효율적인 기술자를 정의한다.

  • PDF

Related domain service by effective categorization (효율적인 카테고리 분류기법에 의한 연관 도메인 추천 서비스)

  • Hyung Wook Heo;Eun Ju Lee;Ung-Mo Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.702-705
    • /
    • 2008
  • 인터넷 사용자 증가에 따라 검색 엔진의 사용 또한 급격히 늘어나고 있는 추세이다. 국내외 다양한 검색 엔진들이 존재하지만 대부분의 자료들이 기본적인 카테고리별로 링크 횟수나 키워드 빈발 횟수에 따라 정렬이 되어 있다. 그러므로 사용자들은 수동적으로 정렬된 도메인들을 따라 가는 실정이다. 본 논문에서는 수동적인 서비스가 아닌 능동적인 서비스에 중점을 둔다. 특정 카테고리 내에서 접속한 사용자에게 최근 시점을 기준으로 가장 빈번하게 접속된 도메인 정보를 제공하여 시간의 단축과 유용한 서비스를 받도록 한다. 본 논문의 서비스 모델은 인터넷 사용자의 로그 데이터베이스와 도메인 데이터베이스를 기반으로 한다. 본 논문에서 제안하는 카테고리 분류 기법으로 두 데이터베이스를 통합하고 정제한다. 정제된 데이터들은 최종적으로 순차 패턴 마이닝 기법에 의해 최종 빈발 패턴을 추출 하게 되고 특정 카테고리에 접속한 사용자에게 도메인 형태로 변환 되어 서비스 하게 된다.

Deep Analysis on Index Terms Using Baysian Inference Network (베이지안 추론망 기반 색인어의 심층 분석 방법)

  • Song, Sa-Kwang;Lee, Seungwoo;Jung, Hanmin
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.84-87
    • /
    • 2012
  • 대분분의 검색 엔진에서 색인어의 추출 및 가중치의 부여방법은 매우 중요한 연구주제로, 검색 엔진의 성능에 큰 영항을 미친다. 일반적으로, 불용어 리스트를 통해 성능에 긍정적인 영향을 미치지 않는 색인어를 제거하거나, 핵심어 또는 전문용어 등 상대적으로 중요한 색인어를 강조하는 방식을 사용하여 검색엔진의 성능을 향상시킨다. 하지만, 어절 분리, 형태소 분석, 불용어 처리 등 검색엔진의 단계열 처리 과정에서, 개별적인 색인어가 검색엔진에 미치는 영향을 분석하고 이를 반영한 검색 엔진 성능 향상 기법은 제시되지 않고 있다. 따라서 본 연구에서는 각 단계별 처리 과정에서 생성된 색인어가 미치는 영항을 계랑화하여 긍정적/부정적 색인어를 분류하는 방법론을 소개하고, 이를 기반으로 색인어 가중치를 조절함으로써 검색 엔진의 성능 또한 향상 가능한 방법을 소개한다.

  • PDF

Automatic Response and Conceptual Browsing of Internet FAQs Using Self-Organizing Maps (자기구성 지도를 이용한 인터넷 FAQ의 자동응답 및 개념적 브라우징)

  • Ahn, Joon-Hyun;Ryu, Jung-Won;Cho, Sung-Bae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.12 no.5
    • /
    • pp.432-441
    • /
    • 2002
  • Though many services offer useful information on internet, computer users are not so familiar with such services that they need an assistant system to use the services easily In the case of web sites, for example, the operators answer the users e-mail questions, but the increasing number of users makes it hard to answer the questions efficiently. In this paper, we propose an assistant system which responds to the users questions automatically and helps them browse the Hanmail Net FAQ (Frequently Asked Question) conceptually. This system uses two-level self-organizing map (SOM): the keyword clustering SOM and document classification SOM. The keyword clustering SOM reduces a variable length question to a normalized vector and the document classification SOM classifies the question into an answer class. Experiments on the 2,206 e-mail question data collected for a month from the Hanmail net show that this system is able to find the correct answers with the recognition rate of 95% and also the browsing based on the map is conceptual and efficient.

Data Acquisition System Using the Second Binary Code (2차원 부호를 이용한 정보 획득 시스템)

  • Kim, In-Kyeom
    • The Journal of Information Technology
    • /
    • v.6 no.1
    • /
    • pp.71-84
    • /
    • 2003
  • In this paper, it is presented the efficient system for data recognition using the proposed binary code images. The proposed algorithm finds the position of binary image. Through the process of the block region classification, it is classified each block with the edge region using the value of gray level only. Each block region is divided horizontal and vertical edge region. If horizontal edge region blocks are classified over six blocks in any region, the proposed algorithm should search the vertical edge region in the start point of the horizontal edge region. If vertical edge region blocks were found over ten blocks in vertical region, the code image would found. Practical code region is acquired from the rate of the total edge region that is computed from the binary image that is processed with the average value. In case of the wrong rate, it is restarted the code search in the point after start point and the total process is followed. It has a short time than the before process time because it had classified block information. The block processing is faster thant the total process. The proposed system acquires the image from the digital camera and makes binary image from the acquired image. Finally, the proposed system extracts various characters from the binary image.

  • PDF

An Automatic Text Classification Model using Association Rules (데이타마이닝 기법을 이용한 문서 자동 분류 모델)

  • 김영인;이진용;문현정;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 2000.11a
    • /
    • pp.101-108
    • /
    • 2000
  • 기업에서 보유한 전문 지식 정보가 급속도로 증가함에 따라 대량의 문서에 저장된 지식 정보를 효과적으로 탐색하여 기업 경영에 활용하기 위한 지식경영시스템 도입이 확산되고 있다. 이러한 지식경영시스템에서 핵심적인 구성 요소는 전문 분야의 지식 정보를 체계적으로 분류하고 효율적으로 검색하기 위한 지식 탐사 기법이다. 본 논문에서는 데이타마이닝 기법을 이용하여 문서를 자동적으로 분류하기 위한 새로운 모델을 제안하였다. 연관 규칙 탐사 알고리즘을 이용하여 학습용 문서 집합으로부터 세부 분야를 대표하는 색인어 집합을 구성하였다. 세부 분야별 색인어 집합에 대하여 전체 문서에 대한 비중에 따라 가중치 배열을 구성하여 문서를 자동으로 분류하기 위한 기준으로 삼았다. 임의의 문서를 자동적으로 분류하는 실험을 통하여 제안된 방법의 효율성을 검정하였다.

  • PDF

Analysis of Users' Inflow Route and Search Terms of the Korea National Archives' Web Site (국가기록원 웹사이트 유입경로와 이용자 검색어 분석)

  • Jin, Ju Yeong;Rieh, Hae-young
    • Journal of the Korean Society for information Management
    • /
    • v.35 no.1
    • /
    • pp.183-203
    • /
    • 2018
  • As the users' information use environment changes to the Web, the archives are providing more services on the Web than before. This study analyzes the users' recent inflow route and the highly ranked 100 search terms of each month for 10 and half years in the Web site of National Archives of Korea, and suggests suitable information services. As a result of the analysis, it was found out that the inflow route could be divided into access from portal site, by country, from related institutions, and via mobile platform. As a result of analyzing the search terms of users for the last 10 and half years, the most frequently searched term turned out to be 'Land Survey Register', which was also the search term that was searched for with steady interests for 10 and half years. Also, other government documents or official gazettes were of great interests to users. As results of identifying the most frequently searched and steadily searched terms, we were able to categorize the search terms largely in terms of land, Japanese colonial period, the Korean war and relationship of North Korea and South Korea, and records management and use. Based on the results of the analysis, we suggested strengthening connection of the National Archives Web site with portal sites and mobile, and upgrading and improving search services of the National Archives. This study confirmed that the analysis of Web log and user search terms would yield meaningful results that could enhance the user services in archives.