• 제목/요약/키워드: 분류별 검색

검색결과 307건 처리시간 0.028초

특허 정보 검색을 위한 대체어 후보 추출 방법 (Extracting Alternative Word Candidates for Patent Information Search)

  • 백종범;김성민;이수원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권4호
    • /
    • pp.299-303
    • /
    • 2009
  • 특허 정보 검색은 연구 및 기술 개발에 앞서 선행연구의 존재 여부를 확인하기 위한 사전 조사 목적으로 주로 사용된다. 이러한 특히 정보 검색에서 원하는 정보를 얻지 못하는 원인은 다양하다. 그 중에서 본 연구는 키워드 불일치에 의한 정보 누락을 최소화하기 위한 대체어 후보 추출 방법을 제안한다. 본 연구에서 제안하는 대체어 후보 추출 방법은 문장 내에서 함께 쓰이는 단어들이 비슷한 두 단어는 서로 비슷한 의미를 지닐 것이다라는 직관적 가설을 전제로 한다. 이와 같은 가설을 만족하는 대체어를 추출하기 위해서 본 연구에서는 분류별 집중도, 신뢰도를 이용한 연관단어뭉치, 연관단어 뭉치간 코사인 유사도 및 순위 보정 기법을 제안한다. 본 연구에서 제안한 대체어 후보 추출 방법의 성능은 대체어 유형별로 작성된 평가지표를 이용하여 재현율을 측정함으로써 평가하였으며, 제안 방법이 문서 벡터공간 모델의 성능보다 더 우수한 것으로 나타났다.

실시간 SNS 트렌드 분석에 기반한 이슈 요약 기법 (Issue summarization scheme based on real-time SNS trend analysis)

  • 김대용;김대훈;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1096-1097
    • /
    • 2013
  • 최근 Twitter를 비롯한 소셜 네트워크 서비스의 급속한 확산으로 인해, 많은 수의 SNS 메시지가 실시간으로 생성되고 있다. 이러한 SNS 상의 모든 글을 읽어보는 것은 현실적으로 불가능하며, 여러 포탈 사이트에서 제공되는 실시간 검색어 순위만으로는 상세 내용을 직관적으로 파악하기 어렵다. 따라서, 이러한 SNS상의 글을 실시간으로 분석하여 최신의 트렌드를 찾고 이와 연관된 내용을 분류 및 요약할 수 있다면, 사용자에게 유용한 최신 정보를 생성하여 제공할 수 있다. 본 논문에서는 Tweet 들을 분석하여 얻은 트렌드 키워드를 기반으로 관련된 Tweet 들을 주제 별로 분류한 후, 각 주제 별로 세부 내용을 요약해서 제공하는 기법을 제안한다. 제안하는 기법은 실시간으로 생성되는 Tweet 내에서 최근 화제가 된 트렌드 및 연관 키워드를 추출해낸다. 그 후, 해당 키워드가 출현한 Tweet 내에서 핵심 키워드를 찾고, 이를 기반으로 Tweet 들을 각각의 주제별로 분류하고 각 주제를 '이슈'로 정의한다. 마지막으로, 특정한 이슈에 해당되는 Tweet들을 분석하여 각 이슈 별로 키워드 리스트 및 단문 형식으로 요약된 줄거리를 생성한다. 제안된 기법을 바탕으로 프로토타입 시스템을 구현하고, 다양한 실험을 통하여 이슈 검출 기법의 유용성 면에서 성능을 평가한다.

비정형 패션 이미지 검색을 위한 MASK R-CNN 선형처리 기반 CNN 분류 학습모델 구현 (Implementation of CNN-based Classification Training Model for Unstructured Fashion Image Retrieval using Preprocessing with MASK R-CNN)

  • 조승아;이하영;장혜림;김규리;이현지;손봉기;이재호
    • 한국산업정보학회논문지
    • /
    • 제27권6호
    • /
    • pp.13-23
    • /
    • 2022
  • 본 논문에서는 패션 분야의 비정형 데이터 검색을 위한 패션 아이템별 세부 컨포넌트 이미지 분류 알고리즘을 제안한다. 코로나-19 환경으로 인하여 최근 AI 기반 쇼핑몰이 증가하는 추세이다. 하지만 기존의 키워드 검색과 사용자 서핑 행위 기반 개인 맞춤형 스타일 추천으로는 정확한 비정형 데이터 검색에는 한계가 있다. 본 연구는 다양한 온라인 쇼핑 사이트에서 크롤링한 이미지를 사용하여 Mask R-CNN을 활용한 전처리를 진행한 후, CNN을 통해 패션 아이템별 컴포넌트에 대한 분류를 진행하였다. 셔츠의 카라 및 패턴과 청바지의 핏, 워싱 및 컬러에 대한 분류를 진행하였으며, 다양한 전이학습 모델을 비교 분석한 후 가장 높은 정확도가 나온 Densenet121모델을 사용하여 셔츠의 카라는 93.28%, 셔츠의 패턴은 98.10%의 정확도를 도달하였으며, 청바지의 핏은 Notched, Spread, Straight 3가지의 클래스의 경우 91.73%, Regular 핏을 추가한 4가지의 클래스의 경우 81.59%, 청바지의 색상은 93.91%, 청바지의 Washing은 91.20%, 청바지의 Demgae는 92.96%의 정확도를 도출하였다.

MPEG-7 컬러 기술자를 활용한 캐릭터 이미지 데이터베이스 검색 (Character image database retrieval using MPEG-7 Color Descriptors)

  • 유광석;김회율
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.641-644
    • /
    • 2001
  • 멀티미디어 검색을 위한 MPEG-7 표준화 작업이 완료되어감에 따라, 멀티미디어 특징 기술자를 활용한 다양한 응용들이 나타나고 있다. 본 논문에서는 미키 마우스, 포켓 몬스터 또는 호돌이와 같은 지적 재산 정보인 동시에 고부가가치 대상인 캐릭터 이미지를 대상으로 하여, 캐릭터 이미지 특징을 분석하고, MPEG-7 에서 정의된 컬러 기술들간의 검색 효율을 비교하여, 캐릭터 이미지에 가장 적합한 기술자를 제안한다. 캐릭터 이미지는 자연 이미지와는 달리, 질감(Texture)이나 모양 (Shape)정보에 비해, 주로 컬러 정보에 의존하며,존재하는 컬러의 수가 3-6 개 범위 내에 주로 존재하고, 컬러의 분포가 고르며, 질감 성분이 많지 않은 특징을 갖고 있다. MPEG-7 에 정의된 Dominant Color, Scalable Color, Color Layout 및 Color Structure 4 종류의 기술자를 캐릭터 이미지 특징에 맞는 기술자를 유형별로 분류된 3,834개의 이미지 셋에 적용하여, 검색 성능 평가 지수인 ANMRR(Average Normalized Modified Retrieval Rank) 를 측정하여 가장 효율적인 기술자를 정의한다.

  • PDF

효율적인 카테고리 분류기법에 의한 연관 도메인 추천 서비스 (Related domain service by effective categorization)

  • 허형욱;이은주;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.702-705
    • /
    • 2008
  • 인터넷 사용자 증가에 따라 검색 엔진의 사용 또한 급격히 늘어나고 있는 추세이다. 국내외 다양한 검색 엔진들이 존재하지만 대부분의 자료들이 기본적인 카테고리별로 링크 횟수나 키워드 빈발 횟수에 따라 정렬이 되어 있다. 그러므로 사용자들은 수동적으로 정렬된 도메인들을 따라 가는 실정이다. 본 논문에서는 수동적인 서비스가 아닌 능동적인 서비스에 중점을 둔다. 특정 카테고리 내에서 접속한 사용자에게 최근 시점을 기준으로 가장 빈번하게 접속된 도메인 정보를 제공하여 시간의 단축과 유용한 서비스를 받도록 한다. 본 논문의 서비스 모델은 인터넷 사용자의 로그 데이터베이스와 도메인 데이터베이스를 기반으로 한다. 본 논문에서 제안하는 카테고리 분류 기법으로 두 데이터베이스를 통합하고 정제한다. 정제된 데이터들은 최종적으로 순차 패턴 마이닝 기법에 의해 최종 빈발 패턴을 추출 하게 되고 특정 카테고리에 접속한 사용자에게 도메인 형태로 변환 되어 서비스 하게 된다.

베이지안 추론망 기반 색인어의 심층 분석 방법 (Deep Analysis on Index Terms Using Baysian Inference Network)

  • 송사광;이승우;정한민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.84-87
    • /
    • 2012
  • 대분분의 검색 엔진에서 색인어의 추출 및 가중치의 부여방법은 매우 중요한 연구주제로, 검색 엔진의 성능에 큰 영항을 미친다. 일반적으로, 불용어 리스트를 통해 성능에 긍정적인 영향을 미치지 않는 색인어를 제거하거나, 핵심어 또는 전문용어 등 상대적으로 중요한 색인어를 강조하는 방식을 사용하여 검색엔진의 성능을 향상시킨다. 하지만, 어절 분리, 형태소 분석, 불용어 처리 등 검색엔진의 단계열 처리 과정에서, 개별적인 색인어가 검색엔진에 미치는 영향을 분석하고 이를 반영한 검색 엔진 성능 향상 기법은 제시되지 않고 있다. 따라서 본 연구에서는 각 단계별 처리 과정에서 생성된 색인어가 미치는 영항을 계랑화하여 긍정적/부정적 색인어를 분류하는 방법론을 소개하고, 이를 기반으로 색인어 가중치를 조절함으로써 검색 엔진의 성능 또한 향상 가능한 방법을 소개한다.

  • PDF

자기구성 지도를 이용한 인터넷 FAQ의 자동응답 및 개념적 브라우징 (Automatic Response and Conceptual Browsing of Internet FAQs Using Self-Organizing Maps)

  • 안준현;류중원;조성배
    • 한국지능시스템학회논문지
    • /
    • 제12권5호
    • /
    • pp.432-441
    • /
    • 2002
  • 최근 인터넷상의 정보를 가공하여 사용자에게 효율적으로 제공하는 서비스들이 많아지고 있지만, 컴퓨터에 익숙하지 않은 사용자들은 이러한 서비스를 쉽게 이용하지 못하기 때문에 사용자들을 돕는 시스템이 필요하다. 예를 들어, 웹사이트의 경우 전자우편을 통한 사용자들의 질문에 대해 관리자가 직접 답을 해줘야 하는데, 사용자의 증가로 질의응답 업무의 양이 커지고 있다. 본 논문에서는 이를 해결하기 위하여 사용자의 질의를 자동으로 분류하여 응답하고 사용자가 FAQ를 개념적으로 브라우징할 수 있도록 하는 시스템을 제안한다. 이 시스템은 다양한 크기의 질의 메일을 정형화된 크기로 만들기 위한 키워드 클러스터링 자기구성 지도(SOM)와 이를 실제 해당 답변 클래스로 분류하는 전자 우편 분류 SOM의 이단계 구조로 구성되어 사용자의 질의에 해당하는 답변을 자동으로 전송할 수 있으며, 사용자가 이차원상에 표현된 문서 지도를 이용하여 쉽게 전체 자료의 분포를 파악하여 검색할 수 있다. 실제 한 달간 수집한 2,206개의 한메일넷 질의 데이터에 대한 실험 결과, 95%의 분류율을 보여 그 유용성을 볼 수 있었으며, 단계별 검색이 가능하여 사용자가 효율적으로 검색할 수 있음을 확인할 수 있었다.

2차원 부호를 이용한 정보 획득 시스템 (Data Acquisition System Using the Second Binary Code)

  • 김인겸
    • 정보학연구
    • /
    • 제6권1호
    • /
    • pp.71-84
    • /
    • 2003
  • 본 논문에서는 제안한 2차원 이진 코드를 이용하는 효율적인 정보 인식 시스템을 제안한다. 먼저 전체 영상내에서 이진 영상의 위치를 검색하며 검색 방법은 블록 영역 분류 기법을 이용하여 각 블록의 경계선 영역을 검색하여 이진 부호 영상의 위치를 검색한다. 각 경계선 영역은 수직 영역과 수평영역으로 구분한다. 수평영역이 발견된 경우 6블록을 연속하여 수평영역인 경우 수평영역 검색을 시작한 처음 위치에서 수직영역을 검색하여 10블록 이상의 수직영역이 발견된 경우 부호 영역을 획득한다. 실제적인 부호영역은 평균값을 기준으로 이진화 과정을 수행한 후 이진화 영상으로부터 구한 전체 모서리의 비율을 검사함으로써 원하는 부호를 획득한다. 비율이 틀린 경우 다시 검색을 시작하여 전체 과정을 한번 더 수행하게 된다. 이때의 수행과정은 이미 영역분류가 이루어진 블록별 영상으로 수행하므로 수행 시간은 전체 영상에 적용한 것보다 빠르게 수행된다는 것을 알 수 있다. 이렇게 함으로써 본 논문에서 제안한 시스템은 이진 영상으로부터 다양한 정보들을 추출할 수 있다.

  • PDF

데이타마이닝 기법을 이용한 문서 자동 분류 모델 (An Automatic Text Classification Model using Association Rules)

  • 김영인;이진용;문현정;우용태
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2000년도 추계학술대회 E-Business와 정보보안
    • /
    • pp.101-108
    • /
    • 2000
  • 기업에서 보유한 전문 지식 정보가 급속도로 증가함에 따라 대량의 문서에 저장된 지식 정보를 효과적으로 탐색하여 기업 경영에 활용하기 위한 지식경영시스템 도입이 확산되고 있다. 이러한 지식경영시스템에서 핵심적인 구성 요소는 전문 분야의 지식 정보를 체계적으로 분류하고 효율적으로 검색하기 위한 지식 탐사 기법이다. 본 논문에서는 데이타마이닝 기법을 이용하여 문서를 자동적으로 분류하기 위한 새로운 모델을 제안하였다. 연관 규칙 탐사 알고리즘을 이용하여 학습용 문서 집합으로부터 세부 분야를 대표하는 색인어 집합을 구성하였다. 세부 분야별 색인어 집합에 대하여 전체 문서에 대한 비중에 따라 가중치 배열을 구성하여 문서를 자동으로 분류하기 위한 기준으로 삼았다. 임의의 문서를 자동적으로 분류하는 실험을 통하여 제안된 방법의 효율성을 검정하였다.

  • PDF

국가기록원 웹사이트 유입경로와 이용자 검색어 분석 (Analysis of Users' Inflow Route and Search Terms of the Korea National Archives' Web Site)

  • 진주영;이해영
    • 정보관리학회지
    • /
    • 제35권1호
    • /
    • pp.183-203
    • /
    • 2018
  • 이용자 정보이용환경이 웹으로 변화하면서, 기록관리기관들도 종전보다 더 많은 서비스를 웹을 통해 제공하고 있다. 이 연구는 국가기록원 웹사이트를 이용하는 이용자의 최근 유입경로와 10년 반 동안 매달 상위 100개의 검색어 데이터를 분석하고 그에 맞는 기록정보서비스방안을 제시한다. 분석 결과 유입경로는 크게 포털 사이트별 접속, 국가별 접속, 유사기관 별 접속 및 모바일 접속으로 분류할 수 있었다. 이용자들의 검색어를 분석한 결과 이용자들이 10년 반 동안 가장 많이 검색한 검색어는 '토지조사부'였으며, 꾸준한 관심을 갖고 검색한 검색어 또한 '토지조사부'였다. 그 외에 정부 기관에서 생산한 문서 또는 관보에 대한 관심도 높음을 확인하였다. 그리고 이용자들이 가장 많이 검색한 검색어와 꾸준히 등장한 검색어를 파악한 결과, 검색어들을 크게 토지, 일제강점기, 6.25 전쟁과 남북관계, 기록관리 및 이용으로 묶어볼 수 있었다. 분석결과를 토대로 포털 사이트 및 모바일 등을 활용한 국가기록원 웹사이트의 연계성 강화와 검색 서비스의 고도화 방안을 제안하였다. 이 연구는 이렇게 웹로그나 이용자 검색어 등을 분석하면 기록관리기관 이용자들에게 제공하는 서비스를 고도화할 수 있는 의미 있는 결과를 얻을 수 있음을 확인하였다.