• 제목/요약/키워드: 유사 키워드

검색결과 311건 처리시간 0.028초

유사한 인기도 추세를 갖는 웹 객체들의 클러스터링 (Clustering of Web Objects with Similar Popularity Trends)

  • 노웅기
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.485-494
    • /
    • 2008
  • 인터넷이 광범위하게 활용됨에 따라 검색 키워드, 멀티미디어 객체, 웹 페이지, 블로그 등의 다양한 웹 객체들이 크게 증가하고 있다. 이러한 웹 객체들의 인기도는 시간에 따라 변화하며, 그러한 웹 객체 인기도의 시간적 패턴에 대한 마이닝이 여러 가지 웹 응용에 필요한 중요한 연구 과제가 되고 있다. 예를 들어, 검색 키워드에 대한 인기도 패턴의 분석은 앞으로 인기가 높아질 키워드를 미리 예측할 수 있게 하여 광고주들에게 키워드를 판매하기 위한 가격을 결정하는 데에 중요한 자료가 될 수 있다. 하지만, 웹 객체 인기도가 시간에 따라 변화하고 웹 객체의 개수가 매우 방대하다는 특성으로 인하여 웹 객체 인기도에 대한 분석은 매우 어려운 문제이다. 본 논문에서는 웹 객체 인기도의 시간적 패턴을 마이닝하기 위한 효율적인 알고리즘을 제안한다. 본 논문은 웹 객체 인기도를 시계열로 표현하고, 두 웹 객체 인기도 간의 유사성을 측정하기 위하여 gap 척도를 제안한다. gap 척도의 효율적인 계산을 위하여 FFT를 활용한 알고리즘을 제안하고, 밀도기반 클러스터링 알고리즘을 이용하여 유사한 인기도 추세를 갖는 웹 객체들의 클러스터를 생성한다. 본 논문에서는 웹 객체 인기도가 특정 분포를 따르거나 주기적이라고 가정하지 않는다. Google Trends 웹 사이트로부터 구한 검색 키워드 인기도를 이용한 실험을 통하여, 제안된 알고리즘이 실세계 응용에서 유용함을 보인다.

심층적 의미 매칭을 이용한 cQA 시스템 질문 검색 (Question Retrieval using Deep Semantic Matching for Community Question Answering)

  • 김선훈;장헌석;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.116-121
    • /
    • 2017
  • cQA(Community-based Question Answering) 시스템은 온라인 커뮤니티를 통해 사용자들이 질문을 남기고 답변을 작성할 수 있도록 만들어진 시스템이다. 신규 질문이 인입되면, 기존에 축적된 cQA 저장소에서 해당 질문과 가장 유사한 질문을 검색하고, 그 질문에 대한 답변을 신규 질문에 대한 답변으로 대체할 수 있다. 하지만, 키워드 매칭을 사용하는 전통적인 검색 방식으로는 문장에 내재된 의미들을 이용할 수 없다는 한계가 있다. 이를 극복하기 위해서는 의미적으로 동일한 문장들로 학습이 되어야 하지만, 이러한 데이터를 대량으로 확보하기에는 어려움이 있다. 본 논문에서는 질문이 제목과 내용으로 분리되어 있는 대량의 cQA 셋에서, 질문 제목과 내용을 의미 벡터 공간으로 사상하고 두 벡터의 상대적 거리가 가깝게 되도록 학습함으로써 의사(pseudo) 유사 의미의 성질을 내재화 하였다. 또한, 질문 제목과 내용의 의미 벡터 표현(representation)을 위하여, semi-training word embedding과 CNN(Convolutional Neural Network)을 이용한 딥러닝 기법을 제안하였다. 유사 질문 검색 실험 결과, 제안 모델을 이용한 검색이 키워드 매칭 기반 검색보다 좋은 성능을 보였다.

  • PDF

딥러닝을 이용한 법률 분야 한국어 의미 유사판단에 관한 연구 (Deep Learning Based Semantic Similarity for Korean Legal Field)

  • 김성원;박광렬
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권2호
    • /
    • pp.93-100
    • /
    • 2022
  • 기존의 데이터 검색 방법으로는 키워드 중심의 검색 방법이 주로 사용되나, 이는 전문적인 용어가 많이 쓰이는 법률 분야의 검색 방법으로는 적합하지 않다. 이에 대해 본 논문에서는 법률 분야의 효과적인 데이터 검색 방안을 제안한다. 법률 도메인의 자연어처리 분야에서 문장 간의 유사성을 판단하는 데 최적화된 임베딩 방법에 관하여 서술한다. 법률문장을 TF-IDF를 이용하여 키워드 기반으로 임베딩하거나 Universal Sentence Encoder를 이용하여 의미 기반으로 임베딩을 한 후, BERT모델을 결합하여 법률 분야에서 문장 간 유사성을 검사하여 데이터를 검색하는 최적의 방안을 제안한다.

온톨로지를 이용한 뉴스 비디오의 자동 분류 기법 (Full-automatic Classification Technique of News Video using Domain Ontologies)

  • 김하은;이동호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.193-195
    • /
    • 2005
  • 본 논문은 온톨로지를 이용하여 뉴스 비디오를 분야별로 자동으로 분류하는 효율적인 기법을 제안한다. 이를 위해서 뉴스 비디오를 파싱하여 키프레임(Key frame), 샷(Shot), 씬(Scene)으로 나누고 키프레임과 샷에서 특징 정보를 추출한다. 추출된 특징 정보를 이용하여 샷의 키워드 집합을 만들고 이를 이용하여 씬의 키워드 집합을 만든다. 그리고 씬의 키워드 집합을 어휘 온톨로지와 뉴스 온톨로지에 매칭(추론)하여, 씬의 분야를 결정한다. 또한 이렇게 결정된 분야를 기반으로 서로 유사한 씬들을 자동으로 그룹화하는 방법을 제안한다.

  • PDF

키워드 확장을 통한 효율적인 유의어 검출 방법 (Efficient Synonym Detection Method through Keyword Extension)

  • 지기용;박지수;손진곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.767-770
    • /
    • 2018
  • 인공지능의 발달로 사람이 사용하는 자연어 형태의 문장을 통해 정보를 주고받는 질의응답 시스템이 주목받고 있다. 이러한 질의응답 시스템은 자연어로 구성된 사용자의 질의문에서 의도를 정확하게 파악해야 한다. 단순히 질의어의 키워드에 의존한 검색은 단어의 중의성을 고려하지 않아 질의문의 의도를 정확히 파악하는 데 문제가 있다. 이런 문제점을 해결하기 위해 질의문의 의미와 맥락에 따른 연관성을 이용하여 유의어를 확장하는 방법이 연구되고 있다. 본 논문에서는 워드 임베딩을 통해 생성된 단어 유사도를 이용하여 질의문에서 추출된 키워드를 확장하는 방법을 제안한다.

키워드 매칭에 의한 도서 빅데이터의 맵리듀스 모델 적용에 관한 연구 (A Study on Applications of Book Big Data to Map-Reduce Model by Keyword Mapping)

  • 김태진;이재웅;서정우;김미혜;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.247-249
    • /
    • 2015
  • 본 논문에서는 하둡 플랫폼의 맵리듀스 모델에 기반하여 도서관 이용자들이 자주 대출하는 도서와 키워드 매칭을 통해 연관성이 높은 도서들을 추출하고 추천해 주는 도서 대출 추천 시스템을 구현 개발한다. 구현 개발된 시스템은 빅데이터의 특징을 갖는 도서관의 대출 로그 데이터로부터 타겟 도서와 유사한 키워드를 갖고 자주 대출되는 도서를 찾아 이용자에게 제공해 준다.

프로그램 코드 분석을 위한 유사도 측정 및 가시화 기법 (A Similarity Measurement and Visualization Method for the Analysis of Program Code)

  • 이영주;이정진
    • 한국멀티미디어학회논문지
    • /
    • 제16권7호
    • /
    • pp.802-809
    • /
    • 2013
  • 본 논문에서는 프로그래밍 언어에 정의되는 지정자와 키워드가 프로그램 코드 상에서 연속적인 패턴으로 나타나게 될 때, 해당 연속 패턴들의 빈도와 길이를 측정하여 두 코드 사이의 유사성을 측정하는 기법을 제안한다. 또한, 이러한 분석 결과를 정형적 개념 분석 기법을 이용하여 가시화하는 기법을 제안한다. 제안 기법은 기존의 유사도 측정 기법에서는 고려하지 않았던 단어 인접성을 유사도 측정에 반영한다. 함수 단위로 지정자와 키워드 패턴을 이용하여 함수의 호출 순서나 수행 순서에 상관없이 표절을 탐지할 수 있다. 또한, 유사도 측정 결과는 정형적 개념 분석 기법을 이용하여 격자(lattice)로 시각화되어 사용자의 이해도를 높일 수 있다. 실험 결과 제안 기법은 96%의 표절 탐지 성공률을 보여주었다. 제안 기법은 프로그램 코드 뿐만 아니라 일반 문서의 분석에도 적용될 수 있다.

개체명을 이용한 주제기반 웹 문서 클러스터링 (Topic based Web Document Clustering using Named Entities)

  • 성기윤;윤보현
    • 한국콘텐츠학회논문지
    • /
    • 제10권5호
    • /
    • pp.29-36
    • /
    • 2010
  • 종래의 클러스터링 기법은 단순히 키워드를 추출에 기반한 단어간 유사도에 의한 그룹핑 방식을 구사함으로써 비교해야 할 대상 키워드 수 및 종류가 매우 다양하여 계산량이 증가함으로써 속도가 느리고 정확도도 높지 않은 편이다. 본 논문은 이러한 단점을 해소하기 위해 웹 문서를 대상으로 기존 명사 위주의 키워드 뿐 아니라 인명, 지명, 회사명, 물품명 등을 자동으로 인식하는 개체명 인식 결과를 이용하는 웹클러스터링 기법을 제안하고자 한다. 실험을 통해 기존 키워드 기반 클러스터링 결과에 비해 개체명 기반클러스터링의 품질이 우수함을 증명하였으며, 문서 집합 특성에 따른 클러스터링 결과도 비교 분석하였다.

사용자 질의 의미 해석을 위한 온톨로지 지식베이스 스키마 구축 (Ontology Knowledge Base Scheme for User Query Semantic Interpretation)

  • 도하나;이무훈;정훈;최의인
    • 디지털융복합연구
    • /
    • 제11권3호
    • /
    • pp.285-292
    • /
    • 2013
  • 최근의 검색 형태는 키워드 기반 검색에서 보다 더 정확한 결과를 제공하기 위한 시맨틱 검색 방법으로 변화하고 있다. 하지만 일반 사용자들은 여전히 기존의 키워드 기반 검색에 익숙하기 때문에 시맨틱 검색을 위한 형식화된 구조적 질의어를 구성할 수 없다. 따라서 본 논문에서는 이러한 사용자들의 키워드 해석을 위한 온톨로지 지식 베이스 스키마를 제안한다. 제안된 스키마는 서술 논리 추론을 위해 OWL-DL을 기반으로 설계되었으며 최소한의 관계 정의와 추론 규칙 언어인 SWRL(Semantic Web Rule Language)으로 추론함으로써 보다 풍부한 개체 관계의 표현을 제공한다. 마지막으로 논문에서 제안한 사용자 질의 의미 해석 기법의 검증을 위해 키워드 유사도 실험 결과를 설명한다.

정규 표현식을 이용한 패턴 매칭 엔진 개발 (Development of the Pattern Matching Engine using Regular Expression)

  • 고광만;박홍진
    • 한국콘텐츠학회논문지
    • /
    • 제8권2호
    • /
    • pp.33-40
    • /
    • 2008
  • 스트링 패턴 매칭 알고리즘은 특정 검색어, 키워드를 검색하는 속도에서는 우수성이 다양한 방법으로 입증되었지만 다양한 패턴에 대해서는 기존의 알고리즘으로는 한계를 가지고 있다. 본 논문에서는 정규 표현식을 이용하여 특정 키워드를 포함하여 다양한 패턴의 검색어에 대해서도 효율적인 패턴 매칭을 수행하여 패턴 검색의 효율을 높이고자 한다. 이러한 연구는 기존의 단순한 키워드 매칭에 비해 각종 유해한 스트링 패턴을 효과적으로 검색할 수 있으며 스트링 패턴 매칭 속도에서도 기존의 알고리즘에 비해 우수성을 갖는다. 본 연구에서 제안한 LEX로부터 생성된 스트링 검색 엔진은 패턴 검색 속도에 대한 실험에서 패턴의 수가 1000개 이상인 경우에서는 BM&AC 알고리즘보다 효율적이지만 키워드 검색에서는 유사한 결과를 얻었다.