• 제목/요약/키워드: 어워드 시스템

검색결과 44건 처리시간 0.029초

기계학습 기반 경쟁자 자동추출 방법 (Competitor Extraction based on Machine Learning Methods)

  • 이충희;김현진;류법모;김현기;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-112
    • /
    • 2012
  • 본 논문은 일반 텍스트에 나타나는 경쟁 관계에 있는 고유명사들을 경쟁자로 자동 추출하는 방법에 대한 것으로, 규칙 기반 방법과 기계 학습 기반 방법을 모두 제안하고 비교하였다. 제안한 시스템은 뉴스 기사를 대상으로 하였고, 문장에 경쟁관계를 나타내는 명확한 정보가 있는 경우에만 추출하는 것을 목표로 하였다. 규칙기반 경쟁어 추출 시스템은 2개의 고유명사가 경쟁관계임을 나타내는 단서단어에 기반해서 경쟁어를 추출하는 시스템이며, 경쟁표현 단서단어는 620개가 수집되어 사용됐다. 기계학습 기반 경쟁어 추출시스템은 경쟁어 추출을 경쟁어 후보에 대한 경쟁여부의 바이너리 분류 문제로 접근하였다. 분류 알고리즘은 Support Vector Machines을 사용하였고, 경쟁어 주변 문맥 정보를 대표할 수 있는 언어 독립적 5개 자질에 기반해서 모델을 학습하였다. 성능평가를 위해서 이슈화되고 있는 핫키워드 54개에 대해서 623개의 경쟁어를 뉴스 기사로부터 수집해서 평가셋을 구축하였다. 비교 평가를 위해서 기준시스템으로 연관어에 기반해서 경쟁어를 추출하는 시스템을 구현하였고, Recall/Precision/F1 성능으로 0.119/0.214/0.153을 얻었다. 제안 시스템의 실험 결과로 규칙기반 시스템은 0.793/0.207/0.328 성능을 보였고, 기계 학습기반 시스템은 0.578/0.730/0.645 성능을 보였다. Recall 성능은 규칙기반 시스템이 0.793으로 가장 좋았고, 기준시스템에 비해서 67.4%의 성능 향상이 있었다. Precision과 F1 성능은 기계학습기반 시스템이 0.730과 0.645로 가장 좋았고, 기준시스템에 비해서 각각 61.6%, 49.2%의 성능향상이 있었다. 기준시스템에 비해서 제안한 시스템이 Recall, Precision, F1 성능이 모두 대폭적으로 향상되었으므로 제안한 방법이 효과적임을 알 수 있다.

  • PDF

질의어 의미별 사용자 선호도를 이용한 웹 검색의 성능 향상 (Improving Performance of Web Search using The User Preference in Query Word Senses)

  • 김형일;김준태
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1101-1112
    • /
    • 2004
  • 본 논문에서는 웹 검색의 성능 향상을 위해 질의어 의미별 사용자 선호도를 이용한 웹 페이지의 가중치 부여 방식을 제안한다. 일반적으로 검색엔진들은 검색 질의어와 웹 페이지의 어휘 비교에 의한 관련도 측정만을 사용하여 웹 페이지의 가중치를 부여한다. 웹과 같이 방대한 자료를 대상으로 검색을 할 경우 유사한 관련도를 가진 검색 결과가 매우 많으므로 어휘 비교만으로는 중요한 웹 페이지를 선별하기 어렵다. 본 논문에서는 질의어의 의미를 구분하도록 워드넷(WordNet)을 이용한 사용자 인터페이스를 구축하고, 사용자의 클릭 수를 각 웹 페이지의 가중치에 누적함으로써 다수 사용자의 검색 행위에 의한 묵시적 평가가 웹 페이지의 검색 순위에 반영되는 검색 시스템을 구현하였다. 클릭수의 누적에 있어서 질의 어 의미별로 가중치를 구분하여 저장함으로써 일반적인 검색엔진보다 정확한 검색이 되었으며, 웹 페이지의 범주별 가중치와 질의어의 의미별 사용자 선호도를 이용함으로써 검색 시스템의 성능을 향상시킬 수 있다는 것을 20개의 어휘에 관련된 41개의 의미들을 대상으로 실험한 결과로 확인하였다.

재미 감성 주제 온톨로지를 이용한 질의어 확장 멀티미디어 데이터 검색 시스템 구현 (Implementation of Query Expansion Multimedia Data Retrieval System using "FUN" Based Ontology of Emotion)

  • 이정송;변동률;박순철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.279-284
    • /
    • 2010
  • 최근 컴퓨터와 네트워크의 기술 발달로 멀티미디어 데이터가 폭발적으로 증가하고 있다. 따라서 정보검색 시스템도 텍스트 데이터 위주에서 벗어나 멀티미디어 데이터 검색이 큰 비중을 차지하고 있다. 또한 멀티미디어 데이터 질의어처리도 기술적인 변화와 함께 다양한 질의어 확장으로 검색의 정확성을 높이고 있다. 본 논문에서는 인간의 감성에 대한 '재미' 주제 온톨로지를 구축하여 질의어 확장에 응용하였고, 한편의 동영상에서 재미 요소를 찾아내는 멀티미디어 데이터 검색 시스템을 구축하였다. 온톨로지 구축은 한글 워드넷(KorLex)에서 "재미"라는 특정 감소 요소의 의미 계층 구조를 파악하고 토픽맵을 이용하여 구축하였다. 또한, 온톨로지에 정의된 용어들 사이의 가중치는 실시간으로 계산하여 질의어를 확장에 적용하였으며, 따라서 검색의 효율성과 질을 높였다. 검색방법은 사용자가 질의어를 직접 입력하는 텍스트 입력 검색과 온톨로지 구조를 이용한 GUI 인터페이스 검색방법으로 나누어 사용자의 편의성을 증대시켰다.

  • PDF

검색환경 개선을 위한 자연어 처리 기반 맞춤형 추천 검색시스템 (Recommender system for web search based on NLP to improve user search environment)

  • 승현수;박지윤;우다현;오승민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.1168-1171
    • /
    • 2021
  • 일반적인 검색엔진을 가진 포털 환경에서 정보검색 시 사용자가 원치 않는 수많은 검색결과가 동반되기도 하고 자신의 취향에 맞는 글을 검색하지 않았다는 이유만으로 원하는 정보를 놓치는 상황도 일어난다. 이러한 검색환경의 문제를 개선하기 위해 본 논문에서는 사용자들의 검색환경 개선을 위한 맞춤형 검색결과 정렬, 검색어 추천, 게시글 추천의 추천 시스템을 설계하고 제작한다. 이러한 추천 시스템은 워드 임베딩 모델과 추천 시스템 모델을 포함한다. 기존에 존재하던 워드 임베딩 모델의 성능을 실험을 통해 비교 및 분석하고, 크롤링을 통해 모은 데이터로 성능을 24.98%P 개선하였다. 추천 시스템 모델은 RMSE 비교를 통해 최적이 알고리즘을 제안한다. 해당 기술을 통해 사용자 스스로 자신의 검색환경을 개선할 수 있도록 구현하는 것이 이 시스템의 목표이다.

계층 구조 어텐션 매커니즘에 기반한 CNN-RNN을 이용한 한국어 화행 분석 시스템 (Hierarchical attention based CNN-RNN networks for The Korean Speech-Act Analysis)

  • 서민영;홍태석;김주애;고영중;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.243-246
    • /
    • 2018
  • 최근 사용자 발화를 이해하고 그에 맞는 피드백을 생성할 수 있는 대화 시스템의 중요성이 증가하고 있다. 따라서 사용자 의도를 파악하기 위한 화행 분석은 대화 시스템의 필수적인 요소이다. 최근 많이 연구되는 심층 학습 기법은 모델이 데이터로부터 자질들을 스스로 추출한다는 장점이 있다. 발화 자체의 연속성과 화자간 상호 작용을 포착하기 위하여 CNN에 RNN을 결합한 CNN-RNN을 제안한다. 본 논문에서 제안한 계층 구조 어텐션 매커니즘 기반 CNN-RNN을 효과적으로 적용한 결과 워드 임베딩을 추가한 조건에서 가장 높은 성능인 91.72% 정확도를 얻었다.

  • PDF

난이도 자동제어가 구현된 객관식 문항 생성 시스템 (A Sentence Generation System for Multiple Choice Test with Automatic Control of Difficulty Degree)

  • 김용범;김유섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.1404-1407
    • /
    • 2007
  • 본 논문에서는 객관식 문항을 난이도에 따라 자동으로 생성하는 방법을 고안하여, 학습자 수준에 적합하도록 다양하고 동적인 형태로 문항 제시를 할 수 있는 시스템을 제안하였다. 이를 위해서는 주어진 문장에서 형태소 분석을 통해 키워드를 추출하고, 각 키워드에 대하여 워드넷의 계층적 특성에 따라 의미가 유사한 후보 단어를 제시한다. 의미 유사 후보 단어를 제시할 때, 워드넷에서의 어휘간 유사도 측정 방법을 사용함으로써 생성된 문항의 난이도를 사용자가 원하는 수준으로 조정할 수 있도록 하였다. 단어의 의미 유사도는 동의어를 의미하는 수준 0에서 거의 유사도를 찾을 수 없는 수준 9 까지 다양하게 제시할 수 있으며, 이를 조절함으로써 문항의 전체 난이도를 조절할 수 있다. 후보 어휘들의 의미 유사도 측정을 위해서, 본 논문에서는 두 가지 방법을 사용하여 구현하였다. 첫째는 단순히 두 어휘의 워드넷 상에서의 거리만을 고려한 것이고 둘째는 두 어휘가 워드넷에서 차지하는 비중까지 추가적으로 고려한 것이다. 이러한 방법을 통하여 실제 출제자가 기존에 출제된 문제를 토대로 보다 다양한 내용과 난이도를 가진 문제 또는 문항을 보다 쉽게 출제하게 함으로써 출제에 소요되는 비용을 줄일 수 있었다.

  • PDF

키워드 확장을 통한 효율적인 유의어 검출 방법 (Efficient Synonym Detection Method through Keyword Extension)

  • 지기용;박지수;손진곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.767-770
    • /
    • 2018
  • 인공지능의 발달로 사람이 사용하는 자연어 형태의 문장을 통해 정보를 주고받는 질의응답 시스템이 주목받고 있다. 이러한 질의응답 시스템은 자연어로 구성된 사용자의 질의문에서 의도를 정확하게 파악해야 한다. 단순히 질의어의 키워드에 의존한 검색은 단어의 중의성을 고려하지 않아 질의문의 의도를 정확히 파악하는 데 문제가 있다. 이런 문제점을 해결하기 위해 질의문의 의미와 맥락에 따른 연관성을 이용하여 유의어를 확장하는 방법이 연구되고 있다. 본 논문에서는 워드 임베딩을 통해 생성된 단어 유사도를 이용하여 질의문에서 추출된 키워드를 확장하는 방법을 제안한다.

워드넷을 이용한 스키마 엘리먼트 매칭 시스템 (Schema Element Matching System using WordNet)

  • 이민호;이원구;최윤수;윤화묵;최동훈;조민희;정한민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.122-124
    • /
    • 2012
  • 정보의 상호운용성 확보를 위해서 여러 형태로 정의되어 있는 스키마들을 매칭하는 것은 반드시 필요한 작업이다. 워드넷은 영어의 의미 어휘목록으로 유의어 집단과 어휘 목록사이의 다양한 의미관계를 기록하여 자동화된 본문 분석과 인공지능 응용에 활용할 수 있다. 본 논문에서는 워드넷을 이용하여 스키마 엘리먼트 이름의 의미 집합을 추출하고 대응하는 엘리먼트 의미 집합과의 유사도를 측정함으로써 스키마 엘리먼트를 매칭하는 시스템을 제안한다. 본 시스템은 다중매칭된 복잡한 관계를 간단한 방법으로 단일매칭화함으로써 사용자가 직관적이고 용이하게 사용할 수 있다. 이를 통하여 데이터 통합, 변환, 분산 검색 등 정보의 상호운용이 필요한 다양한 분야에서 활용될 수 있을 것으로 기대한다.

고속 디지털 포렌식 기술

  • 김건우;홍도원
    • 정보보호학회지
    • /
    • 제19권5호
    • /
    • pp.45-51
    • /
    • 2009
  • 개인용 컴퓨터의 디스크 용량 증가와 저장, 분석되어야 하는 방대한 양의 데이터는 포렌식 수집과 분석 시간을 점점 더 요구하고 있다. 이에 ETRI는 대용량 데이터에 대한 고속 수집 및 검색, 분석을 가능하게 하는 고속 포렌식 시스템을 개발하였다. 포렌식 분석은 질의어에 대한 검색의 연속된 과정이라고도 할 수 있어 고속 포렌식 시스템은 하드웨어 가속기를 이용하거나 인덱스를 구축하여 고속으로 데이터를 검색하는 기술을 제공한다. 또한, 안티포렌식 기법중 하나인 파일 암호화는 문서 열람을 불가능하게 해 증거 발견을 어렵게 한다. 이에 고속 포렌식 시스템은 제한된 수사 시간을 고려하여 고속으로 패스워드를 해독하는 기능을 제공한다.

한국어 워드넷에서의 개념 유사도를 활용한 선택형 문항 생성 시스템 (A Question Example Generation System for Multiple Choice Tests by utilizing Concept Similarity in Korean WordNet)

  • 김용범;김유섭
    • 정보처리학회논문지A
    • /
    • 제15A권2호
    • /
    • pp.125-134
    • /
    • 2008
  • 본 논문에서는 난이도를 고려하여 선택형 문항을 자동으로 생성하는 방법을 고안하였으며, 학습자 수준에 적합하도록 동적인 형태로 다양한 문항 제시를 할 수 있는 시스템을 구현하였다. 선택형 문제를 통한 평가에서는 적절한 규모의 문제 은행이 필요하다. 이와 같은 요구를 만족시키기 위해서는 보다 쉽고 빠른 방식으로 다양하고 많은 문제 및 문항을 생성할 수 있는 시스템이 필요한데, 본 논문에서는 문제 및 문항의 생성을 위하여 워드넷이라는 언어 자원을 이용한 자동 생성 방법을 고안하였다. 자동 생성을 위해서는 주어진 문장에서 형태소 분석을 통해 키워드를 추출하고, 각 키워드마다 워드넷의 계층적 특성에 따라 유사한 의미를 가진 후보 단어를 제시한다. 의미 유사 후보 단어를 제시할 때, 기존의 한국어 워드넷의 스키마를 개념간 의미 유사도 행렬을 구할 수 있는 형태의 스키마로 변경한다. 단어의 의미 유사도는 동의어를 의미하는 수준 0에서 거의 유사도가 없다고 볼 수 있는 수준 9까지 다양하게 제시될 수 있으며, 생성될 문항에 어느 정도의 유사도를 가진 어휘를 포함시키느냐에 따라서 출제자의 의도에 따른 난이도의 조정이 가능하다. 후보 어휘들의 의미 유사도 측정을 위해서, 본 논문에서는 두 가지 방법을 사용하여 구현하였다. 첫째는 단순히 두 어휘의 워드넷 상에서의 거리만을 고려한 것이고 둘째는 두 어휘가 포함되어 있는 트리 구조의 크기까지 추가적으로 고려한 것이다. 이러한 방법을 통하여 실제 출제자가 기존에 출제된 문제를 토대로 더 다양한 내용과 난이도를 가진 문제 또는 문항을 더 쉽게 출제할 수 있는 시스템을 개발할 수 있었다.