• Title/Summary/Keyword: 키워드-기반 시스템

Search Result 517, Processing Time 0.034 seconds

A System for Keyword Extraction and Keyword-based Sentiment Analysis for Topic Analysis in Discussion (토론 대화에서의 토픽 분석을 위한 키워드 추출 및 키워드 기반 감성분석 시스템)

  • Yong-Bin Jeong;Yu-Jin Oh;Jae-Wan Park;Sae-Mi Jang;Young-Gyun Hahm
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.164-169
    • /
    • 2022
  • 토픽 모델링은 비즈니스 분석이나 기술 동향 파악 등 다방면에서 많이 사용되고 있는 기술이다. 하지만 대표적인 방법인 LDA와 같은 비지도학습의 경우, 그 알고리즘 구조상 문서의 수가 많을 때 토픽 모델링이 가능하다. 본 논문에서는 문서의 수가 적은 경우도, 키워드 및 키프레이즈를 이용한 군집화를 통해 토픽 모델링을 하고 감성분석을 통해 토픽에 대한 분석도 제시하였다. 이에 필요한 데이터 제작 및 키워드 추출, 키워드 기반 감성분석, 키워드 임베딩 및 군집화를 구현하였고, 결과를 정성적으로 보았을 때 유의미한 분석이 되는 것을 확인하였다.

  • PDF

OntoFrame: Semantic Web-based Inference Service (OntoFrame: 시맨틱 웹 기반의 추론 서비스)

  • Lee, Mi-Kyoung;Jung, Han-Min;Sung, Won-Kyung
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2008.11a
    • /
    • pp.349-352
    • /
    • 2008
  • 본 논문에서는 시맨틱 웹 기반의 학술 정보 분석 서비스 프레임워크인 OntoFrame에 대해 소개하고자 한다. 2005년부터 개발되기 시작한 OntoFrame은 매년 새로운 서비스와 기술로 확장되고 있으며 OntoFrame2008에서는 다중 키워드 기반의 검색 서비스 및 다중 개체 중심적 통합 검색기능을 제공한다. 본 서비스는 키워드의 개체를 판단한 후에 인력, 주제, 인력+주제에 해당하는 서비스 API를 호출하여 추론 서비스 페이지를 구성한다. 이때 시스템에서 자동으로 판단되는 개체의 모호함을 제거하기 위해서 사용자의 의도라고 판단되는 최적의 개체 조합 페이지뿐만 아니라 해당 키워드에서 나타날 수 있는 모든 개체 조합의 후보 페이지들을 제공해주어 시스템의 일방적인 추천 서비스의 단점을 없앴다. 그리고 서비스의 결과로 제공되는 페이지에서 링크를 통한 추가조건 검색도 제공해 주어 사용자의 검색 의도를 정확하게 파악하여 편리한 정보 획득을 도와주는 시스템으로 개발하고 있다. OntoFrame2008은 여러 가지 풍부한 분석 서비스를 제공하여 연구자들이 학술 정보 검색 과정에 많은 도움이 되는 추론 서비스를 제공하고 있다.

  • PDF

Patent data analysis using clique analysis in a keyword network (키워드 네트워크의 클릭 분석을 이용한 특허 데이터 분석)

  • Kim, Hyon Hee;Kim, Donggeon;Jo, Jinnam
    • Journal of the Korean Data and Information Science Society
    • /
    • v.27 no.5
    • /
    • pp.1273-1284
    • /
    • 2016
  • In this paper, we analyzed the patents on machine learning using keyword network analysis and clique analysis. To construct a keyword network, important keywords were extracted based on the TF-IDF weight and their association, and network structure analysis and clique analysis was performed. Density and clustering coefficient of the patent keyword network are low, which shows that patent keywords on machine learning are weakly connected with each other. It is because the important patents on machine learning are mainly registered in the application system of machine learning rather thant machine learning techniques. Also, our results of clique analysis showed that the keywords found by cliques in 2005 patents are the subjects such as newsmaker verification, product forecasting, virus detection, biomarkers, and workflow management, while those in 2015 patents contain the subjects such as digital imaging, payment card, calling system, mammogram system, price prediction, etc. The clique analysis can be used not only for identifying specialized subjects, but also for search keywords in patent search systems.

An Information Retrieval System Based on Keyfact Index Term (키팩트 색인텀에 기반한 정보검색 시스템)

  • Park, Eui-Kyu;Ra, Dong-Yul;Byun, Seong-Chan;Chung, Kyung-Taek;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.245-251
    • /
    • 2000
  • 지금까지의 정보검색 시스템은 소위 키워드 기반 정보검색 시스템으로서 색인이 단일 단어(single word) 즉 키워드의 집합으로 나타내어 진다. 그러나 이 방법은 문서의 내용을 정확히 표현하는 데 한계가 있다. 따라서 최근에는 단어 이상의 구문 단위인 구(phrase)를 이용하여 색인과 검색을 하도록 하는 시스템을 개발하고자 하는 추세에 있다. 따라서, 본 논문에서는 키워드보다는 의미를 좀더 잘 나타내고 일반적인 구보다는 정형화된 형태의 색인 단위인 키팩트를 색인어로 하는 정보검색시스템을 개발하고 이의 성능을 살펴보았다.

  • PDF

LiveTwitter: Hot Issue Search system Based on Twitter (LiveTwitter: 트위터 기반 핫이슈 검색 시스템)

  • Sung, Byung-Ki;Oh, Jin-Young;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.179-182
    • /
    • 2010
  • 트위터, 페이스북 등의 소설 네트워크가 이슈가 되는 사건에 의견을 표시하는 수단으로 많이 활용되고 있다. 본 논문에서는 이슈 키워드 추출 및 트위터와 유투브에 기반한 실시간 검색 시스템을 구현한다. 본 시스템에서는 가장 최근 신문 기사들의 제목과 스니핏을 이용하여 이슈가 되는 키워드를 실시간으로 추출하여 사용자들에게 보여주고 트위터와 유투브 OpenAPI를 이용하여 추출된 키워드에 대한 컨텐츠들을 실시간으로 사용자들에게 보여준다, 본 시스템을 통해서 이슈가 되는 사건에 대한 실시간 반응을 찾을 수 있다.

  • PDF

REALM for Open-domain Question Answering of Korean (REALM을 이용한 한국어 오픈도메인 질의 응답)

  • Kan, Dong-Chan;Na, Seung-Hoon;Choi, Yun-Su;Lee, Hye-Woo;Chang, Du-Seong
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.192-196
    • /
    • 2020
  • 최근 딥러닝 기술의 발전에 힘입어 오픈 도메인 QA 시스템의 발전은 가속화되고 있다. 특히 IR 시스템(Information Retrieval)과 추출 기반의 기계 독해 모델을 결합한 접근 방식(IRQA)의 경우, 문서와 질문 각각을 연속 벡터로 인코딩하는 IR 시스템(Dense Retrieval)의 연구가 진행되면서 검색 성능이 전통적인 키워드 기반 IR 시스템에 비해 큰 폭으로 상승하였고, 이를 기반으로 오픈 도메인 질의응답의 성능 또한 개선 되었다. 본 논문에서는 경량화 된 BERT 모델을 기반으로 하여 Dense Retrieval 모델 ORQA와 REALM을 사전 학습하고, 한국어 오픈 도메인 QA에서 QA 성능과 검색 성능을 도출한다. 실험 결과, 키워드 기반 IR 시스템 BM25를 기반으로 했던 이전 IRQA 실험결과와 비교하여 더 적은 문서로 더 나은 QA 성능을 보였으며, 검색 결과의 경우, BM25의 성능을 뛰어넘는 결과를 보였다.

  • PDF

Design of a Web-based Teacher Ability Development Evaluation System (웹 기반 교원능력개발 평가 시스템 설계)

  • Han, Ki-Sun;Chun, Seok-Ju
    • 한국정보교육학회:학술대회논문집
    • /
    • 2010.01a
    • /
    • pp.149-156
    • /
    • 2010
  • 컴퓨터와 인터넷이 보편화된 지금 학교현장에서는 효율적인 통계 분석이 가능하고, 공간적 시간적 제약을 극복한 웹 기반 교원능력개발평가 시스템이 필요하다. 본 논문에서는 현재 웹 기반으로 이루어지고 있고 교원평가 시스템을 비교 분석하여 그 특징을 알아본 후 그 제한점을 극복하고 사용자의 사용성 향상을 위한 웹 기반 교원능력개발평가 시스템을 제안하고 설계한다. 본 논문에서 제안하고 설계한 교원능력개발평가 시스템의 사용성 향상 요소는 크게 세 가지이다. 첫 번째는 평가문항별 키워드를 레이어 방식으로 설명하여 평가자의 평가문항 이해를 돕는 것이다. 두 번째는 평가자를 위해 평가보조자료를 첨부하여 공정하고 객관적인 교원능력개발평가가 이루어지도록 하는 것이다. 세 번째는 통계 처리가 힘든 서술형 문항에 키워드별 분류 기능을 추가하여 교원의 자기 발전의 자료로 활용하도록 하는 것이다. 이러한 웹 기반 교원능력개발평가 시스템은 학교 교육의 질 향상 및 공교육에 대한 신뢰를 제고하는데 기여할 수 있다.

  • PDF

Personal Information Searching System using Dynamic Indexing and Korean Contents Based Search (동적 색인과 한국어 내용 기반 검색을 이용한 개인용 검색 시스템)

  • Kim, Yun-Tae;Kim, Ji-Won;Son, Su-Jeong;Lee, Hyun-Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.639-641
    • /
    • 2018
  • 고전적으로 이용되던 디렉터리 분류로는 원하는 정보를 빠르게 찾기 어려워지면서, 키워드 기반 검색 시스템이 정보 처리의 중심이 되고 있다. 본 논문에서는 개인용 컴퓨터에서의 빠른 자료 검색을 위한 키워드 기반 정보검색 시스템을 제안한다. 시스템에서는 동적 색인을 통하여 기존 시스템들보다 빠른 시간 내에 검색 결과를 제공한다. 내용 기반 검색과 다양한 포맷에 대한 문서 검색 기능을 포함하여 사용자에게 편리한 환경을 제공할 뿐만 아니라, 한글 문장이 포함된 문서에 대해서 원활한 검색을 제공하고자 한다. 성능 비교 검증을 수행한 결과 기존 시스템에 비해 보다 빠른 시간 내에 많은 문서를 탐지할 수 있음을 확인하였다.

  • PDF

신경회로망을 이용한 연속음성중 키워드(keyword)인식에 관한 연구

  • 최관선;한민홍
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 1993.04a
    • /
    • pp.275-281
    • /
    • 1993
  • 본 발표에서는 신경회로망을 이용하여 연속음성중에서 키워드를 인식하는 방법을 설명한다. 연속음성에서 파형소편 및 음절을 식별하는 휴리스틱 알고리즘을 개발하였고, 연속음성을 음절단위로 파형소편 스펙트럼분석(선형예측법)으로 특성치를 추출하였다. 음절의 특성치는 코호넨 신경회로망을 통하여 학습을 시켰으며, 연속음성중 키워드인식은 먼저 음절을 인식하여 단어를 찾고, 인식된 단어가 키워드와 일치하는가를 확인한다. 본 연구의 의의는 파형소편 및 음절식별 알고리즘을 통하여, 크기불변성(Scaling invariance), 시간불변성(Time warping 및 Time-shift invariance), 중복성제거의 문제점을 해결하였고, 신경회로망의 학습을 통하여 화자독립적인 연속음성인식시스템 구축의 기반을 확립한데 있다. 본 음성인식모델은 학교구내 전화번호 안내시스템으로 활용단계에 있으며 전화번호뿐만아니라 주소안내시스템으로도 활용될 예정이다. 또한 자동차 운전보조시스템 및 주행안내시스템의 음성명령에 응용될 수 있는데, 예로 음성명령은 "핸들 좌로 20도", "시청까지 주행", "시청 지도안내"등이 될 수 있다. 현재 자동차 운전보조시스템은 컴퓨터 화면상 모의동작시스템으로 운영되고 있다. 본 음성인식모델은 화자종속시 90%이상, 화자독립시 70%의 인식결과를 보였다.시 90%이상, 화자독립시 70%의 인식결과를 보였다.

  • PDF

A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning (딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법)

  • Ka-Hyeon Kim;Heonchang Yu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.583-586
    • /
    • 2023
  • 대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.