• 제목/요약/키워드: Dictionary Learning

검색결과 141건 처리시간 0.021초

KONG-DB: 웹 상의 어휘 사전을 활용한 한국 소설 지명 DB, 검색 및 시각화 시스템 (KONG-DB: Korean Novel Geo-name DB & Search and Visualization System Using Dictionary from the Web)

  • 박성희
    • 정보관리학회지
    • /
    • 제33권3호
    • /
    • pp.321-343
    • /
    • 2016
  • 본 연구의 목적은 1) 소설 속 지명 데이터베이스(DB)를 구축하고, 2) 확장 가능한 지명 DB를 위해 자동으로 지명을 추출하여 데이터베이스를 갱신하며, 3) 데이터베이스 내의 소설지명과 용례를 검색하고 시각화하는 파일럿시스템을 구현하는 데 있다. 특히, 학습자료(training)에 해당하는 말뭉치(corpus)를 확보하기 어려운, 소설지명과 같이 현재 잘 쓰이지 않는 개체명을 자동으로 추출하는 것은 매우 어려운 문제이다. 효과적인 지명 정보 추출용 학습자료 말뭉치 확보 문제를 해결하기 위해 본 논문에서는 이미 수작업으로 구축된 웹 지식(어휘사전)을 활용하여 학습에 필요한 충분한 양의 학습말뭉치를 확보하는 방안을 적용하였다. 이렇게 확보된 학습용 코퍼스와 학습된 자동추출 모듈을 가지고, 새로운 지명 용례를 찾아 추가하는 지명 데이터베이스 확장 도구를 만들었으며, 소설지명을 지도 위에 시각화하는 시스템을 설계하였다. 또한, 시범시스템을 구현함으로써 실험적으로 그 타당성을 입증하였다. 끝으로, 현재 시스템의 보완점을 제시하였다.

안전하고 효율적으로 인증된 키 교환 프로토콜 (Authenticated Key Exchange Protocol for the Secure and Efficient)

  • 박종민;박병전
    • 한국정보통신학회논문지
    • /
    • 제14권8호
    • /
    • pp.1843-1848
    • /
    • 2010
  • 키 교환 방식은 안전한 암호 통신을 위하여 매우 중요하다. 키 교환 프로토콜은 안전성, 키 확신, 키 신선도 등의 요구사항을 만족해야 한다. 본 논문에서는 두 개의 인증된 키 교환 프로토콜로 EKE-E 와 EKE-S를 제안한다. 프로토콜들의 기본적인 생각은 암호가 단위 추가 N에 의하여 나타내어질 수 있는 것이고, 암호를 나타내는 가능한 단위 추가 N 수는 $2^N$ 이다. EKE-E는 main-in-the-middle 공격과 오프라인 사전 공격을 포함하고, 실행은 또 다른 것과 비교해서 우수하며 중요한 교환 프로토콜들의 신임도를 인증한다. EKE-S는 EKE-E에 대한 약간의 변형이다. EKE-S는 EKE-E의 공격을 보존하는 동안에 오프라인 사전 공격을 하지 못하고 암호를 습득하기 위하여 평가 실행 불가를 제공한다.

Development of the Rule-based Smart Tourism Chatbot using Neo4J graph database

  • Kim, Dong-Hyun;Im, Hyeon-Su;Hyeon, Jong-Heon;Jwa, Jeong-Woo
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제13권2호
    • /
    • pp.179-186
    • /
    • 2021
  • We have been developed the smart tourism app and the Instagram and YouTube contents to provide personalized tourism information and travel product information to individual tourists. In this paper, we develop a rule-based smart tourism chatbot with the khaiii (Kakao Hangul Analyzer III) morphological analyzer and Neo4J graph database. In the proposed chatbot system, we use a morpheme analyzer, a proper noun dictionary including tourist destination names, and a general noun dictionary including containing frequently used words in tourist information search to understand the intention of the user's question. The tourism knowledge base built using the Neo4J graph database provides adequate answers to tourists' questions. In this paper, the nodes of Neo4J are Area based on tourist destination address, Contents with property of tourist information, and Service including service attribute data frequently used for search. A Neo4J query is created based on the result of analyzing the intention of a tourist's question with the property of nodes and relationships in Neo4J database. An answer to the question is made by searching in the tourism knowledge base. In this paper, we create the tourism knowledge base using more than 1300 Jeju tourism information used in the smart tourism app. We plan to develop a multilingual smart tour chatbot using the named entity recognition (NER), intention classification using conditional random field(CRF), and transfer learning using the pretrained language models.

귀납 추리를 이용한 침입 흔적 로그 순위 결정 (Determination of Intrusion Log Ranking using Inductive Inference)

  • 고수정
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.1-8
    • /
    • 2019
  • 대량의 로그 자료로부터 가장 적합한 정보를 추출하기 위한 방법 중 귀납 추리를 이용한 방법이 있다. 본 논문에서는 디지털 포렌식 분석에서 침입 흔적 로그의 순위를 결정하기 위하여 귀납 추리를 이용한 방법 중 분류에 있어서 우수한 SVM(Support Vector Machine)을 이용한다. 이를 위하여, 훈련 로그 집합의 로그 데이터를 침입 흔적 로그와 정상 로그로 분류한다. 분류된 각 집합으로부터 연관 단어를 추출하여 연관 단어 사전을 생성하고, 생성된 사전을 기반으로 각 로그를 벡터로 표현한다. 다음으로, 벡터로 표현된 로그를 SVM을 이용하여 학습하고, 학습된 로그 집합을 기반으로 테스트 로그 집합을 정상 로그와 침입 흔적 로그로 분류한다. 최종적으로, 포렌식 분석가에게 침입 흔적 로그를 추천하기 위하여 침입 흔적 로그의 추천 순위를 결정한다.

기계학습과 사전을 이용한 개체명 세분화 (Fine Grained Classification of Named Entities Using Machine Learning and Dictionary)

  • 이기중;이도길;임해창;임수종
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.519-521
    • /
    • 2003
  • 개체명 인식은 효과적인 정보추출 시스템을 구축하기 위해 반드시 선행되어야 하는 작업이다. 지금까지의 개체명 인식에 관한 연구는 인명이나 조직, 장소와 같은 일반적인 개체명 인식 작업이 대부분이었다. 그러나, 효과적인 정보추출을 위해서는 이런 일반적인 개체명들을 더욱 세분화할 필요가 있다. 본 논문에서는 SVM기반 기계학습법과 기구축된 사전과의 편집거리 비교법을 이용하여 개체명을 세분화하는 방법을 제시한다. 실험은 개체명과 세분화된 범주가 부착된 공연 관련 문서 100개 중 80개는 학습집합, 20개는 실험집합으로 사용하였고 성능 평가 척도는 정확도(accuracy)를 이용해 개별적으로 평가하였다. 실험 결과 기계학습법과 사전을 이용한 방법을 결합한 모델이 가장 좋은 성능(정확도 72.91%)을 보였다.

  • PDF

비주얼 검색을 위한 위키피디아 기반의 질의어 추출 (Keyword Selection for Visual Search based on Wikipedia)

  • 김종우;조수선
    • 한국멀티미디어학회논문지
    • /
    • 제21권8호
    • /
    • pp.960-968
    • /
    • 2018
  • The mobile visual search service uses a query image to acquire linkage information through pre-constructed DB search. From the standpoint of this purpose, it would be more useful if you could perform a search on a web-based keyword search system instead of a pre-built DB search. In this paper, we propose a representative query extraction algorithm to be used as a keyword on a web-based search system. To do this, we use image classification labels generated by the CNN (Convolutional Neural Network) algorithm based on Deep Learning, which has a remarkable performance in image recognition. In the query extraction algorithm, dictionary meaningful words are extracted using Wikipedia, and hierarchical categories are constructed using WordNet. The performance of the proposed algorithm is evaluated by measuring the system response time.

Sparse Representation based Two-dimensional Bar Code Image Super-resolution

  • Shen, Yiling;Liu, Ningzhong;Sun, Han
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권4호
    • /
    • pp.2109-2123
    • /
    • 2017
  • This paper presents a super-resolution reconstruction method based on sparse representation for two-dimensional bar code images. Considering the features of two-dimensional bar code images, Kirsch and LBP (local binary pattern) operators are used to extract the edge gradient and texture features. Feature extraction is constituted based on these two features and additional two second-order derivatives. By joint dictionary learning of the low-resolution and high-resolution image patch pairs, the sparse representation of corresponding patches is the same. In addition, the global constraint is exerted on the initial estimation of high-resolution image which makes the reconstructed result closer to the real one. The experimental results demonstrate the effectiveness of the proposed algorithm for two-dimensional bar code images by comparing with other reconstruction algorithms.

문형 정보를 이용한 한국어 교육 앱 개발 (Development of a Korean Language Learning App using Case Frame Dictionary)

  • 강명윤;이규동;김보겸;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-182
    • /
    • 2014
  • 본 논문에서는 외국인을 대상으로 보다 쉽고 재미있게 우리말을 배울 수 있도록 도와주는 교육용 앱 소프트웨어를 제안한다. 이 앱에서는 사용자가 입력한 문장을 형태소 분석하여 용언 및 서술어를 중심으로 어형 및 문형의 올바른 사용법을 제시함으로써, 우리말의 용법을 쉽게 이해할 수 있도록 한다. 또한 제안한 방법을 음성인식을 활용한 스마트폰 앱으로 개발함으로써 사용자의 접근성 및 편의성을 높였다.

  • PDF

Text Mining and Sentiment Analysis for Predicting Box Office Success

  • Kim, Yoosin;Kang, Mingon;Jeong, Seung Ryul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권8호
    • /
    • pp.4090-4102
    • /
    • 2018
  • After emerging online communications, text mining and sentiment analysis has been frequently applied into analyzing electronic word-of-mouth. This study aims to develop a domain-specific lexicon of sentiment analysis to predict box office success in Korea film market and validate the feasibility of the lexicon. Natural language processing, a machine learning algorithm, and a lexicon-based sentiment classification method are employed. To create a movie domain sentiment lexicon, 233,631 reviews of 147 movies with popularity ratings is collected by a XML crawling package in R program. We accomplished 81.69% accuracy in sentiment classification by the Korean sentiment dictionary including 706 negative words and 617 positive words. The result showed a stronger positive relationship with box office success and consumers' sentiment as well as a significant positive effect in the linear regression for the predicting model. In addition, it reveals emotion in the user-generated content can be a more accurate clue to predict business success.

Multi-feature local sparse representation for infrared pedestrian tracking

  • Wang, Xin;Xu, Lingling;Ning, Chen
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권3호
    • /
    • pp.1464-1480
    • /
    • 2019
  • Robust tracking of infrared (IR) pedestrian targets with various backgrounds, e.g. appearance changes, illumination variations, and background disturbances, is a great challenge in the infrared image processing field. In the paper, we address a new tracking method for IR pedestrian targets via multi-feature local sparse representation (SR), which consists of three important modules. In the first module, a multi-feature local SR model is constructed. Considering the characterization of infrared pedestrian targets, the gray and edge features are first extracted from all target templates, and then fused into the model learning process. In the second module, an effective tracker is proposed via the learned model. To improve the computational efficiency, a sliding window mechanism with multiple scales is first used to scan the current frame to sample the target candidates. Then, the candidates are recognized via sparse reconstruction residual analysis. In the third module, an adaptive dictionary update approach is designed to further improve the tracking performance. The results demonstrate that our method outperforms several classical methods for infrared pedestrian tracking.