• 제목/요약/키워드: dictionary seed

검색결과 10건 처리시간 0.037초

SNS대상의 지능형 자연어 수집, 처리 시스템 구현을 통한 한국형 감성사전 구축에 관한 연구 (Research on Designing Korean Emotional Dictionary using Intelligent Natural Language Crawling System in SNS)

  • 이종화
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권3호
    • /
    • pp.237-251
    • /
    • 2020
  • Purpose The research was studied the hierarchical Hangul emotion index by organizing all the emotions which SNS users are thinking. As a preliminary study by the researcher, the English-based Plutchick (1980)'s emotional standard was reinterpreted in Korean, and a hashtag with implicit meaning on SNS was studied. To build a multidimensional emotion dictionary and classify three-dimensional emotions, an emotion seed was selected for the composition of seven emotion sets, and an emotion word dictionary was constructed by collecting SNS hashtags derived from each emotion seed. We also want to explore the priority of each Hangul emotion index. Design/methodology/approach In the process of transforming the matrix through the vector process of words constituting the sentence, weights were extracted using TF-IDF (Term Frequency Inverse Document Frequency), and the dimension reduction technique of the matrix in the emotion set was NMF (Nonnegative Matrix Factorization) algorithm. The emotional dimension was solved by using the characteristic value of the emotional word. The cosine distance algorithm was used to measure the distance between vectors by measuring the similarity of emotion words in the emotion set. Findings Customer needs analysis is a force to read changes in emotions, and Korean emotion word research is the customer's needs. In addition, the ranking of the emotion words within the emotion set will be a special criterion for reading the depth of the emotion. The sentiment index study of this research believes that by providing companies with effective information for emotional marketing, new business opportunities will be expanded and valued. In addition, if the emotion dictionary is eventually connected to the emotional DNA of the product, it will be possible to define the "emotional DNA", which is a set of emotions that the product should have.

상품평의 언어적 분석을 통한 상품 평가 요약 시스템 (Product Evaluation Summarization Through Linguistic Analysis of Product Reviews)

  • 이우철;이현아;이공주
    • 정보처리학회논문지B
    • /
    • 제17B권1호
    • /
    • pp.93-98
    • /
    • 2010
  • 본 논문에서는 폭발적으로 증가하고 있는 상품평을 효과적으로 활용하기 위해 언어적 분석을 통하여 상품 평가를 요약하는 시스템을 제안한다. 시스템에서는 스커트 상품 분류의 경우 '디자인'과 '재질'과 같이, 상품을 평가하는 기준이 되는 항목에 대한 상품평의 부정과 긍정의 극성 여부를 판별하여 그래프 형태로 요약하여 제시한다. 본 논문에서는 작은 시드 어휘와 문맥에 기반한 자동 확장 방법을 사용하여 평가 항목 별 평가 어휘 극성 사전을 구축하여 평가 항목에 대한 상품평의 극성을 판정한다. 제안한 방식은 여러 온라인 쇼핑몰의 실제 상품평에 대한 실험에서 극성 사전 추출에서 평균 69.8%의 정확율과 문장별 극성 식별에서 평균 81.8%의 정확율을 보였다.

Lee와 Chen의 일회용 비밀번호 인증기법 분석 (Analysis of the Lee-Chen's One-Time Password Authentication Scheme)

  • 유일선;김보남;김흥준
    • 한국정보통신학회논문지
    • /
    • 제13권2호
    • /
    • pp.285-292
    • /
    • 2009
  • Lee와 Chen은 2005년에 Yeh-Shen-Whang 인증기법을 stolen verifier 공격에 대응할 수 있도록 개선하였다. 이 기법은 서버와 각 사용자의 공유 비밀키를 서버의 비밀키로부터 파생하여 stolen verifier 공격을 무력화 하였다. 그러나 우리는 Lee와 Chen의 개선안이 서버의 비밀키에 대한 오프라인 사전공격에 취약하다는 것을 발견하였다. 본 논문에서는 이러한 취약점을 분석하고 가능한 공격을 보인 후, 하드웨어 보안 모듈을 사용하여 이 문제에 대한 해결방안을 제시하였다. 또한, Lee와 Chen의 문제점으로 알려진 서비스 거부 공격과 과거 세션키 유출 공격에 대한 취약점을 개선하였다. 결론적으로 제안 인증기 법과 Lee와 Chen의 기법을 비교분석 하여 제안 인증기법의 보안강도가 개선되었음을 보였다.

Bi-LSTM 기반의 한국어 감성사전 구축 방안 (KNU Korean Sentiment Lexicon: Bi-LSTM-based Method for Building a Korean Sentiment Lexicon)

  • 박상민;나철원;최민성;이다희;온병원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.219-240
    • /
    • 2018
  • 감성사전은 감성 어휘에 대한 사전으로 감성 분석(Sentiment Analysis)을 위한 기초 자료로 활용된다. 이와 같은 감성사전을 구성하는 감성 어휘는 특정 도메인에 따라 감성의 종류나 정도가 달라질 수 있다. 예를 들면, '슬프다'라는 감성 어휘는 일반적으로 부정의 의미를 나타내지만 영화 도메인에 적용되었을 경우 부정의 의미를 나타내지 않는다. 그렇기 때문에 정확한 감성 분석을 수행하기 위해서는 특정 도메인에 알맞은 감성사전을 구축하는 것이 중요하다. 최근 특정 도메인에 알맞은 감성사전을 구축하기 위해 범용 감성 사전인 오픈한글, SentiWordNet 등을 활용한 연구가 진행되어 왔으나 오픈한글은 현재 서비스가 종료되어 활용이 불가능하며, SentiWordNet은 번역 간에 한국 감성 어휘들의 특징이 잘 반영되지 않는다는 문제점으로 인해 특정 도메인의 감성사전 구축을 위한 기초 자료로써 제약이 존재한다. 이 논문에서는 기존의 범용 감성사전의 문제점을 해결하기 위해 한국어 기반의 새로운 범용 감성사전을 구축하고 이를 KNU 한국어 감성사전이라 명명한다. KNU 한국어 감성사전은 표준국어대사전의 뜻풀이의 감성을 Bi-LSTM을 활용하여 89.45%의 정확도로 분류하였으며 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1-gram, 2-gram, 어구 그리고 문형 등 다양한 형태로 추출한다. 또한 다양한 외부 소스(SentiWordNet, SenticNet, 감정동사, 감성사전0603)를 활용하여 감성 어휘를 확장하였으며 온라인 텍스트 데이터에서 사용되는 신조어, 이모티콘에 대한 감성 어휘도 포함하고 있다. 이 논문에서 구축한 KNU 한국어 감성사전은 특정 도메인에 영향을 받지 않는 14,843개의 감성 어휘로 구성되어 있으며 특정 도메인에 대한 감성사전을 효율적이고 빠르게 구축하기 위한 기초 자료로 활용될 수 있다. 또한 딥러닝의 성능을 높이기 위한 입력 자질로써 활용될 수 있으며, 기본적인 감성 분석의 수행이나 기계 학습을 위한 대량의 학습 데이터 세트를 빠르게 구축에 활용될 수 있다.

리눅스에서 사전공격방지를 위한 이중 암호 인증 시스템 (Double Encryption Authentication System for Resisting Dictionary Attack in Linux)

  • 최종혁;허기택;주낙근
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.666-670
    • /
    • 2001
  • 기존의 리눅스 패스워드 인증 시스템에서는 사용자의 계정을 만들어 처음으로 로그인하여 패스워드를 생성할 때에는 사용자의 프로세스 번호와 패스워드를 생성한 시각에 해당하는 값을 seed로 하여 난수를 발생시켜서 salt값을 만든다. 이 salt값은 사용자가 서로 같은 암호를 사용할 경우 암호가 같은 값으로 저장되는걸 막기 위해서 사용하는데 시스템은 salt값과 사용자 패스워드를 단방향 DES 알고리즘을 사용하여 패스워드 파일을 암호화하여 저장한다. 그러나 패스워드 파일에 사용자암호는 암호화되어 저장되지만, salt값이 그대로 저장되기 때문에 패스워드 파일을 가져가게 된다면 사전공격 해킹툴인 John-the-ripper나 Crack 프로그램 등을 이용하여 쉬운 패스워드는 공격자에 의해 간단하게 풀려버린다. 이러한 사전공격에 대한 취약점을 해결하기 위해 암호화된 사용자 패스워드들을 시스템의 또 다른 비밀키를 사용하여 암호화하는 방법을 도입함으로써 사전공격에 강한 패스워드 인증 시스템을 설계 및 구현한다.

  • PDF

중간언어와 단어정렬을 통한 이중언어 사전의 자동 추출에 대한 성능 개선 (Performance Improvement of Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool)

  • 권홍석;서형원;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.27-32
    • /
    • 2013
  • 본 논문은 잘 알려지지 않은 언어 쌍에 대해서 병렬말뭉치(parallel corpus)로부터 자동으로 이중언어 사전을 추출하는 방법을 제안하였다. 이 방법은 중간언어(pivot language)를 매개로 하고 문맥 벡터를 생성하기 위해 공개된 단어 정렬 도구인 Anymalign을 사용하였다. 그 결과로 초기사전(seed dictionary)을 사용한 문맥벡터의 번역 과정이 필요 없으며 통계적 방법의 약점인 낮은 빈도수를 가지는 어휘에 대한 번역 정확도를 높였다. 또한 문맥벡터의 요소 값으로 특정 임계값 이상을 가지는 양방향 번역 확률 정보를 사용하여 상위 5위 이내의 번역 정확도를 크게 높였다. 본 논문은 두 개의 서로 다른 언어 쌍 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 이전 연구에서 보인 실험 결과에 비해 최소 3.41% 최대 67.91%의 성능 향상을 보였고 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최소 5.06%, 최대 990%의 성능 향상을 보였다.

  • PDF

공개키를 적용한 S/KEY 기반의 안전한 사용자 인증 프로토콜 (A S/KEY Based Secure Authentication Protocol Using Public Key Cryptography)

  • 유일선;조경산
    • 정보처리학회논문지C
    • /
    • 제10C권6호
    • /
    • pp.763-768
    • /
    • 2003
  • 본 논문에서는 S/KEY 인증 프로토콜과 YEH와 SHEN, HWANG이 제안한 인증 프로토콜의 문지점을 개선하기 위하여 스마트 카드를 적용한 S/KEY 기반의 인증 프로토콜을 제안하였다. 제안프로토골은 SEED를 공유 비밀키로 적용하는 이들의 인증 프로토콜과 달리 공개키를 통해 S/KEY 인증 프로토콜을 개선하였다. 따라서 제안 프로토콜은 공유 비밀키 없이 서버를 인증하고 세션키를 분배 할 수 있다. 또한, 사용자의 암호 구문대신 임의로 생성된 강력한 비밀키를 적용하기 때문에 오프라인 사전 공격을 방지할 수 있다. 특히, 제안 프로토콜은 사용자의 비밀키 혹은 기타 비밀정보를 서버에 저장하지 않는 S/KEY 인증 프로토콜의 장점을 충실하게 만족할 수 있기 때문에 서버의 붕괴로 인해 사용자 로그인 정보가 유출되는 최악의 경우에도 유출된 정보를 통한 각종 공격에 대응할 수 있다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.

한국어-영어 법률 말뭉치의 로컬 이중 언어 임베딩 (Utilizing Local Bilingual Embeddings on Korean-English Law Data)

  • 최순영;;임희석
    • 한국융합학회논문지
    • /
    • 제9권10호
    • /
    • pp.45-53
    • /
    • 2018
  • 최근 이중 언어 임베딩(bilingual word embedding) 관련 연구들이 각광을 받고 있다. 그러나 한국어와 특정 언어로 구성된 병렬(parallel-aligned) 말뭉치로 이중 언어 워드 임베딩을 하는 연구는 질이 높은 많은 양의 말뭉치를 구하기 어려우므로 활발히 이루어지지 않고 있다. 특히, 특정 영역에 사용할 수 있는 로컬 이중 언어 워드 임베딩(local bilingual word embedding)의 경우는 상대적으로 더 희소하다. 또한 이중 언어 워드 임베딩을 하는 경우 번역 쌍이 단어의 개수에서 일대일 대응을 이루지 못하는 경우가 많다. 본 논문에서는 로컬 워드 임베딩을 위해 한국어-영어로 구성된 한국 법률 단락 868,163개를 크롤링(crawling)하여 임베딩을 하였고 3가지 연결 전략을 제안하였다. 본 전략은 앞서 언급한 불규칙적 대응 문제를 해결하고 단락 정렬 말뭉치에서 번역 쌍의 질을 향상시켰으며 베이스라인인 글로벌 워드 임베딩(global bilingual word embedding)과 비교하였을 때 2배의 성능을 확인하였다.

인삼왕 손봉상의 업적을 통해 본 개성인삼 개척사 (The ginseng magnate BongSang Son; His life and achivements)

  • 김조형;옥순종
    • 인삼문화
    • /
    • 제2권
    • /
    • pp.27-38
    • /
    • 2020
  • 개성은 고려인삼의 메카다. 개성이 고려인삼의 대표 브랜드가 된 배경은 복합적이다. 인삼 재배에 적합한 천혜의 자연조건에 개성의 막강한 상업자본과 증포소 설치가 물적 토대라면 개성상인의 단합과 근검, 실리주의, 창의적인 상업제도 등 인적 토대가 결합하면서 개성은 한국 인삼의 본산지가 되었다. 개성 인삼의 부흥을 끌어온 개성상인으로 손봉상, 김원배(金元培), 공성학(孔聖學), 김정호(金正浩), 박우현(朴宇鉉) 등을 들 수 있다. 개성 삼업을 주도한 이들은 인삼경작법과 병충해 방제법을 보급하고 관립종삼회사를 설립, 종자보존을 하고 영농자금 선불제를 도입하는 등 현대적 경영기법을 선보였다. 그 중 인삼 대왕으로 칭송되는 손봉상(孫鳳祥)의 생애를 조명함으로써 개성 인삼 상인의 업적을 살펴본다. 1927년에 발간된 '조선인회사, 대상점사전(朝鮮人會社 大商店辭典)'에 "손봉상은 개성 인삼경작계의 원로이며 그의 손에 의하여 발명된 인삼 제품도 적지 않다. 이 인삼 경작업은 손씨가의 전래지업(傳來之業)이나 손봉상에 의하여 대성되었다"고 소개되어있다. 손봉상의 주요한 업적은 첫째, 인삼에 적부병(赤腐病)이 발생하여 인삼경작이 절망(絶望)에 빠졌을 때 종삼회사(種蔘會社)를 창립, 우량한 종삼(種蔘)을 재배하였고 둘째, 종삼 심사 제도를 도입하여 우량 종삼 확보 제도를 확립시켰고 셋째, 개성삼업조합(開城蔘業組合)을 창설해 경작자금 저리 융자, 종삼의 개량, 병충해 예방, 경작법 개량 등을 시행하였고 넷째 개성인삼동업조합(開城人蔘同業組合)을 창립해 인삼의 성가(聲價)를 회복시켰다. 그는 삼업에서 모은 자본을 바탕으로 각종 회사 설립에 참여하여 주도적 역할을 했다. 1912년 10월 합자회사 영신사(永信社)를 개성의 거상인 김원배(金元培), 공성학(孔聖學), 김정호(金正浩), 박우현(朴宇鉉)과 함께 설립하여 사장에 취임하였고, 상품의 도산매·위탁판매, 창고업과 금융업을 경영하였다. 또 개성의 전기 보급을 위하여 1917년 4월 개성상인들과 합작으로 전기주식회사를 설립하여 취체역을 맡는 등 다양한 기업 활동을 했다. 개성 인삼 상인들은 삼업의 발전뿐만 아니라 상업자본을 산업자본으로 연결하는 시대적 선구자 역할을 함으로써 한국의 근대화에 큰 역할을 했다.