• 제목/요약/키워드: Word2Vec

검색결과 220건 처리시간 0.024초

의생명 분야의 개체명 인식에서 순환형 신경망과 조건적 임의 필드의 성능 비교 (Performance Comparison of Recurrent Neural Networks and Conditional Random Fields in Biomedical Named Entity Recognition)

  • 조병철;김유섭
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.321-323
    • /
    • 2016
  • 최근 연구에서 기계학습 중 지도학습 방법으로 개체명 인식을 하고 있다. 그러나 지도 학습 방법은 데이터를 만드는 비용과 시간이 많이 필요로 한다. 본 연구에서는 주석 된 말뭉치를 사용하여 지도 학습 방법을 사용 한다. 의생명 개체명 인식은 Protein, RNA, DNA, Cell type, Cell line 등을 포함한 텍스트 처리에 중요한 기초 작업입니다. 그리고 의생명 지식 검색에서 가장 기본과 핵심 작업 중 하나이다. 본 연구에서는 순환형 신경망과 워드 임베딩을 자질로 사용한 조건적 임의 필드에 대한 성능을 비교한다. 조건적 임의 필드에 N_Gram만을 자질로 사용한 것을 기준점으로 설정 하였고, 기준점의 결과는 70.09% F1 Score이다. RNN의 jordan type은 60.75% F1 Score, elman type은 58.80% F1 Score의 성능을 보여준다. 조건적 임의 필드에 CCA, GLOVE, WORD2VEC을 사용 한 결과는 각각 72.73% F1 Score, 72.74% F1 Score, 72.82% F1 Score의 성능을 얻을 수 있다.

  • PDF

한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구 (On Word Embedding Models and Parameters Optimized for Korean)

  • 최상혁;설진석;이상구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.252-256
    • /
    • 2016
  • 본 논문에서는 한국어에 최적화된 단어 임베딩을 학습하기 위한 방법을 소개한다. 단어 임베딩이란 각 단어가 분산된 의미를 지니도록 고정된 차원의 벡터공간에 대응 시키는 방법으로, 기계번역, 개체명 인식 등 많은 자연어처리 분야에서 활용되고 있다. 본 논문에서는 한국어에 대해 최적의 성능을 낼 수 있는 학습용 말뭉치와 임베딩 모델 및 적합한 하이퍼 파라미터를 실험적으로 찾고 그 결과를 분석한다.

  • PDF

건설현장 안전 지적 사항 분석 (Vocabulary Analysis of Safety Warnings in Construction Site)

  • 강경수;류한국
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2019년도 추계 학술논문 발표대회
    • /
    • pp.40-41
    • /
    • 2019
  • The purpose of this study is to analyze the vocabulary related to safety accidents based on the reports recorded on the violation of safety rules at the construction sites. We used Word2Vec and Topic Model as natural language processing techniques to analyze the safety accidents presented in the reports of the large enterprise. The words that appeared based on the occupational accident types such as the fall, falling objects, and others were derived and visualized. We derive the frequency and similarity of the words and topics of the accident that occur at the construction site. In future studies, we will be able to proceed with the generation of texts from pictures based on images and this reports.

  • PDF

실시간 채팅 환경에서 문장 분석을 이용한 대상자 및 비속어 검출 (Target and Swear Word Detection Using Sentence Analysis in Real-Time Chatting)

  • 염충석;장준영;장유환;김현철;박희민
    • 반도체디스플레이기술학회지
    • /
    • 제20권1호
    • /
    • pp.83-87
    • /
    • 2021
  • By the increase of internet usage, communicating online became an everyday thing. Thereby various people have experienced profanity by anonymous users. Nowadays lots of studies tried to solve this problem using artificial intelligence, but most of the solutions were for non-real time situations. In this paper, we propose a Telegram plugin that detects swear words using word2vec, and an algorithm to find the target of the sentence. We vectorized the input sentence to find connections with other similar words, then inputted the value to the pre-trained CNN (Convolutional Neural Network) model to detect any swears. For target recognition we proposed a sequential algorithm based on KoNLPY.

SNS 빅데이터 분석을 통한 재생에너지 동향 및 관계구조 (Renewable energy trends and relationship structure by SNS big data analysis)

  • 김종민
    • 융합보안논문지
    • /
    • 제22권1호
    • /
    • pp.55-60
    • /
    • 2022
  • 본 연구는 재생에너지와 관련된 에너지 분야의 동향과 관계구조를 분석하는 것이다. 이를 위해 본 연구에서는 SNS Data를 포한한 Big Data를 중점으로 분석하였다. SNS는 Instragram 플랫폼을 활용하여 재생에너지 해시태그들을 수집하였으며, 빅데이터 분석, 소셜네트워크 분석을 위한 워드임베딩 방법으로 사용하였고, 본 연구에서 도출된 결과를 토대로 재생에너지 산업의 발전에 활용할 수 있을 것으로 기대된다.

기업개성이 직원의 직무만족과 기업 이직률의 관계에 미치는 영향 : 잡플래닛 기업 리뷰를 중심으로 (Impact of Corporate Personality on the Relationship between Job Satisfaction and Turnover Rate : Based on the Corporate Review of Job-Planet)

  • 안병대;최진욱;서용무
    • 한국IT서비스학회지
    • /
    • 제19권3호
    • /
    • pp.35-56
    • /
    • 2020
  • The purpose of this study is to measure corporate personality by analyzing the internal employees' corporate reviews and to identify the impact of the representative corporate personality on the relationship between job satisfaction of internal employees and the turnover rate of the company. To this end, we first created a dictionary of words representing the corporate personality with a Word2vec method based on words explaining five corporate personalities, such as reliability, initiative, practicality, activism, and femininity, obtained from the preceding study. Next, we analyzed reviews which were written by internal employees on their companies to measure the score of corporate personality at a review level, aggregated the review level scores for each company to calculate the company level score of corporate personality, and assigned to each company the corporate personality with the maximum score among the five such scores. Also, job satisfaction and turnover rate were measured from internal employees' corporate evaluation scores and the percentage of former employees of each company who left a review on the company, respectively. This study collected datasets of corporate reviews, employee information, and corporate information from Job-Planet from 2014 to 2017, conducted a technical statistic check and correlation analysis to confirm the suitability of the datasets, and performed linear regression analysis to evaluate the research model and verify hypotheses. As a result of the analysis, the job satisfaction of the internal staff has a significant negative impact on the corporate's turnover rate. In addition, companies having a personality of reliability, initiative and femininity also showed a significant cause-and-effect relationship between job satisfaction and turnover rate and among them, job satisfaction of companies having a personality, initiative, showed a greater impact on turnover rate. In sum, we not only proposed a novel method of measuring corporate personality, but also showed that corporates need to identify its corporate personality and to utilize a different strategy to reduce their employee's turnover rate depending on the corporate personality.

기능성 화장품 마케팅의 소셜 빅데이터 분석 활용 : H사 사례를 중심으로 (Application of Social Big Data Analysis for CosMedical Cosmetics Marketing : H Company Case Study)

  • 황신해;구동영;김정군
    • 디지털융복합연구
    • /
    • 제17권7호
    • /
    • pp.35-41
    • /
    • 2019
  • 본 연구는 소셜 빅데이터 분석을 통해 튼살 기능성 화장품 시장과 고객 분석을 수행하고 중소화장품제조 기업의 마케팅 활용 후 시사점을 도출하기 위해 수행되었다. 20만개 이상의 네이버 블로그, 네이버 까페, 인스타그램, 네이버스토어 게시글을 대상으로 R을 활용한 빅데이터 분석을 수행하였다. 키워드 빈도분석, 연관관계 분석을 통해 고객 니즈와 경쟁사 포지셔닝을 이해하고 마케팅 전략 수립을 위한 시사점을 도출하였다. 분석 결과 튼살 완화와 함께 예방이 핵심 소구점으로 파악되었고 선물용 시장을 위한 제품 라인의 확장이 주요 시사점으로 나타났고 제품에 대해 상호 보완할 수 있는 제품과의 연관성이 높은 것으로 나타났다. 전통적인 마케팅 기법과 함께 사용 시 소셜 빅데이터 분석은 증거기반의 의사 결정과 기존에 파악하지 못했던 고객과 시장의 특성 도출에 유용함을 확인하였다. 향후 연구에서는 word2vec과 같은 자동화된 문장 분류를 통해 추가적인 마케팅 인사이트를 얻을 수 있을 것으로 판단된다.

품질지표기반 정치 후원금 지원을 위한 국회의원 추천시스템 연구 (Quality Indicator Based Recommendation System of the National Assembly Members for Political Sponsors)

  • 정현우;윤형준;이시은;박솔희;손소영
    • 품질경영학회지
    • /
    • 제49권1호
    • /
    • pp.17-29
    • /
    • 2021
  • Purpose: During 2015-2019, the average amount of political donation to the national assembly members in Korea was 1,000 won per person. Despite its benefits such as receiving tax credits, the donation system has not been actively practiced. This paper aims to promote political donations by suggesting a recommendation system of national assembly members by analysing the bills they proposed. Methods: In this paper, we propose a recommendation system based on two aspects: how similar the newly proposed or ammended bills are to the sponsors' interest (similarity index) and how much effort national assembly members put into those bills (intensity index). More than 25,000 bills were used to measure the recommendation quality index consisted with both the similarity and the intensity indices. Word2vec was used to calculate the similarity index of the bills proposed by the national assembly member to the sponsor's interest. The intensity index is calculated by diving the number of newly proposed or entirely revised bills with the number of senators who took part in those bills. Subsequently, we multiply the similarity index by the intensity index to obtain the recommendation quality index that can assist sponsors to identify potential assembly members for their donation. Results: We apply the proposed recommendation system to personas for illustration. The recommendation system showed an average f1 score about 0.69. The analysis results provide insights in recommendation for donation. Conclusion: n this study, the recommendation system was proposed to promote a political donation for national assembly members by creating the recommendation quality index based on the similarity and the intensity indices. We expect that the system presented in this paper will lower user barriers to political information, thereby boosting political sponsorship and increasing political participation.

상담 챗봇의 다차원 감정 인식 모델 (Multi-Dimensional Emotion Recognition Model of Counseling Chatbot)

  • 임명진;이명호;신주현
    • 스마트미디어저널
    • /
    • 제10권4호
    • /
    • pp.21-27
    • /
    • 2021
  • 최근 COVID-19로 인한 코로나 블루로 상담의 중요성이 높아지고 있다. 또한 비대면 서비스의 증가로 상담 매체에 변화를 준 챗봇에 관한 연구들이 활발하게 진행되고 있다. 챗봇을 통한 비대면 상담에서는 내담자의 감정을 정확하게 파악하는 것이 가장 중요하다. 하지만 내담자가 작성한 문장만으로 감정을 인식하는 데는 한계가 있으므로 더 정확한 감정 인식을 위해서는 문장에 내제되어있는 차원 감정을 인식하는 것이 필요하다. 따라서 본 논문에서는 상담 챗봇의 감정 인식 개선을 위해 원본 데이터를 데이터의 특성에 맞게 보정한 후 Word2Vec 모델을 학습하여 생성된 벡터와 문장 VAD(Valence, Arousal, Dominance)를 딥러닝 알고리즘으로 학습한 다차원 감정 인식 모델을 제안한다. 제안한 모델의 유용성 검증 방법으로 3가지 딥러닝 모델을 비교 실험한 결과로 Attention 모델을 사용했을 때 R-squared가 0.8484로 가장 좋은 성능을 보인다.

파워쉘 기반 악성코드에 대한 역난독화 처리와 딥러닝 기반 탐지 방법 (Deobfuscation Processing and Deep Learning-Based Detection Method for PowerShell-Based Malware)

  • 정호진;유효곤;조규환;이상근
    • 정보보호학회논문지
    • /
    • 제32권3호
    • /
    • pp.501-511
    • /
    • 2022
  • 2021년에는 코로나의 여파로 랜섬웨어를 활용한 공격이 유행했으며 그 수는 매년 급증하고 있다. 그 중 파워쉘은 랜섬웨어에 주요 기술로 사용되고 있어 파워쉘 기반 악성코드 탐지 기법의 필요성은 증가하고 있으나 기존의 탐지기법은 난독화가 적용된 스크립트를 탐지하지 못하거나 역난독화에 시간이 오래 소요되는 한계가 존재한다. 이에 본 논문에서는 간단하고 빠른 역난독화 처리과정, Word2Vec과 CNN(Convolutional Neural Network)으로 구성되어 스크립트의 의미를 학습하고 특징을 추출해 악성 여부를 판단할 수 있는 딥러닝 기반의 분류 모델을 제안한다. 2021 사이버보안 AI/빅데이터 활용 경진대회의 AI 기반 파워쉘 악성 스크립트 탐지 트랙에서 제공된 1400개의 악성코드와 8600개의 정상 스크립트를 이용하여 제안한 모델을 테스트한 결과 기존보다 5.04배 빠른 역난독화 실행시간, 100%의 역난독화 성공률, 0.01의 FPR(False Positve Rate), 0.965의 TPR(True Positive Rate)로 악성코드를 빠르고 효과적으로 탐지함을 보인다.