• 제목/요약/키워드: Word Depth

검색결과 75건 처리시간 0.03초

워드넷을 이용한 문서내에서 단어 사이의 의미적 유사도 측정 (Semantic Similarity Measures Between Words within a Document using WordNet)

  • 강석훈;박종민
    • 한국산학기술학회논문지
    • /
    • 제16권11호
    • /
    • pp.7718-7728
    • /
    • 2015
  • 단어 사이의 의미적 유사성은 많은 분야에 적용 될 수 있다. 예를 들면 컴퓨터 언어학, 인공지능, 정보처리 분야이다. 본 논문에서 우리는 단어 사이의 의미적 유사성을 측정하는 문서 내의 단어 가중치 적용 방법을 제시한다. 이 방법은 워드넷의 간선의 거리와 깊이를 고려한다. 그리고 문서 내의 정보를 기반으로 단어 사이의 의미적 유사성을 구한다. 문서 내의 정보는 단어의 빈도수와 단어의 의미 빈도수를 사용한다. 문서 내에서 단어 마다 단어 빈도수와 의미 빈도수를 통해 각 단어의 가중치를 구한다. 본 방법은 단어 사이의 거리, 깊이, 그리고 문서 내의 단어 가중치 3가지를 혼합한 유사도 측정 방법이다. 실험을 통하여 기존의 다른 방법과 성능을 비교하였다. 그 결과 기존 방법에 대비하여 성능의 향상을 가져왔다. 이를 통해 문서 내에서 단어의 가중치를 문서 마다 구할 수 있다. 단순한 최단거리 기반의 방법들과 깊이를 고려한 기존의 방법들은, 정보에 대한 특성을 제대로 표현하지 못했거나 다른 정보를 제대로 융합하지 못했다. 본 논문에서는 최단거리와 깊이 그리고 문서 내에서 단어의 정보량까지 고려하였고, 성능의 개선을 보였다.

초등 수학 교과서의 수학 용어 정의 및 문장제에 사용된 표현의 문장 복잡성 비교 분석 (A Comparative Analysis of the Word Depth Appearing in Representations Used in the Definitions of Mathematical Terms and Word Problem in Elementary School Mathematics Textbook)

  • 강윤지;백석윤
    • 한국초등수학교육학회지
    • /
    • 제24권2호
    • /
    • pp.231-257
    • /
    • 2020
  • 본 연구는 현행 초등 수학 교과서 내 주요 용어의 정의 및 단원평가의 문장제에 사용된 표현을 구문론적 관점에서 문장 복잡성(Yngve, 1960)에 따라 비교분석하였다. 분석 결과, 교과서 내 용어의 정의와 문장제에 사용된 표현에서 저학년 교과서의 문장 복잡성이 낮게 구성되었고, 각 용어의 개별 특성에 따라 문장 구조 및 형태가 서로 다르게 나타나며, 전반적으로 간결하며 문장 복잡성이 낮게 해당 용어의 정의 및 문장제가 서술되었고 용어 정의의 문장이 문장제의 문장보다 복잡하게 구성되었음을 알 수 있었다. 초등학생이 복잡한 문장으로 인하여 수학적 개념 학습의 어려움을 겪지 않도록 교과서 내 문장을 명확하게 서술하고, 적절한 시각적 자료를 함께 제시하며, 개별 학습자의 문해 수준에 알맞은 설명을 보다 섬세하게 고려하여 제공하는 등의 노력이 필요하다.

Association Modeling on Keyword and Abstract Data in Korean Port Research

  • Yoon, Hee-Young;Kwak, Il-Youp
    • Journal of Korea Trade
    • /
    • 제24권5호
    • /
    • pp.71-86
    • /
    • 2020
  • Purpose - This study investigates research trends by searching for English keywords and abstracts in 1,511 Korean journal articles in the Korea Citation Index from the 2002-2019 period using the term "Port." The study aims to lay the foundation for a more balanced development of port research. Design/methodology - Using abstract and keyword data, we perform frequency analysis and word embedding (Word2vec). A t-SNE plot shows the main keywords extracted using the TextRank algorithm. To analyze which words were used in what context in our two nine-year subperiods (2002-2010 and 2010-2019), we use Scattertext and scaled F-scores. Findings - First, during the 18-year study period, port research has developed through the convergence of diverse academic fields, covering 102 subject areas and 219 journals. Second, our frequency analysis of 4,431 keywords in 1,511 papers shows that the words "Port" (60 times), "Port Competitiveness" (33 times), and "Port Authority" (29 times), among others, are attractive to most researchers. Third, a word embedding analysis identifies the words highly correlated with the top eight keywords and visually shows four different subject clusters in a t-SNE plot. Fourth, we use Scattertext to compare words used in the two research sub-periods. Originality/value - This study is the first to apply abstract and keyword analysis and various text mining techniques to Korean journal articles in port research and thus has important implications. Further in-depth studies should collect a greater variety of textual data and analyze and compare port studies from different countries.

구전 제약요인 측정도구 개발에 대한 연구 - SNS 광고를 중심으로 - (A Study on Development of Measurement Tools for Word-of-Mouth Constraint Factors - Focusing on SNS Advertising -)

  • 윤대홍
    • 경영과정보연구
    • /
    • 제38권2호
    • /
    • pp.209-223
    • /
    • 2019
  • 본 연구는 소셜네트워크에서 SNS 광고에 대한 구전 제약요인의 개념과 측정도구 개발을 통하여 온라인 구전을 활성화하는데 그 목적이 있다. 이런 연구 목적을 달성하기 위해 3단계의 연구를 수행하였다. 첫째, 문헌고찰과 정성적 조사방법을 통하여 구전 제약에 대한 개념과 범위에 대하여 탐색적 조사(표적 집단 면접과 심층면접, 전문가 면접)를 실시하였다. 둘째, 개발된 측정항목은 정제작업을 위해 설문 조사를 실시하여 측정문항에 대한 신뢰성과 타당성 검증을 하였다. 셋째, 개발된 측정문항과 다른 주요 구성개념과 관계를 살펴봄으로써 측정항목의 예측타당성을 검증하였다. 연구결과 6개의 구성요인과 이에 대한 총 23개의 측정문항이 도출되었으며, 각각 내재적 및 대인적 제약(심리적 민감성, 보상적 민감성, 타인평가 민감성), 구조적 제약(신뢰성, 정보성, 오락성)으로 명명하였다. 정성적 연구와 정량적 연구를 통해 구전 제약의 측정문항을 개발하였으며, SNS 성과 및 평가 측면에서 SNS 광고 구전의 제약요인으로 작용하고 있는 사회적, 심리적, 환경적인 방해 요인들을 구전 제약의 관점에서 통합적으로 살펴보았다. 본 연구를 통해 온라인 구전 제약에 대한 체계적이고 실증적인 연구수행을 위한 기본 틀과 효과적인 SNS 구전을 이끌어 낼 수 있을 것이다.

컬러 분포와 WordNet상의 유사도 측정을 이용한 의미적 이미지 검색 (Semantic Image Retrieval Using Color Distribution and Similarity Measurement in WordNet)

  • 최준호;조미영;김판구
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.509-516
    • /
    • 2004
  • 의미기반 이미지 검색에서의 의미적 내용 인식은 주석 위주의 텍스트 정보를 이용하는 것이 일반적이다. 이러한 텍스트 정보 기반 이미지 검색은 전통적인 검색 방법인 키워드 검색 기술을 그대로 사하여 쉽게 구현할 수 있으나, 텍스트의 개념적 매칭이 아닌 스트링 매칭이므로 주석 처리된 단어와 정확한 매칭이 없다면 검색할 수 없는 단점이 있었다. 이에 본 논문에서는 Ontology의 일종인 WordNet을 이용하여 깊이, 정보량, 링크 타입, 밀도 등을 고려한 단어간 의미 유사도를 측정하여 패턴 매칭의 문제점을 해결하고자 한다. 또한, 이미지의 컬러 분포 유사도를 측정하여 저차원 특징과 결합한 의미적 이미지 검색이 가능하도록 설계하였다. 제안된 검색 방안에 대해 'Microsoft Design Gallery Live'의 주석을 포함한 이미지를 대상으로 실험한 결과, 기존 의미기반 검색 시스템보다 향상된 결과를 확인하였다.

딥러닝을 이용한 기형도 시의 핵심 이미지 분석 (Deep Learning Application for Core Image Analysis of the Poems by Ki Hyung-Do)

  • 고광호
    • 문화기술의 융합
    • /
    • 제7권3호
    • /
    • pp.591-598
    • /
    • 2021
  • 전후방 단어들의 인접 여부 혹은 후방 단어들의 순서를 학습할 수 있는 통계 기법인 SVD, 딥러닝 기법인 CBOW, LSTM으로 단어벡터를 구할 수 있다. 이렇게 학습된 단어벡터를 기형도의 시에 적용하여 핵심 이미지를 대표하는 단어들과 유사도 높은 단어를 구해서 분석해 보았다. 시적 이미지와 어울리지 않는 단어들이 연산되기도 하지만 그 단어가 사용된 시적 맥락에서는 기준 단어와 유사한 이미지를 표현하고 있음을 알 수 있었다. 이러한 단어벡터를 활용하면 핵심 이미지를 대표하는 단어들의 관계와 유사한 관계의 다른 단어들도 유추할 수 있다. 따라서 통계 기법인 SVD 및 딥러닝 기법인 CBOW와 LSTM으로 구한 단어벡터의 유사도 및 유추 연산을 통해 대상 시를 다양하고 심도 깊게 분석할 수 있다.

Effect of Online Word of Mouth on Product Sales: Focusing on Communication-Channel Characteristics

  • Jeon, Jaihyun;Lim, Taewook;Kim, Byung-Do;Seok, Junhee
    • Asia Marketing Journal
    • /
    • 제21권2호
    • /
    • pp.73-98
    • /
    • 2019
  • As information and communication technology continue its remarkable development, the exchange of information online becomes as prevalent and frequent as face-to-face communication in daily life. Therefore, the management and application of WOM (word of mouth) practices will become more important than ever to companies. Currently, there are various types of communication channels for online WOM, and each channel has its own unique traits. Most of the previous research studies online WOM by examining the information inside a single communication channel, but this research chooses two different communication channels and analyzes the effects of online WOM with each channel's unique characteristics. More specifically, this research focuses on the expectation that the effects of information from Twitter and blogs on product sales may differ because Twitter and blogs, two different communication channels for online WOM, have their own unique traits. Our particular aim is to perform an in-depth examination on the effects of communication channel's volume and valence on product sales, two important attributes of online WOM. Furthermore, while most of the empirical research focuses on online WOM and analyzes its effect on markets of temporary experience goods, such as movies and books, this research highlights focuses on the automobile market, a durable goods market. The results of our analysis are as follows: First, regarding blogs, a positive valence significantly and positively affects the sales of products, and this result indicates that consumers are influenced more by the emotional aspect of a product presented in a post than by the number of blog posts. Second, regarding Twitter, the volume of online WOM significantly and positively affects sales, an indication that as the number of posts increase, the sales increase. Through this research, we suggest that even those firms that sell durable goods can increase sales through the management and application of online WOM. Moreover, according to the characteristics of communication channels, the effects of online WOM on sales differ. As a practical implication of this research, we suggest that companies can and should create marketing strategies appropriate to their targeted communication channels.

워드 임베딩(Word Embedding)을 활용한 최적의 키워드 추출 및 검색 방법 연구 (A Study on the Optimal Search Keyword Extraction and Retrieval Technique Generation Using Word Embedding)

  • 이정인;안진희;고경택;김영석
    • 한국지반신소재학회논문집
    • /
    • 제22권2호
    • /
    • pp.47-54
    • /
    • 2023
  • 본 논문에서는 자료 조사를 위한 최적의 키워드 추출 및 검색 방법을 제안하였으며, 북한 건설 관련 동향 파악을 예시로 제안 방법을 검증하였다. 대표적인 국내 언론 플랫폼인 빅카인즈(BigKinds)를 활용하여 표본 기사를 선정하고 키워드를 추출하였다. 추출된 키워드는 워드 임베딩(Word Embedding)을 활용하여 벡터화하였으며, 이를 토대로 코사인 유사도(Cosine Similarity)를 통해 추출된 키워드 간의 유사도를 검사하였다. 또한 상위 빈도수 10개에 대한 키워드를 기준으로 유사도 0.5 이상인 키워드들을 군집화하였다. 각 군집들은 빅카인즈 검색 양식에 맞추어 군집 내부 키워드 간에는 'OR', 군집 간에는 'AND'로 형성하였다. 심층 분석 결과, 본래 목적에 맞는 유의미한 기사들이 추출되었음을 확인할 수 있었다. 기존의 분류체계 및 검색 양식을 변형시키지 않은 상태에서 사용자의 세부 목적을 충족시키는 자료 조사·분류가 가능하게 되었다는 점에서 의의를 갖는다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.