• 제목/요약/키워드: Similar Word

검색결과 416건 처리시간 0.028초

워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링 (SMS Text Messages Filtering using Word Embedding and Deep Learning Techniques)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제7권4호
    • /
    • pp.24-29
    • /
    • 2018
  • 딥러닝에서 자연어 처리를 위한 텍스트 분석 기법은 워드 임베딩을 통해 단어를 벡터 형태로 표현한다. 본 논문에서는 워드 임베딩 기법과 딥러닝 기법을 이용하여 SMS 문자 메시지를 문서 벡터로 구성하고 이를 스팸 문자 메시지와 정상적인 문자 메시지로 분류하는 방법을 제안하였다. 유사한 문맥을 가진 단어들은 벡터 공간에서 인접한 벡터 공간에 표현되도록 하기 위해 전처리 과정으로 자동 띄어쓰기를 적용하고 스팸 문자 메시지로 차단되는 것을 피하기 위한 목적으로 음절의 자모를 특수기호로 왜곡하여 맞춤법이 파괴된 상태로 단어 벡터와 문장 벡터를 생성하였다. 또한 문장 벡터 생성 시 CBOW와 skip gram이라는 두 가지 워드 임베딩 알고리즘을 적용하여 문장 벡터를 표현하였으며, 딥러닝을 이용한 스팸 문자 메시지 필터링의 성능 평가를 위해 SVM Light와 정확도를 비교 측정하였다.

질의어 의미별 사용자 선호도를 이용한 웹 검색의 성능 향상 (Improving Performance of Web Search using The User Preference in Query Word Senses)

  • 김형일;김준태
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1101-1112
    • /
    • 2004
  • 본 논문에서는 웹 검색의 성능 향상을 위해 질의어 의미별 사용자 선호도를 이용한 웹 페이지의 가중치 부여 방식을 제안한다. 일반적으로 검색엔진들은 검색 질의어와 웹 페이지의 어휘 비교에 의한 관련도 측정만을 사용하여 웹 페이지의 가중치를 부여한다. 웹과 같이 방대한 자료를 대상으로 검색을 할 경우 유사한 관련도를 가진 검색 결과가 매우 많으므로 어휘 비교만으로는 중요한 웹 페이지를 선별하기 어렵다. 본 논문에서는 질의어의 의미를 구분하도록 워드넷(WordNet)을 이용한 사용자 인터페이스를 구축하고, 사용자의 클릭 수를 각 웹 페이지의 가중치에 누적함으로써 다수 사용자의 검색 행위에 의한 묵시적 평가가 웹 페이지의 검색 순위에 반영되는 검색 시스템을 구현하였다. 클릭수의 누적에 있어서 질의 어 의미별로 가중치를 구분하여 저장함으로써 일반적인 검색엔진보다 정확한 검색이 되었으며, 웹 페이지의 범주별 가중치와 질의어의 의미별 사용자 선호도를 이용함으로써 검색 시스템의 성능을 향상시킬 수 있다는 것을 20개의 어휘에 관련된 41개의 의미들을 대상으로 실험한 결과로 확인하였다.

연결특성함수를 이용한 문서화상에서의 영역 분리와 문자열 추출 (Segmentation of region strings using connection-characteristic function)

  • 김석태;이대원;박찬용;남궁재찬
    • 한국통신학회논문지
    • /
    • 제22권11호
    • /
    • pp.2531-2542
    • /
    • 1997
  • This paper describes a method for region segmentation and string extractionin documents which are mixed with text, graphic and picture images by the use of the structural characteristic of connceted components. In segmentation of non-text regionas, with connection-characteristic functions which are made by structural characteristic of connected components, segmentation process is progressed. In the string extraction, first we organize basic-unit-region of which vertical and horizontal length are 1/4 of average length of connection components. Second, by merging the basic-unit-regions one other that have smaller values than a given connection intensity threshold. Third, by linking the word blocks with similar block anagles, initial strings are cresed. Finally the whold strings are generated by merging remaining word blocks whose angles are not decided, if their height and prosition are similar to the initial strings. This method can extract strings that are neither horizontal nor of various character sizes. Through computer exteriments with different style documents, we have shown that the feasibility of our method successes.

  • PDF

조선시대 목조가구 용어 량의 사용 사례 연구 (A Case Study on the Using of Ryang, a Word of Wooden Structure in Joseon Dynasty)

  • 이연노
    • 건축역사연구
    • /
    • 제25권4호
    • /
    • pp.7-18
    • /
    • 2016
  • This thesis mainly deals with how 'count of Ryang' was used in Joseon dynasty. Count of Ryang means how many purlins were used in the building with longitudinal section. As a result, the notion of Ryang in Joseon dynasty does not differ from now one. But the usages of that are slightly different to the present day. In Joseon dynasty, count of Ryang mainly was appeared with another word, count of Kan. Count of Kan has two meanings. One is the length, and the other is the area of building. When they used the count of Ryang combined with Kan, count of Kan had the meaning of length. By doing that, count of Ryang indicates the size of flank, count of Kan indicates the length of front. In the 19th century, count of Ryang looks similar to the past, but count of Kan shows another aspect. It did not indicate the length but the area of building. Through this study, although the usages of Ryang were different to the present, the concepts of Ryang were similar in Joseon dynasty.

텍스트마이닝 기법을 활용한 한국인의 행복과 불행 탐색연구 (An Exploratory Study of Happiness and Unhappiness Among Koreans based on Text Mining Techniques)

  • 박상현;도강혁;김학영;박가은;윤진혁;김경일
    • 한국콘텐츠학회논문지
    • /
    • 제18권7호
    • /
    • pp.10-27
    • /
    • 2018
  • 본 연구에서는 텍스트 마이닝 분석을 통해 한국 사회에서 행복과 불행이 갖는 의미를 탐색하였다. 자료수집 및 분석을 위하여 온라인 뉴스 포털에서 Word2Vec과 TF-IDF 방법을 사용하여 '행복' 및 '불행' 키워드와 유사한 단어를 추출했다. 또한 K-LIWC 사전을 사용하여 행복 및 불행과 연관된 단어들의 감성 속성에 대해 알아보았다. TF-IDF 분석 결과, 행복과 불행은 사회적 요인과 해당 년도의 사회적 이슈들과 각각 높은 관련성이 있는 것으로 관찰됐다. Word2Vec 분석에서는 '희망'이 6년 연속으로 행복과 유사성이 높은 단어로 나타났다. K-LIWC 분석에서 '돈재정적이슈', '학교', '의사소통'은 행복 및 불행과 모두 관련성이 높았다. 그밖에 '몸 상태와 증상'이 불행과 높은 관련성이 있는 범주로 나타났다. 이러한 결과를 바탕으로 본 연구의 의의, 제한점 및 후속연구에 대한 필요성을 논의하였다.

텍스트 마이닝 방법론과 메신저UI를 활용한 융합연구 촉진을 위한 연구자 및 연구 분야 추천 시스템의 제안 (Researcher and Research Area Recommendation System for Promoting Convergence Research Using Text Mining and Messenger UI)

  • 양낙영;김성근;강주영
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제27권4호
    • /
    • pp.71-96
    • /
    • 2018
  • Purpose Recently, social interest in the convergence research is at its peak. However, contrary to the keen interest in convergence research, an infrastructure that makes it easier to recruit researchers from other fields is not yet well established, which is why researchers are having considerable difficulty in carrying out real convergence research. In this study, we implemented a researcher recommendation system that helps researchers who want to collaborate easily recruit researchers from other fields, and we expect it to serve as a springboard for growth in the convergence research field. Design/methodology/approach In this study, we implemented a system that recommends proper researchers when users enter keyword in the field of research that they want to collaborate using word embedding techniques, word2vec. In addition, we also implemented function of keyword suggestions by using keywords drawn from LDA Topicmodeling Algorithm. Finally, the UI of the researcher recommendation system was completed by utilizing the collaborative messenger Slack to facilitate immediate exchange of information with the recommended researchers and to accommodate various applications for collaboration. Findings In this study, we validated the completed researcher recommendation system by ensuring that the list of researchers recommended by entering a specific keyword is accurate and that words learned as a similar word with a particular researcher match the researcher's field of research. The results showed 85.89% accuracy in the former, and in the latter case, mostly, the words drawn as similar words were found to match the researcher's field of research, leading to excellent performance of the researcher recommendation system.

CSR·CSV·ESG 연구 동향 분석 - 빅데이터 분석을 중심으로 - (Analysis of CSR·CSV·ESG Research Trends - Based on Big Data Analysis -)

  • 이은지;문재영
    • 품질경영학회지
    • /
    • 제50권4호
    • /
    • pp.751-776
    • /
    • 2022
  • Purpose: The purpose of this paper is to present implications by analyzing research trends on CSR, CSV and ESG by text analysis and visual analysis(Comprehensive/ Fields / Years-based) which are big data analyses, by collecting data based on previous studies on CSR, CSV and ESG. Methods: For the collection of analysis data, deep learning was used in the integrated search on the Academic Research Information Service (www.riss.kr) to search for "CSR", "CSV" and "ESG" as search terms, and the Korean abstracts and keyword were scrapped out of the extracted paper and they are organize into EXCEL. For the final step, CSR 2,847 papers, CSV 395 papers, ESG 555 papers derived were analyzed using the Rx64 4.0.2 program and Rstudio using text mining, one of the big data analysis techniques, and Word Cloud for visualization. Results: The results of this study are as follows; CSR, CSV, and ESG studies showed that research slowed down somewhat before 2010, but research increased rapidly until recently in 2019. Research have been found to be heavily researched in the fields of social science, art and physical education, and engineering. As a result of the study, there were many keyword of 'corporate', 'social', and 'responsibility', which were similar in the word cloud analysis. Looking at the frequent keyword and word cloud analysis by field and year, overall keyword were derived similar to all keyword by year. However, some differences appeared in each field. Conclusion: Government support and expert support for CSR, CSV and ESG should be activated, and researches on technology-based strategies are needed. In the future, it is necessary to take various approaches to them. If researches are conducted in consideration of the environment or energy, it is judged that bigger implications can be presented.

중학생을 대상으로 한 대수 문장제 해결에서의 유추적 전이 (Middle School Students' Analogical Transfer in Algebra Word Problem Solving)

  • 이종희;김진화;김선희
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제42권3호
    • /
    • pp.353-368
    • /
    • 2003
  • Analogy, based on a similarity, is to infer the properties of the similar object from properties of an object. It can be a very useful thinking tool for learning mathematical patterns and laws, noticing on relational properties among various situations. The purpose of this study, when manipulating hint condition, figure and table conditions and the amount of original learning by using algebra word problems, is to verify the effects of analogical transfer in solving equivalent, isomorphic and similar problems according to the similarity of source problems and target ones. Five study questions were set up for the above purpose. It was 354 first grade students of S and G middle schools in Seoul that were experimented for this study. The data was processed by MANOVA analysis of statistical program, SPSS 10.0. The results of this studies would indicate that most of the students would be poor at solving isomorphic and similar problems in the performance of analogical transfer according to the similarity of source and target problems. Hints, figure and table conditions did not facilitate the analogical transfer. Merely, on the condition that amount of teaming was increased, analogical transfer of the students was facilitated. Therefore, it is necessary to have students do much more analogical problem-solving experience to improve their analogical reasoning ability through the instruction program development in the educational fields.

  • PDF

문서 군집화의 정확률 향상을 위한 범용어 수집과 문서 재분류 알고리즘 (Gathering Common-word and Document Reclassification to improve Accuracy of Document Clustering)

  • 신준철;옥철영;이응봉
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.53-62
    • /
    • 2012
  • 정보검색에서 많은 검색 결과 문서들을 효율적으로 다루기 위해 군집화 기술을 사용하고 있지만, 대체로 군집화의 정확률은 일부 영역에서만 요구 사항을 만족시키고 있다. 본 논문에서는 검색 결과 문서들의 군집화 정확률을 향상시키기 위한 두 가지 방법을 제안한다. 첫째는 군집화 과정에서 흔히 쓰이지만 낮은 가중치를 가진 범용어를 정의하고, 검색 결과들을 비교하여 범용어를 자동 수집하고 그의 가중치를 계산하는 방법을 제안한다. 실험 결과 불용어에 비해 범용어를 사용했을 때 군집화 오류의 34%가 개선되었다. 둘째는 집단평균연결 방식의 군집화 알고리즘으로 일차 군집들을 생성 후, 문서와 군집 간의 유사도를 측정하여 가장 유사도가 높은 군집으로 문서를 재분류하는 알고리즘을 제안한다. 네이버 지식인 카테고리를 이용한 군집 결과의 비교 실험을 통해 일차 군집보다 재분류된 군집의 정확률이 1.81% 향상되는 것을 확인하였다.

한국어 어휘 중의성 해소에서 어휘 확률에 대한 효과적인 평가 방법 (An Effective Estimation method for Lexical Probabilities in Korean Lexical Disambiguation)

  • 이하규
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1588-1597
    • /
    • 1996
  • 본 논문은 한국어 어휘 중의성 해소(lexical disambiguation)에서 어휘 확률 (lexical probability) 평가방법에 대해 기술하고 있다. 통계적 접근 방법의 어휘 중 의성 해소에서는 일반적으로 말뭉치(corpus)로부터 추출된 통계 자료에 기초하여 어 휘 확률과 문맥 확률(contextual probability)을 평가한다. 한국어는 어절별로 띄어 쓰기가 이루어지므로 어절 단위로 어휘 확률을 적용하는 것이 바람직하다. 하지만 한 국어는 어절의 다양성이 심하기 때문에 상당히 큰 말뭉치를 사용하더라도 어절 단위 로는 어휘 확률을 직접 평가할 수 없는 경우가 다소 있다. 이러한 문제점을 극복하기 위해 본 연구에서는 어휘 분석 측면에서 어절의 유사성을 정의하고 이에 기반을 둔 한국어 어휘 확률 평가 방법을 제안한다. 이 방법에서는 어떤 어절에 대해 어휘 확률 을 직접 평가할 수 없는 경우 이와 어휘 분석이 유사한 어절들을 통해 간접적으로 평 가한다. 실험결과 제안된 접근방법이 한국어 어휘 중의성 해소에 효과적인 것으로 나 타나고 있다.

  • PDF