• Title/Summary/Keyword: 단어빈도

Search Result 542, Processing Time 0.031 seconds

A Comparative Study on the Machine Translation Accuracy of Loanword by Language (기계 번역기의 언어별 외래어 인식 정확도 비교 연구)

  • Kim, Kyuseok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.319-322
    • /
    • 2021
  • 4차 산업혁명 시대에는 빠른 무선 네트워크와 빅데이터를 기반으로 다양한 기술과 서비스들이 생겨나고 있다. 이런 환경 속에서 우리는 언제 어디서나 스마트폰을 통해 음악을 듣고, 게임을 하며, 웹서핑을 하는 등 PC에 버금가는 다양한 활동을 할 수 있다. 누구든 쉽게 전세계의 웹페이지에 접속하고 SNS를 통해 외국인 친구들과도 쉽게 연락을 할 수 있다. 기계 번역 기술 또한 이렇게 사용자가 늘어나는 만큼 빅데이터를 기반으로 그 정확도가 향상되고 있다. 그러나 일반 명사나 구문과는 다르게 은어, 외래어 등의 사용빈도가 상대적으로 낮은 단어들에 대한 기계 번역 정확도는 여전히 개선이 필요하다. 본 연구에서는 국내에서 가장 많이 사용되는 기계 번역기인 papago 번역기와 Google 번역기의 외래어 인식 정확도에 대한 비교 연구를 진행하였다. 추후, 본 연구 결과를 통해 앞으로의 새로운 연구 방향을 제시한다.

A Study on the Emotional Analysis Algorithm of Smartphone Users (스마트폰 사용자의 감정분석 알고리즘 연구)

  • Baeck, Ju-Yeon;Shin, Hye-Seung;Won, Eun-Ji;Yoon, Ye-Seul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.1261-1264
    • /
    • 2021
  • 현대 사회의 스트레스 문제가 심각해짐에 따라 각종 스트레스 관리 서비스가 꾸준히 개발되고 있으나, 해당 서비스들은 정서 상태 판단을 사용자가 직접 입력하는 데이터에만 의존하기 때문에 분석 결과를 완벽히 신뢰하기 어렵다. 본 연구에서 개발한 앱 S-detector는 스마트폰 사용 시간 및 빈도 정보를 자동으로 수집하고, 사용자가 작성한 일기 데이터에서는 감정 단어를 추출하여 스마트폰 사용 데이터와 일기 데이터를 각각 분석, 종합적으로 판단하는 알고리즘을 가지고 있다. 따라서 사용자가 심리·정신적 문제 가능성을 쉽게 인지하는 데 도움을 주는 앱으로서 해당 문제를 예방하거나 조기에 해결함을 목표로 한다.

Natural language sensitivity analysis using RNN (순환신경망(RNN)을 통한 자연어 감성 분석)

  • Hur Tai-sung;Jeon Se Hyun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.473-474
    • /
    • 2023
  • 본 논문에서는 딥러닝 기법 중 하나인 순환신경망(RNN)을 활용하여 자연어를 처리할 수 있는 모델 개발에 대하여 연구를 진행하였다. 다양한 주제에 대한 사용자들의 의견을 확보할 수 있는 유튜브 플랫픔을 활용하여 데이터를 확보하였으며, 감성 분류를 진행하는 만큼 학습 데이터셋으로는 네이버 영화 리뷰 데이터셋을 활용하였다. 사용자는 직접 데이터 파일을 삽입하거나 혹은 유튜브 댓글과 같이 데이터를 외부에서 확보하여 감성을 분석할 수 있으며, 자연어 속 등장하는 단어의 빈도수를 종합하여 해당 데이터들 속 키워드는 무엇인지를 분석할 수 있도록 하였다. 나아가 종합 데이터 분석 관리 플랫폼을 제작하기 위하여 해당 데이터를 데이터베이스에 저장하고GUI 프로그램을 통하여 접근 및 관리가 가능하도록 하였다.

  • PDF

Comparative analysis of random forest on depression experiences of metropolitan and provincial residents (광역시·도민의 우울경험에 대한 Random Forest 비교분석)

  • Dong Su Lee;Yu Jeong Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.321-324
    • /
    • 2023
  • 본 연구는 광역시와 광역도 간의 개인적 요인과 건강수준 정도가 우울경험 여부에 영향을 미치는 변수의 중요도를 파악하고자 시도되었다. 본 연구의 자료는 질병관리청의 2021년 지역사회건강조사 데이터를 활용하였다. 광역시의 데이터는 4,602건을 이용하였고, 광역도는 19,545건의 데이터를 이용하였다. 자료 분석에 활용된 빅데이터는 R 4.3.0 for Windows를 활용하여 단어 빈도 분석과 machine learning기법인 Random Forest분석을 실시하였다. 연구결과, train 데이터와 test 데이터의 과적합(overfitting)의 문제는 발생하지 않았으며, machine learning 기법의 분류모델은 약 94% 수준으로 나타났다. 분석 결과 광역시와 광역도 간의 우울경험여부에 미치는 중요도가 각각 다르게 나타났다. 두 지역의 시민에게 미치는 우울경험의 원인을 다르게 접근함으로써 보다 더 효율적인 정책수립이 가능 할 것으로 판단된다.

  • PDF

A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning (딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법)

  • Ka-Hyeon Kim;Heonchang Yu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.583-586
    • /
    • 2023
  • 대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.

Automatic Problem Solving System Using Web Information (웹 검색을 이용한 자동 어학 문제 풀이 시스템)

  • Choi, Hyun-Dae;Yoon, Hyung-Seok;Lee, Hyun-Ah
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.99-102
    • /
    • 2008
  • 현재 우리나라에서는 영어에 대한 중요성과 관심이 점점 커지고 있으며, 영어 능력을 평가하는 다양한 시험이 시행 중에 있다. 이런 시험들을 준비하기 위해 많은 문제들은 웹 상에서 손쉽게 구할 수 있는 반면에, 획득한 문제에 대한 정답을 원하는 순간에 구하는 것은 쉽지 않아 영어 문제를 푼 후에 정답을 확인할 수 없는 경우가 많다. 이런 불편함을 줄이기 위해 본 논문은 영어 문제의 정답을 추천해 주는 시스템에 대해서 논의한다. 단문 빈칸 채우기 형식의 문제에 대해서 해당 문제의 문장의 의미에 대한 이해없이도 특정 어휘의 쓰임새나 빈칸 주변의 문맥 정보, 단어들 간의 공기빈도 정보를 이용하여 문제의 정답을 추천한다. 시스템에 필요한 정보를 위한 자료를 웹 상의 수많은 영어 문서들에 기술된 표현을 이용하여 수동 지식 구축과정 없이 문제를 해결한다.

A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search (검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구)

  • Jeong, So-Na;Jeong, Ji-Na
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.18 no.5
    • /
    • pp.596-607
    • /
    • 2017
  • This study examined the method for adding related to "stomach neoplasms" as filters to the Medical Subject Headings (MeSH) for search as well as a method for improving the search efficiency through a word-proximity search by measuring the distance of co-occurring terms. A total of 8,625 articles published between 2007 and 2016 with the major topic terms "stomach neoplasms" were downloaded from PubMed article titles. The vocabulary to be added to the MeSH for search were analyzed. The search efficiency was verified by 277 articles that had "Stomach Neoplasms" indexed as MEDLINE MeSH in KoreaMed. As a result, 973 terms were selected as the candidate vocabulary. "Gastric Cancer" (2,780 appearances) was the most frequent term and 7,376 compound words (88.51%) combined the histological terms of "stomach" and "neoplasm", such as "gastric adenocarcinoma" and "gastric MALT lymphoma". A total of 5,234 compounds words (70.95%), in which the co-occurring distance was two words, were found. The matching rate through the MEDLINE MeSH and KoreaMed MeSH Indexer was 209 articles (75.5%). The search efficiency improved to 263 articles (94.9%) when the search filters were added, and to 268 articles (96.7%) when the 13 word-proximity search technique of the co-occurring terms was applied. This study showed that the use of a thesaurus as a means of improving the search efficiency in a natural language search could maintain the advantages of controlled vocabulary. The search accuracy can be improved using the word-proximity search instead of a Boolean search.

Popularization of Marathon through Social Network Big Data Analysis : Focusing on JTBC Marathon (소셜 네트워크 빅데이터 분석을 통한 마라톤 대중화 : JTBC 마라톤대회를 중심으로)

  • Lee, Ji-Su;Kim, Chi-Young
    • Journal of Korea Entertainment Industry Association
    • /
    • v.14 no.3
    • /
    • pp.27-40
    • /
    • 2020
  • The marathon has long been established as a representative lifestyle for all ages. With the recent expansion of the Work and Life Balance trend across the society, marathon with a relatively low barrier to entry is gaining popularity among young people in their 20s and 30s. By analyzing the issues and related words of the marathon event, we will analyze the spottainment elements of the marathon event that is popular among young people through keywords, and suggest a development plan for the differentiated event. In order to analyze keywords and related words, blogs, cafes and news provided by Naver and Daum were selected as analysis channels, and 'JTBC Marathon' and 'Culture' were extracted as key words for data search. The data analysis period was limited to a three-month period from August 13, 2019 to November 13, 2019, when the application for participation in the 2019 JTBC Marathon was started. For data collection and analysis, frequency and matrix data were extracted through social matrix program Textom. In addition, the degree of the relationship was quantified by analyzing the connection structure and the centrality of the degree of connection between the words. Although the marathon is a personal movement, young people share a common denominator of "running" and form a new cultural group called "running crew" with other young people. Through this, it was found that a marathon competition culture was formed as a festival venue where people could train together, participate together, and escape from the image of a marathon run alone and fight with themselves.

Keyword Analysis of Research on Consumption of Children and Adolescents Using Text Mining (텍스트마이닝을 활용한 아동, 청소년 대상 소비관련 연구 키워드 분석)

  • Jin, Hyun-Jeong
    • Journal of Korean Home Economics Education Association
    • /
    • v.33 no.4
    • /
    • pp.1-13
    • /
    • 2021
  • The purpose of this study is to identify trends and potential themes of research on consumption of children and adolescents for 20 years by analyzing keywords. The keywords of 869 studies on consumption of children and adolescents published in journals listed in Korean Citation Index were analyzed using text mining techniques. The most frequent keywords were found in the order of youth, youth consumers, consumer education, conspicuous consumption, consumption behavior, and character. As a result of analyzing the frequency of keywords by dividing into five-year periods, it was confirmed that the frequency of consumer education was significantly higher betwn 2006 and 2010. Research on ethical consumption has been active since 2011, and research has been conducted on various topics instead of without a prominent keyword during the most recent 5-year period. Looking at the keywords based on the TF-IDF, the keywords related to the environment and the Internet were the main keywords between 2001 and 2005. From 2006 to 2010, the TF-IDF values of media use, advertisement education, and Internet items were high. From 2011 to 2015, fair trade, green growth, green consumption, North Korean defector youths, social media, and from 2016 to 2020, text mining, sustainable development education, maker education, and the 2015 revised curriculum appeared as important themes. As a result of topic modeling, eight topics were derived: consumer education, mass media/peer culture, rational consumption, Hallyu/cultural industry, consumer competency, economic education, teaching and learning method, and eco-friendly/ethical consumption. As a result of network analysis, it was found that conspicuous consumption and consumer education are important topics in consumption research of children and adolescents.

Investigating an Automatic Method in Summarizing a Video Speech Using User-Assigned Tags (이용자 태그를 활용한 비디오 스피치 요약의 자동 생성 연구)

  • Kim, Hyun-Hee
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.46 no.1
    • /
    • pp.163-181
    • /
    • 2012
  • We investigated how useful video tags were in summarizing video speech and how valuable positional information was for speech summarization. Furthermore, we examined the similarity among sentences selected for a speech summary to reduce its redundancy. Based on such analysis results, we then designed and evaluated a method for automatically summarizing speech transcripts using a modified Maximum Marginal Relevance model. This model did not only reduce redundancy but it also enabled the use of social tags, title words, and sentence positional information. Finally, we compared the proposed method to the Extractor system in which key sentences of a video speech were chosen using the frequency and location information of speech content words. Results showed that the precision and recall rates of the proposed method were higher than those of the Extractor system, although there was no significant difference in the recall rates.