• Title/Summary/Keyword: Semantic word network

Search Result 114, Processing Time 0.026 seconds

Assessment of performance of machine learning based similarities calculated for different English translations of Holy Quran

  • Al Ghamdi, Norah Mohammad;Khan, Muhammad Badruddin
    • International Journal of Computer Science & Network Security
    • /
    • 제22권4호
    • /
    • pp.111-118
    • /
    • 2022
  • This research article presents the work that is related to the application of different machine learning based similarity techniques on religious text for identifying similarities and differences among its various translations. The dataset includes 10 different English translations of verses (Arabic: Ayah) of two Surahs (chapters) namely, Al-Humazah and An-Nasr. The quantitative similarity values for different translations for the same verse were calculated by using the cosine similarity and semantic similarity. The corpus went through two series of experiments: before pre-processing and after pre-processing. In order to determine the performance of machine learning based similarities, human annotated similarities between translations of two Surahs (chapters) namely Al-Humazah and An-Nasr were recorded to construct the ground truth. The average difference between the human annotated similarity and the cosine similarity for Surah (chapter) Al-Humazah was found to be 1.38 per verse (ayah) per pair of translation. After pre-processing, the average difference increased to 2.24. Moreover, the average difference between human annotated similarity and semantic similarity for Surah (chapter) Al-Humazah was found to be 0.09 per verse (Ayah) per pair of translation. After pre-processing, it increased to 0.78. For the Surah (chapter) An-Nasr, before preprocessing, the average difference between human annotated similarity and cosine similarity was found to be 1.93 per verse (Ayah), per pair of translation. And. After pre-processing, the average difference further increased to 2.47. The average difference between the human annotated similarity and the semantic similarity for Surah An-Nasr before preprocessing was found to be 0.93 and after pre-processing, it was reduced to 0.87 per verse (ayah) per pair of translation. The results showed that as expected, the semantic similarity was proven to be better measurement indicator for calculation of the word meaning.

언어 네트워크 분석을 이용한 과학의 본성에 관한 국내연구 동향 (Research Trends of Studies Related to the Nature of Science in Korea Using Semantic Network Analysis)

  • 이상균
    • 대한지구과학교육학회지
    • /
    • 제9권1호
    • /
    • pp.65-87
    • /
    • 2016
  • The purpose of this study is to examine Korean journals related to science education in order to analyze research trends into Nature of science in Korea. The subject of the study is the level of Korean Citation Index (KCI-listed, KCI listing candidates), that can be searched by the key phrase, "Nature of science" in Korean language through the RISS service. In this study, the Descriptive Statistical Analysis Method is utilized to discover the number of research articles, classifying them by year and by journal. Also, the Sementic Network Analysis was conducted to Word Cloud Analysis the frequency of key words, Centrality Analysis, co-occurrence and Cluster Dendrogram Analysis throughout a variety of research articles. The results show that 91 research papers were published in 25 journals from 1991 to 2015. Specifically, the 2 major journals published more than 50% of the total papers. In relation to research fields., In addition, key phrases, such as 'Analysis', 'recognition', 'lessons', 'science textbook', 'History of Science' and 'influence' are the most frequently used among the research studies. Finally, there are small language networks that appear concurrently as below: [Nature of science - high school student - recognize], [Explicit - lesson - effect], [elementary school - science textbook - analysis]. Research topic have been gradually diversified. However, many studies still put their focus on analysis and research aspects, and there have been little research on the Teaching and learning methods.

U-WIN(사용자어휘지능망) 기반의 의미적 정보검색과 KISTI-STA (Semantic Information Retrieval based on User-Word Intelligent Network(U-Win) and KISTI-STA)

  • 최호섭;윤화묵;옥철영
    • STIMA Bulletin
    • /
    • 통권6호
    • /
    • pp.27-34
    • /
    • 2007
  • 정보검색서비스는 '사용자가 얼마나 편리하게 검색할 수 있는가'와 '검색 결과에 얼마나 만족하는가'가 중요한데, 이는 정보검색 기술 개발에서 가장 중요하게 고려해야 할 사항이다. 본고는 과학기술 지식정보를 대상으로, 어휘망과 온톨로지적 성격을 가지고 있는 U-WIN을 기반으로 의미적인 정보검색 서비스가 가능하도록 하기 위하여, 한국과학기술정보연구원(KISTI)에서 개발 중인 U-WIN을 이용한 의미적 정보검색 기술과 시범서비스인 KISTI-STA를 소개한다.

  • PDF

Word-Level Embedding to Improve Performance of Representative Spatio-temporal Document Classification

  • Byoungwook Kim;Hong-Jun Jang
    • Journal of Information Processing Systems
    • /
    • 제19권6호
    • /
    • pp.830-841
    • /
    • 2023
  • Tokenization is the process of segmenting the input text into smaller units of text, and it is a preprocessing task that is mainly performed to improve the efficiency of the machine learning process. Various tokenization methods have been proposed for application in the field of natural language processing, but studies have primarily focused on efficiently segmenting text. Few studies have been conducted on the Korean language to explore what tokenization methods are suitable for document classification task. In this paper, an exploratory study was performed to find the most suitable tokenization method to improve the performance of a representative spatio-temporal document classifier in Korean. For the experiment, a convolutional neural network model was used, and for the final performance comparison, tasks were selected for document classification where performance largely depends on the tokenization method. As a tokenization method for comparative experiments, commonly used Jamo, Character, and Word units were adopted. As a result of the experiment, it was confirmed that the tokenization of word units showed excellent performance in the case of representative spatio-temporal document classification task where the semantic embedding ability of the token itself is important.

워드넷 기반 한국어 명사 어휘의미망의 정제 (Refinement of KorLex based on WordNet)

  • 황순희;윤애선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2005년도 춘계학술대회
    • /
    • pp.267-272
    • /
    • 2005
  • 최근 들어 온톨로지(ontology), 시소러스(thesaurus) 등과 함께 주목받고 있는 Princeton 대학의 워드넷(WordNet, 이하 PWN) 은 자연어 처리(NLP)와 관련하여 대안을 제시할 수 있는 어휘의미망(lexico-semantic network)이다. 또한 PWN을 기반으로 상이한 개별어 어휘의미망 구축이 여러 차례 시도되었고, 현재도 진행 중이다. 본 연구는 간접 구축 방식에 의한 어휘의미망 구축 시 요구되는 정제(refinement) 방식들을 검토하고, 이를 한국어 명사 어휘의미망(KL)에 적용하여 정확도 검증 방법의 한 대안으로 제시하였다. 또한 보다 정교한 정제 방법의 모색과 고찰은 향후 과제로 삼고자 한다.

  • PDF

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

'인공지능', '기계학습', '딥 러닝' 분야의 국내 논문 동향 분석 (Trend Analysis of Korea Papers in the Fields of 'Artificial Intelligence', 'Machine Learning' and 'Deep Learning')

  • 박홍진
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권4호
    • /
    • pp.283-292
    • /
    • 2020
  • 4차 산업혁명의 대표적인 이미지 중 하나인 인공지능은 2016년 알파고 이후에 인공지능 인식이 매우 높아져 있다. 본 논문은 학국교육학술정보원에서 제공하는 국내 논문 중 '인공지능', '기계학습', '딥 러닝'으로 검색된 국내 발표 논문에 대해서 분석하였다. 검색된 논문은 약 1만여건이며 논문 동향을 파악하기 위해 빈도분석과 토픽 모델링, 의미 연결망을 이용하였다. 추출된 논문을 분석한 결과, 2015년에 비해 2016년에는 인공지능 분야는 600%, 기계학습은 176%, 딥 러닝 분야는 316% 증가하여 알파고 이후에 인공지능 분야의 연구가 활발히 진행됨을 확인할 수 있었다. 또한, 2018년 부터는 기계학습보다 딥 러닝 분야가 더 많이 연구 발표되고 있다. 기계학습에서는 서포트 벡터 머신 모델이, 딥 러닝에서는 텐서플로우를 이용한 컨볼루션 신경망이 많이 활용되고 있음을 알 수 있었다. 본 논문은 '인공지능', '기계학습', '딥 러닝' 분야의 향후 연구 방향을 설정하는 도움을 제공할 수 있다.

'한류' 경향에 관한 국내 언론 기사 빅데이터 분석 연구 ('Korean Wave' News Analysis Using News Big Data)

  • 황서이;박정배
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제14권5호
    • /
    • pp.1-14
    • /
    • 2020
  • 본 연구는 국내 언론에 나타난 '한류' 관련 이슈의 경향을 파악하기 위해 의제설정이론을 적용하였고, 빅데이터 분석기법인 토픽모델링과 의미연결망분석을 활용하여 언론 기사를 분석하였다. 이를 위해 2000년부터 2019년까지의 '한류' 관련 이슈에 대해 다룬 54개 언론 미디어 보도기사 197,992건의 제목, 부제, 본문, 키워드를 수집하여 핵심 토픽과 토픽 간의 관계를 파악하였다. 연구결과는 다음과 같다. 첫째, 국내 언론에 나타난 '한류'는 한류 관련 지역, 문화, 경제 등과 관련된 단어들이 주요하게 나타났다. 둘째, 한류 관련 이슈는 총 9개의 토픽이 도출되었으며, '방송한류', '한류 수출', '국내외정세', '한류 교육', '뷰티·패션 한류', '음악·공연 한류', '관광한류', '미디어(플랫폼)', '권역 및 지역' 순으로 나타났다. 셋째, 한류는 주로 문화적 차원과 경제적 차원에서 의미화되었고, '문화한류', '경제한류', '교육', '환경', '지리'와 같이 5개의 특성으로 클러스터링 되었다.

A Study on the News Frame of COVID-19 Vaccine through Structural Topic Modeling and Semantic Network Analysis

  • Eun-Ji Yun;Bo-Young Kang
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.129-153
    • /
    • 2023
  • 본 연구는 코로나19 팬데믹 상황이 심각하였을 때, 대중들의 관심도가 높은 코로나19 백신과 관련한 대량의 언론 보도 프레임을 분석하여, 위기커뮤니케이션의 핵심 요소로서 바람직한 언론의 역할과 방향성을 모색하기 위해 수행되었다. 본 연구의 기간은 코로나19 백신 개발이 가시화되기 시작한 2020년 11월부터 2021년 6월까지 8개월이며, 연구 대상은 대중 신뢰도 및 이용도 순위에 따라 조선일보, 중앙일보, 동아일보, 한겨레로 설정하였다. 결과의 정확성 및 효율성을 제고하기 위해 최신 빅데이터 연구 기법인 구조적 토픽 모델링(STM) 및 의미연결망 분석 기법을 활용하였다. 연구결과, 구성 단어들의 명확한 군집도 및 중심성 분석값을 기반으로 각 언론사 당 16개 프레임, 총 64개의 유의미한 프레임이 도출되었다. 또한 프레임의 구성 정도 및 내용에 대한 차이를 확인하기 위해 4개 언론사를 비교 분석하였으며, 모든 언론사마다 유의미한 차이가 없음을 확인하였다.

Fake News Detection Using Deep Learning

  • Lee, Dong-Ho;Kim, Yu-Ri;Kim, Hyeong-Jun;Park, Seung-Myun;Yang, Yu-Jun
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1119-1130
    • /
    • 2019
  • With the wide spread of Social Network Services (SNS), fake news-which is a way of disguising false information as legitimate media-has become a big social issue. This paper proposes a deep learning architecture for detecting fake news that is written in Korean. Previous works proposed appropriate fake news detection models for English, but Korean has two issues that cannot apply existing models: Korean can be expressed in shorter sentences than English even with the same meaning; therefore, it is difficult to operate a deep neural network because of the feature scarcity for deep learning. Difficulty in semantic analysis due to morpheme ambiguity. We worked to resolve these issues by implementing a system using various convolutional neural network-based deep learning architectures and "Fasttext" which is a word-embedding model learned by syllable unit. After training and testing its implementation, we could achieve meaningful accuracy for classification of the body and context discrepancies, but the accuracy was low for classification of the headline and body discrepancies.