• 제목/요약/키워드: Co-word

검색결과 311건 처리시간 0.027초

단어 간 관계 패턴 학습을 통한 하이퍼네트워크 기반 자연 언어 문장 생성 (Hypernetwork-based Natural Language Sentence Generation by Word Relation Pattern Learning)

  • 석호식;작가멧;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권3호
    • /
    • pp.205-213
    • /
    • 2010
  • 본 논문에서는 단어간 관계 패턴을 학습한 후 이에 기반하여 자연 언어 문장을 생성하는 방법을 소개한다. 기존의 문장 생성 방법론에서는 내재된 문법 규칙의 존재를 가정하거나 템플릿을 사용하고 있으나, 본 논문에서 소개하는 방법론에서는 태깅 등의 부가 정보 없이 단어의 동시 등장 빈도만을 활용하여 단어간 관계 패턴을 학습한다. 단어간 관계 패턴은 하이퍼네트워크 방법론에 기반하여 학습되었다. 학습이 진행됨에 따라 하이퍼네트워크의 복잡도가 높아지며, 학습 모델에 축적되는 언어 관계 패턴의 수가 증가한다. 학습된 모텔의 유효성은 학습 패턴에 기반한 자연 언어 문장 생성을 통해 확인하였다. 실험 결과 학습이 진행됨에 따라 문법적으로 성립하는 문장의 비율이 향상하였다. 파서를 이용하여 생성된 문장을 구성하는 문법 규칙을 분석한 후 문법 규칙의 분포를 학습에 사용한 코퍼스의 문법 규칙 분포와 비교한 결과 학습에 사용된 코퍼스의 문법적 특성을 학습할 수 있는 잠재력을 갖고 있음을 확인하였다.

효율적인 하드웨어 구조의 Viterbi Scorer를 이용한 실시간 격리단어 인식 시스템의 구현 (A Real-Time Implementation of Isolated Word Recognition System Based on a Hardware-Efficient Viterbi Scorer)

  • 조윤석;김진율;오광석;이황수
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권2E호
    • /
    • pp.58-67
    • /
    • 1994
  • HMM을 이용한 알고리즘은 대용량 음성인식 시스템을 비롯하여 많은 시스템에 적용되어 왔다. 음성인식 시스템을 범용의 프로세서들을 가지고 구현할 경우 많은 계산량과 데이터들로 말미암아 실시간의 성능을 얻을 수 없다. 따라서 실시간 음성인식을 위해서는 인식을 가속화 시키기 위한 전용 하드웨어를 개발하는 것이 요구되어진다. 본 논문에서는 HMM을 이용한 격리단어 인식 시스템을 구현하는 내용을 다루고 있다. 음성인식 시스템은 호스트 컴퓨터와 DSP 보드 그리고 프로토타입 Viterbi scoring 보드로 이루어져 있다. 음성신호로부터 특징 벡터를 추출하는 과정은 DSP 보드에서 이루어지고, Viterbi scoring 보드는 세 개의 field-programmable gate array 칩들을 사용하여 설계되었다. Viterbi scoring 보드는 하드웨어적으로 효율적인 Viterbi scoring 구조를 채택하고 있고 음성인식을 위한 Viterbi 알고리즘을 수행한다. 제작된 시스템은 10MHz로 동작하고, 한 프레임 즉 10ms 동안에 100.000 스테이트를 처리할 수 있다.

  • PDF

"주역참동계(周易參同契)"와 주석서에 대한 서지학적(書誌學的) 연구 (Study on bibliography of "Zhouyi cantong qi(周易參同契)" and the Book of Annotation)

  • 임명진;김병수;강정수
    • 혜화의학회지
    • /
    • 제19권2호
    • /
    • pp.25-33
    • /
    • 2011
  • Daoism is a very important subject that consists of oriental medicine(traditional east asia medicine). Among the many scriptures, The Zhouyi cantong qi (周易參同契, Token for Joining the Three in Accordance with the Book of Changes) is the main Chinese alchemical scripture. This book is composed with three kinds of subject, Zhouyi(周易, the Book of Changes), the Huanglao(黃老) Tradition and alchemy(鍊金, 爐火). The author's name is not signed but is concealed in the text. According to the traditional account, the legendary Han immortal from Guiji (會稽, in present-day Zhejiang, 古 浙江), Wei Boyang(魏伯陽), wrote it in the period between Emperor Shun and Emperor Huan of the Eastern Han (126-127 BC), after reading the Longhu jing (龍虎經, Scripture of the Dragon and Tiger). Later he transmitted it to Xu Congshi(徐從事), who appended a commentary, and to Chunyu Shutong(淳于叔通), who first circulated it in the world. While some features of this account provide significant details - especially about the reputed date of the text and about its formation having taken place in stages - the received Cantong qi(參同契) actually is not the product of a single generation of authors, but the result of several centuries of textual accretions as well as theory of three co-authorship by Wei Boyang(魏伯陽), Xu Congshi(徐從事), Chunyu Shutong(淳于叔通). It has over 6000 characters in four-word or five-word verses. Some parts of the book are in styles of prose and poem. Many scholars explain the title "cantongqi(參同契)", saying that "Can(參)" means three, "Tong(同)" means correspondence, and "Qi(契)" means unification. Through images of hexagrams of the Book of Changes, the book illustrates the thought of the Huanglao(黃老) Tradition and alchemy. Wei Boyang(魏伯陽) theorizes his own experience unifying the way of intercourse of Yin and Yang in the Book of Changes, the cultivation of spirit through spontaneity of the Huanglao(黃老) Tradition and the elixir refining of alchemy.

북극권 스피츠베르겐 섬의 관속식물 국명 목록 (List of Korean Names for the Vascular Plants in Spitsbergen Island, in the Arctic Region)

  • 이규;한동욱;현진오;황영심;이유경;이은주
    • Ocean and Polar Research
    • /
    • 제34권1호
    • /
    • pp.101-110
    • /
    • 2012
  • In this study, we attempted to provide Korean names to the arctic vascular plants observed around the Dasan Korean Arctic Station and Longyearbyen in Spitsbergen Island, in the Arctic region. To obtain recognizable results, plants were named according to the following naming rules. (1) When Korean names already existed, those names were used. (2) When there was no Korean name for a plant species, a scientific name for the plant was translated into a Korean name. (3) If the meaning of the scientific name was unclear, an English common name was translated into Korean name. (4) If the scientific names had meaning to the Arctic inhabitation, the Korean names included the word 'Buk-geuk'. (5) If the distribution of the plant was limited to the Arctic area or the original species lived in the polar region, the Korean name included the word 'Buk-geuk'. (6) If the plant had no Korean generic name, a particular suffix '~a-jae-bi' was added to the closely related genus name of the plant species, or a new Korean genus name was used by translating a common English name. (7) If the same generic name had two or more Korean names, a generic name that better reflected the characteristics of the plant was selected. In this paper, we reported Korean names for 46 plants species belonging to 15 families and 28 genera. Eight plants had an existing Korean name and the other species were given new Korean names based on the criteria outlined above. We also made new Korean generic names for three genera, Braya, Micranthes and Cassiope.

스펙트로그램을 이용한 근위축성측삭경화증 여성 화자의 모음 포먼트, 음성강도, 기본주파수의 변화 (Characteristics of Vowel Formants, Voice Intensity, and Fundamental Frequency of Female with Amyotrophic Lateral Sclerosis using Spectrograms)

  • 변해원
    • 한국융합학회논문지
    • /
    • 제10권9호
    • /
    • pp.193-198
    • /
    • 2019
  • 본 연구는 근위축성측삭경화증(amyotrophic lateral sclerosis, ALS)으로 진단된 여성을 대상으로 음향음성학적 스펙트로그램 분석을 이용하여 11개월 동안 모음과 이중모음의 포먼트 변화(vowel formant variation)를 분석하였다. 검사어는 단모음 /a, i, u/와 이중모음 /h + ja + da/, /h + wi + da/, /h +ɰi+ da/를 이용하였다. 발화자료는 'Alvin' 프로그램을 이용하여 모니터에 제시된 단어읽기과제를 통해 수집되었고, 녹음환경은 nyquist frequency는 5,500Hz, sampling rate는 11,000Hz으로 설정하였다. 녹음자료는 스펙트로그램을 이용하여 강도, 음도와 이중모음의 포먼트를 분석하였다. 분석결과, ALS의 진행과정에서 기본주파수와 강도가 저하되었고, 단모음에서의 포먼트 변화보다는 이중모음의 포먼트 기울기의 감소가 특징으로 확인되었다. 이 결과는 병의 진행에 따른 ALS의 모음왜곡이 혀와 턱의 협응력 감소에 기인함을 시사한다.

GCNXSS: An Attack Detection Approach for Cross-Site Scripting Based on Graph Convolutional Networks

  • Pan, Hongyu;Fang, Yong;Huang, Cheng;Guo, Wenbo;Wan, Xuelin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권12호
    • /
    • pp.4008-4023
    • /
    • 2022
  • Since machine learning was introduced into cross-site scripting (XSS) attack detection, many researchers have conducted related studies and achieved significant results, such as saving time and labor costs by not maintaining a rule database, which is required by traditional XSS attack detection methods. However, this topic came across some problems, such as poor generalization ability, significant false negative rate (FNR) and false positive rate (FPR). Moreover, the automatic clustering property of graph convolutional networks (GCN) has attracted the attention of researchers. In the field of natural language process (NLP), the results of graph embedding based on GCN are automatically clustered in space without any training, which means that text data can be classified just by the embedding process based on GCN. Previously, other methods required training with the help of labeled data after embedding to complete data classification. With the help of the GCN auto-clustering feature and labeled data, this research proposes an approach to detect XSS attacks (called GCNXSS) to mine the dependencies between the units that constitute an XSS payload. First, GCNXSS transforms a URL into a word homogeneous graph based on word co-occurrence relationships. Then, GCNXSS inputs the graph into the GCN model for graph embedding and gets the classification results. Experimental results show that GCNXSS achieved successful results with accuracy, precision, recall, F1-score, FNR, FPR, and predicted time scores of 99.97%, 99.75%, 99.97%, 99.86%, 0.03%, 0.03%, and 0.0461ms. Compared with existing methods, GCNXSS has a lower FNR and FPR with stronger generalization ability.

Examining Public Responses to Transgressions of CEOs on YouTube: Social and Semantic Network Analysis

  • Jin-A Choi;Sejung Park
    • Journal of Contemporary Eastern Asia
    • /
    • 제23권1호
    • /
    • pp.18-34
    • /
    • 2024
  • In what was labeled the "nut rage" incident, the vice president of Korean Air, Hyun-Ah Cho (Heather Cho), demonstrated behavior that exemplifies corporate transgression and deviation from societal moral standards toward a flight attendant aboard a flight. Such behavior instigated the public to express negative sentiment on various social media platforms. This study investigates word-of-mouth network on YouTube in response to the crisis, patterns of co-commenting activities across selected YouTube videos, as well as public responses to the incident by employing social and semantic network analysis. A total of 512 YouTube videos featuring the crisis from December 8, 2014 through November 11, 2018, and 52,772 public comments to the videos were collected. The central videos in the network successfully attracted the public's attention and engagements. The results suggest that the video network was decentralized, with multiple videos acting as hubs in the network. The public commented on various videos instead of focusing on a few. The contents of influential videos uploaded by popular news organizations revealed not only Cho's behaviors related to the nut rage crisis but also unrelated illegal behaviors and the moral violations committed by the family members of Korean Air. The public attached derogatory remarks to Cho and her family, and the comments also addressed ethical concerns, management issues of the company, and boycott intentions. The results imply that adverse public reaction was related to the long-standing problem caused by family ownership and governance in large Korean corporations. This Korean Air scandal illustrates backlash toward a leadership breakdown by the family business conglomerate prevalent in the Korean society. This study provides insights for effective handling of similar crises.

민원 분석을 위한 텍스트 마이닝 기법 연구: 계층적 연관성 분석 (A Study on Text Mining Methods to Analyze Civil Complaints: Structured Association Analysis)

  • 김현종;이태헌;유승의;김나랑
    • 한국산업정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.13-24
    • /
    • 2018
  • 정부 및 공공기관에 있어 시민의 직접적인 요구사항이 담겨 있는 민원은 정책 개발을 위한 중요한 데이터로 활용이 가능하다. 그러나 민원 데이터는 비정형 텍스트로 작성되어 있는 특성으로 인해 일반적인 텍스트 마이닝 기법으로는 시민의 요구사항을 정확히 도출하기 어려웠다. 이에 본 연구에서는 민원 데이터 분석을 위한 텍스트 마이닝 기법을 개선하여, 시민의 요구사항을 도출할 수 있는 방법을 제시하고자 하였다. 새로운 텍스트 마이닝 기법은 공기어구조맵의 원리에 착안하여 연관성 분석을 2단계로 실시하여 핵심주제어를 기반으로 1차 연관 단어 와 2차 연관 단어로 구조화하였다. 분석을 위해 2016년 1년간 부산시 민원게시판에 올라온 3004건을 활용하였다. 분석 결과는 빈도수와 핵심주제어를 가지고 연관성 분석만으로는 찾을 수 없었던 민원 상의 문제를 본연구에서 제시한 계층적 연관성 분석을 이용하여 시민의 요구사항을 더욱 정확하게 파악할 수 있었다. 본 연구는 민원 데이터에서 시민의 요구사항을 도출하기 용이한 방법을 제안하였다는 학문적 기여점이 있으며, 행정기관에서 민원 데이터를 통해 정책 개발에 활용할 수 있다는 실무적 기여점이 있다.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

문서 확장을 이용한 표제어 검색시스템 (Headword Finding System Using Document Expansion)

  • 김재훈;김형철
    • 정보관리연구
    • /
    • 제42권4호
    • /
    • pp.137-154
    • /
    • 2011
  • 표제어 검색시스템은 뜻풀이를 질의로 간주하는 정보검색 시스템이다. 이러한 시스템을 구축하기 위한 가장 간단한 방법으로 사전의 표제어 뜻풀이(사전 뜻풀이)를 문서로 간주하는 정보검색 시스템을 구축하는 것이다. 이 문서의 길이가 너무 짧아 사용자 질의(사용자 뜻풀이)에 대한 적절한 표제어를 검색하기 어렵다. 이 문제를 완화하기 위해서 본 논문에서는 정보검색에서 사용되는 질의 확장 개념을 문서 확장에 적용한다. 본 논문에서는 문서 확장 방법으로는 뜻풀이 확장과 유의어 확장을 사용한다. 뜻풀이 확장은 주어진 단어의 사전 뜻풀이에 속하는 단어의 뜻풀이를 문서에 포함시키는 방법이고, 유의어 확장은 무자질 군집화 알고리즘을 통해서 유의어를 찾고, 찾아진 유의어를 문서에 포함시키는 방법이다. 제안된 표제어 검색시스템은 사전 뜻풀이 그 자체를 입력으로 할 때, 16-포함률이 거의 100%에 달하였다. 또한 사용자 뜻풀이를 입력으로 할 때, 20-포함률이 66.9%였다. 사용자 뜻풀이가 단어의 의미를 충분히 전달할 수 없는 것으로 관찰되었으며 앞으로 정확하고 객관적인 평가를 위해서 평가 집합에 대한 연구가 추가적으로 필요한 실정이다.