• 제목/요약/키워드: word extraction

검색결과 231건 처리시간 0.032초

Improving methods for normalizing biomedical text entities with concepts from an ontology with (almost) no training data at BLAH5 the CONTES

  • Ferre, Arnaud;Ba, Mouhamadou;Bossy, Robert
    • Genomics & Informatics
    • /
    • 제17권2호
    • /
    • pp.20.1-20.5
    • /
    • 2019
  • Entity normalization, or entity linking in the general domain, is an information extraction task that aims to annotate/bind multiple words/expressions in raw text with semantic references, such as concepts of an ontology. An ontology consists minimally of a formally organized vocabulary or hierarchy of terms, which captures knowledge of a domain. Presently, machine-learning methods, often coupled with distributional representations, achieve good performance. However, these require large training datasets, which are not always available, especially for tasks in specialized domains. CONTES (CONcept-TErm System) is a supervised method that addresses entity normalization with ontology concepts using small training datasets. CONTES has some limitations, such as it does not scale well with very large ontologies, it tends to overgeneralize predictions, and it lacks valid representations for the out-of-vocabulary words. Here, we propose to assess different methods to reduce the dimensionality in the representation of the ontology. We also propose to calibrate parameters in order to make the predictions more accurate, and to address the problem of out-of-vocabulary words, with a specific method.

키워드 네트워크 분석을 통한 「패션비즈니스」 연구 동향 -패션마케팅 및 디자인 분야를 중심으로- (Research Trends in Journal of Fashion Business -A Social Network Analysis of Keywords in Fashion Marketing and Design Area-)

  • 이미영;이정민
    • 패션비즈니스
    • /
    • 제23권3호
    • /
    • pp.51-66
    • /
    • 2019
  • The aim of this study is to identify research trends of "Journal of Fashion Business" by analyzing the keyword network of the paper published between 2006 and 2017. The papers selected for analysis in the study were 287 fashion design articles and 281 fashion marketing articles published between February 2006 and December 2017 and titles, volumes, publishing years, authors, keywords, and abstracts of each paper were collected for data analysis. The research was carried out through selection, collection of article data, keyword extraction and coding, keywords refinement, formation of network matrix, and analysis and visualization process. First, based on the title of the paper used in the analysis, the fashion design/aesthetics, marketing/social psychology, clothing materials, clothing composition, and other fields were classified. Research analysis used the Netminer 4 (Ver.4.3.2) program. Results indicated showed that the intellectual structure of the "Fashion Business" research paper showed key word changes over time, and the degree centrality and between centrality of the keywords.

현대회화에서의 형태와 물질 -Digital Transfiguration에 관한 연구- (Digital painting: Image transfonnation, simulation, heterologie and transfonnation)

  • 정숙영
    • 조형예술학연구
    • /
    • 제10권
    • /
    • pp.161-181
    • /
    • 2006
  • The words which appeared in my theoretical study and work are image transformation to digital painting, simulation, heterologie and transfiguration, etc. Firstly, let's look into 'digital era' or 'new media era'. Nowadays, the image world including painting within the rapid social and cultural change, which is called as digital era, is having the dramatic change. Together with the development of scientific technology, large number of events which was deemed to be impossible is happening as real in image world Moreover, these changes in image world is greatly influencing to our life. The word which compresses this change of image world and shows is 'digital'. Digit, which means fingers in Latin, indicates separately changing signal, and to be more narrow, it indicates the continual signal of '0' and ' 1' in computer. The opposite word is 'analogue'. As analogue is the word meaning 'infer' or 'similarity', it indicates the signal or form which continuously changes along the series of time when it is compared to digital. Instead of analogue, digital is embossed as a major ruler along the whole area of our current culture. In whole culture and art area, and in whole generalscience, digital is appearing as it has the modernism and importance. The prefix, 'digital', e.g. digital media, digital culture, digital design, digital philosophy, etc, is treated as the synonym of modernism and something new. This advent of digital results the innovative change to the image world, creates the new beauty experience which we could not experience before, and forecasts the formation of advanced art and expansion of creative area. Various intellectual activities using computer is developing the whole world with making the infrastructure. Computer in painting work immediately accomplishes the idea of painters, takes part in simulation work, contingency such as abrupt reversal, extraction, twisting, shaking, obscureness, overlapping, etc, and timing to stimulate the creativity of painters, and provides digital formative language which enables new visual experience to the audience. When the change of digital era, the image appeared in my work is shown in 'transfiguration' like drawing. The word, 'transfiguration' does not indicate the completed and fixed real substance but indicate endlessly moving and floating shape. Thus, this concept is opposite to the substantial consideration, so that various concepts which is able to replace this in accordance with the similar cases are also exist such as change, deterioration, mutation, deformity of appearance and morphing which is frequently used in computer as a technical word. These concepts are not clearly classified, and variably and complicatedly related. Transfiguration basically means the denial of "objectivity' and '(continual) stagnation' or deviation from those. This phenomenon is appeared through the all art schools of art ever since the realism is denied in the 19th century. It is called as 'deformation' in case of expressionism, futurism, cubism, etc, in the beginning of the century, which its former indication is mostly preserved within the process of structural deviation and which has the realistic limit which should be preserved. On the contrary, dramatic transfiguration which has been showing in the modern era through surrealism is different in the point that dramatic transfiguration tends to show the deterioration and deviation rather than the preservation of indicated object. From this point, transfiguration coming out from morphing using computer deteriorates and hides the reality and furthermore, it replaces the 'reality'. Moreover, transfiguration is closely approached to the world of fake or 'imaginary' simulation world of Baudrillard. According to Baudrillard, the image hides and deteriorates the reality, and furthermore, expresses 'not existing' to 'imaginary' under the name of transfiguration. Certain reality, that is, image which is absent from the reality is created and overflowed, so that it finally replaces the reality. This is simulation as it is said by Baudrillard. In turn, Georges Bataille discusses about the image which is produced by digital technology in terms of heterologie. Image of heterologie is the visual signal which is established with the media. Image of media is to have the continuous characteristics of produce, extinction, and transformation, and its clear boundary between images becomes meaningless. The meaning of composition, excess, violation, etc of digital image is explained to heterological study or heteologie suggested as important meaning of Georges Bataille who is a heretic philosopher. As the form and image of mutation shows the shape in accordance with mechanical production, heterologie is introduced as very low materialism (or bas materialisme), in this theory. Heterologie as low materialism which is gradually changing is developing as a different concept and analysis because of the change of time in the late 20s century beside high or low meaning. Including my image, all images non-standardizes and transforms the code. However, reappearance and non-standardization of this code does not seem to be simple. The problem of transformation caused by transfiguration which appears in my digital drawing painting, simulation, heterologie, etc, are the continual problems. Moreover, the subject such as existence of human being, distance from the real life, politics and social problems are being extended to actual research and various expressing work. Especially, individual image world is established by digital painting transfiguration technique, and its change and review start to have the durability. The consciousness of observers who look at the image is changing the subject. Together with theoretical research, researchers are to establish the first step to approach to various image change of digital era painting through transfiguration technique using our realistic and historical image.

  • PDF

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

Topic Modeling을 이용한 Twitter상에서 스모그 리스크에 관한 대중 인식 분류 연구 (Classification of Public Perceptions toward Smog Risks on Twitter Using Topic Modeling)

  • 김윤기
    • 지적과 국토정보
    • /
    • 제47권1호
    • /
    • pp.53-79
    • /
    • 2017
  • 본 연구의 주된 목적은 토픽 모델링(topic modeling)을 이용하여 트위터 상에서 스모그 리스크(smog risks)에 관한 대중 인식(public perceptions)을 측정하고 분류하는 것이다. 선행연구에 있어서 연구 갭(research gap)을 확인하기 위하여 본 연구는 스모그 리스크와 토픽 모델링에 대한 선행연구를 검토하였다. 그 결과 본 저자는 기존의 연구에서 상당한 연구 갭이 존재하고 있음을 확인하였으며, 이러한 연구 갭을 메우기 위해 다섯 개의 연구 질문을 설정하였다. 연구 질문들에 답을 구하기 위하여 본 연구는 10,000개의 트위터 자료를 추출하였고, 이에 대하여 워드 클라우드 분석(word cloud analysis), 상관분석, LDA를 이용한 토픽 모델링, 스트림그래프(stream graph), 위계적 집락분석(hierarchical cluster analysis)을 실시하였다. 분석 결과 자주 언급되는 단어들(the most frequent terms), 단어네트워크(terms network)의 형태, 상관관계의 유형, 스모그 관련 주제의 변동패턴에 있어서 뉴욕과 런던 사이에 큰 차이가 있음을 확인하였다. 그리하여 본 저자는 다섯 개의 연구 질문 중 네 개에 대하여 긍정적인 답을 구할 수 있었고, 이를 토대로 몇 가지 정책적 시사점을 제시하고, 향후 연구를 위한 제안들을 하였다.

성대신호 기반의 명령어인식기를 위한 특징벡터 연구 (Effective Feature Vector for Isolated-Word Recognizer using Vocal Cord Signal)

  • 정영규;한문성;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권3호
    • /
    • pp.226-234
    • /
    • 2007
  • 본 논문은 환경 노이즈를 원천적으로 차단하는 성대 마이크를 이용한 명령어 인식기를 개발한다. 성대마이크는 환경 노이즈의 효과를 최소화하는 장점이 있다. 그러나 고주파의 부재와 부분적인 포먼트 정보 손실 때문에, 성대마이크를 이용해서 개발된 ASR시스템은 표준마이크를 이용한 시스템에 비해 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로부터 입력되는 정보 보안하는데 주로 사용된다. 본 논문은 한국어의 음운적 특정과 신호 분석을 통해 성대마이크만을 사용한 높은 성능의 ASR 시스템을 개발 할 수 있음을 보인다. 주파수 대역내 에너지 합을 이용하는 MFCC 알고리즘이 갖는 성대신호 분석의 문제점을 제시하고, 성대신호를 대상으로 보다 높은 성능을 갖는 특정추출 알고리즘의 조건을 제시한다. 이러한 조건은 (1) 민감한 band-pass filter와 (2) 유/무성음 분리를 위해 사용하는 특정벡터의 사용이다 실험 결과 제안된 조건을 만족하는 ZCPA 알고리즘을 적용한 경우가 MFCC를 적용한 경우보다 약 16%정도의 높은 성능을 보인다. 그러고 CMS와 RASTA와 같은 channel normalization 알고리즘을 적용한 경우 약 2%의 성능 향상이 있다.

미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약 (Automatic Text Summarization based on Selective Copy mechanism against for Addressing OOV)

  • 이태석;선충녕;정영임;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.58-65
    • /
    • 2019
  • 문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 축약하는 작업을 말한다. 최근 연구에서는 대량의 문서를 딥러닝 기법을 적용하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 생성 요약은 미리 생성된 위드 임베딩 정보를 사용하는데, 전문 용어와 같이 저빈도 핵심 어휘는 입베딩 된 사전에 없는 문제가 발생한다. 인코딩-디코딩 신경망 모델의 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능 저하의 요인이다. 이를 해결하기 위해 본 논문에서는 요약 대상 문서에서 새로 출현한 단어를 복사하여 요약문을 생성하는 방법을 사용한다. 기존의 연구와는 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 방법으로 제안하였다. 학습 데이터는 논문의 초록과 제목을 대상 문서와 정답 요약으로 사용하였다. 제안한 인코딩-디코딩 기반 모델을 통해서 자동 생성 요약을 수행한 결과 단어 제현 기반의 ROUGE-1이 47.01로 나타났으며, 또한 어순 기반의 ROUGE-L이 29.55로 향상되었다.

Strategies for the Development of Watermelon Industry Using Unstructured Big Data Analysis

  • LEE, Seung-In;SON, Chansoo;SHIM, Joonyong;LEE, Hyerim;LEE, Hye-Jin;CHO, Yongbeen
    • 산경연구논집
    • /
    • 제12권1호
    • /
    • pp.47-62
    • /
    • 2021
  • Purpose: Our purpose in this study was to examine the strategies for the development of watermelon industry using unstructured big data analysis. That is, this study was to look the change of issues and consumer's perception about watermelon using big data and social network analysis and to investigate ways to strengthen the competitiveness of watermelon industry based on that. Methodology: For this purpose, the data was collected from Naver (blog, news) and Daum (blog, news) by TEXTOM 4.5 and the analysis period was set from 2015 to 2016 and from 2017-2018 and from 2019-2020 in order to understand change of issues and consumer's perception about watermelon or watermelon industry. For the data analysis, TEXTOM 4.5 was used to conduct key word frequency analysis, word cloud analysis and extraction of metrics data. UCINET 6.0 and NetDraw function of UCINET 6.0 were utilized to find the connection structure of words and to visualize the network relations, and to make a cluster of words. Results: The keywords related to the watermelon extracted such as 'the stalk end of a watermelon', 'E-mart', 'Haman', 'Gochang', and 'Lotte Mart' (news: 015-2016), 'apple watermelon', 'Haman', 'E-mart', 'Gochang', and' Mudeungsan watermelon' (news: 2017-2018), 'E-mart', 'apple watermelon', 'household', 'chobok', and 'donation' (news: 2019-2020), 'watermelon salad', 'taste', 'the heat', 'baby', and 'effect' (blog: 2015-2016), 'taste', 'watermelon juice', 'method', 'watermelon salad', and 'baby' (blog: 2017-2018), 'taste', 'effect', 'watermelon juice', 'method', and 'apple watermelon' (blog: 2019-2020) and the results from frequency and TF-IDF analysis presented. And in CONCOR analysis, appeared as four types, respectively. Conclusions: Based on the results, the authors discussed the strategies and policies for boosting the watermelon industry and limitations of this study and future research directions. The results of this study will help prioritize strategies and policies for boosting the consumption of the watermelon and contribute to improving the competitiveness of watermelon industry in Korea. Also, it is expected that this study will be used as a very important basis for agricultural big data studies to be conducted in the future and this study will offer watermelon producers and policy-makers practical points helpful in crafting tailor-made marketing strategies.

머신 러닝을 활용한 회사 SNS 메시지에 내포된 심리적 거리 추출 연구 (A Study on the Extraction of Psychological Distance Embedded in Company's SNS Messages Using Machine Learning)

  • 이성원;김진혁
    • 경영정보학연구
    • /
    • 제21권1호
    • /
    • pp.23-38
    • /
    • 2019
  • 소셜 네트워크 서비스(이하 SNS)는 회사의 마케팅 채널로 적극 활용되고 있으며, 회사들의 고객층에 적합한 내용과 어조를 활용하여 주기적으로 SNS 메시지를 작성하는 등 활발한 마케팅을 펼치고 있다. 본 논문에서는 이제까지 간과되었던 SNS 메시지에 내포된 심리적 거리에 초점을 맞춰 전통적인 코더를 활용한 내용 분석(content analysis)과 자연어 처리 기법 및 머신 러닝 방법을 혼합하여 심리적 거리를 측정하는 분석 방법을 연구하였다. SNS 메시지의 심리적 거리 분석을 위해 코더들을 활용하여 내용분석을 수행하였으며, 이와 같은 방법으로 레이블링된 데이터를 자연어 처리 방법을 이용하여 워드 임베딩을 수행함으로써 머신 러닝 수행을 위한 입력 데이터를 마련하였다. 머신 러닝 분석법 중 Support Vector Machine(SVM)을 이용하여 SNS 메시지와 심리적 거리 간의 관계를 학습시켰으며, 마지막으로 테스트 데이터를 이용하여 심리적 거리를 예측함으로써 머신 러닝 분석의 성과를 검증하였다. 심리적 거리측정 방법론 수행 결과, 코더들의 내용분석 결과가 특정 값으로 편향되어 SVM 예측의 민감도와 정밀도가 낮은 결과가 도출되었다. 심리적 거리 응답 비율을 보정하고 코더들의 1차 내용분석 결과 중 답변이 일치한 데이터로 한정지어 머신 러닝을 실행한 결과 심리적 거리 예측의 정확도, 민감도, 특이도, 정밀도 모두 향상되어 심리적 거리가 70% 이상 예측되는 성과를 보였다. 본 연구는 SNS 메시지의 심리적 거리를 측정하는 방법을 제시함으로써 독자와의 심리적 거리를 제어 가능한 전략 요소로 활용 가능하게 할 것이라 기대된다.

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.