• 제목/요약/키워드: t-distributed stochastic neighbor embedding

검색결과 8건 처리시간 0.022초

우수 의약품 제조 기준 위반 패턴 인식을 위한 연관규칙과 텍스트 마이닝 기반 t-SNE분석 (Violation Pattern Analysis for Good Manufacturing Practice for Medicine using t-SNE Based on Association Rule and Text Mining)

  • 이준오;손소영
    • 품질경영학회지
    • /
    • 제50권4호
    • /
    • pp.717-734
    • /
    • 2022
  • Purpose: The purpose of this study is to effectively detect violations that occur simultaneously against Good Manufacturing Practice, which were concealed by drug manufacturers. Methods: In this study, we present an analysis framework for analyzing regulatory violation patterns using Association Rule Mining (ARM), Text Mining, and t-distributed Stochastic Neighbor Embedding (t-SNE) to increase the effectiveness of on-site inspection. Results: A number of simultaneous violation patterns was discovered by applying Association Rule Mining to FDA's inspection data collected from October 2008 to February 2022. Among them there were 'concurrent violation patterns' derived from similar regulatory ranges of two or more regulations. These patterns do not help to predict violations that simultaneously appear but belong to different regulations. Those unnecessary patterns were excluded by applying t-SNE based on text-mining. Conclusion: Our proposed approach enables the recognition of simultaneous violation patterns during the on-site inspection. It is expected to decrease the detection time by increasing the likelihood of finding intentionally concealed violations.

MEDLINE 검색을 통한 산업안전보건 분야에서의 인간공학 연구동향 : 워드임베딩을 활용한 초록 단어 모델링을 중심으로 (Research Trends of Ergonomics in Occupational Safety and Health through MEDLINE Search: Focus on Abstract Word Modeling using Word Embedding)

  • 김준희;황의재;안선희;곽경태;정성훈
    • 한국안전학회지
    • /
    • 제36권5호
    • /
    • pp.61-70
    • /
    • 2021
  • This study aimed to analyze the research trends of the abstract data of ergonomic studies registered in MEDLINE, a medical bibliographic database, using word embedding. Medical-related ergonomic studies mainly focus on work-related musculoskeletal disorders, and there are no studies on the analysis of words as data using natural language processing techniques, such as word embedding. In this study, the abstract data of ergonomic studies were extracted with a program written with selenium and BeutifulSoup modules using python. The word embedding of the abstract data was performed using the word2vec model, after which the data found in the abstract were vectorized. The vectorized data were visualized in two dimensions using t-Distributed Stochastic Neighbor Embedding (t-SNE). The word "ergonomics" and ten of the most frequently used words in the abstract were selected as keywords. The results revealed that the most frequently used words in the abstract of ergonomics studies include "use", "work", and "task". In addition, the t-SNE technique revealed that words, such as "workplace", "design", and "engineering," exhibited the highest relevance to ergonomics. The keywords observed in the abstract of ergonomic studies using t-SNE were classified into four groups. Ergonomics studies registered with MEDLINE have investigated the risk factors associated with workers performing an operation or task using tools, and in this study, ergonomics studies were identified by the relationship between keywords using word embedding. The results of this study will provide useful and diverse insights on future research direction on ergonomic studies.

생체신호 기반의 T-SNE 를 활용한 대화 내 감정 인식 (Physiological Signal-Based Emotion Recognition in Conversations Using T-SNE)

  • 임수빈;이병천 ;문지훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.703-705
    • /
    • 2023
  • 본 연구는 대화 중 생체신호 데이터를 활용하여 감정 인식 분야에서 더욱 정확하고 범용성이 높은 인식 기술을 제안한다. 이를 위해, 먼저 대화별 길이에 따른 측정값의 개수를 동일하게 조정하고 효과적인 생체신호 데이터의 조합을 비교 및 분석하기 위해 차원 축소 기법인 T-SNE (T-distributed Stochastic Neighbor Embedding)을 활용하여 감정 라벨의 분포를 확인한다. 또한, AutoML (Automated Machine Learning)을 이용하여 축소된 데이터로 감정을 분류 및 각성도와 긍정도를 예측하여 감정을 가장 잘 인식하는 생체신호 데이터의 조합을 발견한다.

Manifold Learning을 통한 표정과 Action Unit 간의 상관성에 관한 연구 (A Study in Relationship between Facial Expression and Action Unit)

  • 김선빈;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.763-766
    • /
    • 2018
  • 표정은 사람들 사이에서 감정을 표현하는 강력한 비언어적 수단이다. 표정 인식은 기계학습에서 아주 중요한 분야 중에 하나이다. 표정 인식에 사용되는 기계학습 모델들은 사람 수준의 성능을 보여준다. 하지만 좋은 성능에도 불구하고, 기계학습 모델들은 표정 인식 결과에 대한 근거나 설명을 제공해주지 못한다. 이 연구는 표정 인식의 근거로서 Facial Action Coding Unit(AUs)을 사용하기 위해서 CK+ Dataset을 사용하여 표정 인식을 학습한 Convolutional Neural Network(CNN) 모델이 추출한 특징들을 t-distributed stochastic neighbor embedding(t-SNE)을 사용하여 시각화한 뒤, 인식된 표정과 AUs 사이의 분포의 연관성을 확인하는 연구이다.

복합재 초기 공극 결함에 따른 횡하중 강도 확률론적 분석 (Stochastic Strength Analysis according to Initial Void Defects in Composite Materials)

  • 지승민;조성욱;전성식
    • Composites Research
    • /
    • 제37권3호
    • /
    • pp.179-185
    • /
    • 2024
  • 본 연구는 Representative Volume Element(RVE) 모델을 사용하여 초기 공극 결함이 있는 단방향 섬유강화 복합재의 횡방향 인장 강도 변화에 대해 정량적 평가 및 조사되었다. 초기 공극 결함을 표본오차와 신뢰 수준을 기준으로 적정 표본의 수가 계산된 후, 총 5000개의 초기 공극 결함이 있는 RVE 모델이 표본 집단으로 생성되었다. 표본 집단은 차원 축소법과 밀도 기반 군집 분석을 통해 유사도 분석이 진행되었으며 편향되지 않은 표본 집단임이 확인 및 검증되었다. 검증된 표본 분석 결과는 복합재 구조의 신뢰성 해석에 적용될 수 있게 Weibull 분포로 표현되었다.

Odorant receptors in cancer

  • Chung, Chan;Cho, Hee Jin;Lee, ChaeEun;Koo, JaeHyung
    • BMB Reports
    • /
    • 제55권2호
    • /
    • pp.72-80
    • /
    • 2022
  • Odorant receptors (ORs), the largest subfamily of G protein-coupled receptors, detect odorants in the nose. In addition, ORs were recently shown to be expressed in many nonolfactory tissues and cells, indicating that these receptors have physiological and pathophysiological roles beyond olfaction. Many ORs are expressed by tumor cells and tissues, suggesting that they may be associated with cancer progression or may be cancer biomarkers. This review describes OR expression in various types of cancer and the association of these receptors with various types of signaling mechanisms. In addition, the clinical relevance and significance of the levels of OR expression were evaluated. Namely, levels of OR expression in cancer were analyzed based on RNA-sequencing data reported in the Cancer Genome Atlas; OR expression patterns were visualized using t-distributed stochastic neighbor embedding (t-SNE); and the associations between patient survival and levels of OR expression were analyzed. These analyses of the relationships between patient survival and expression patterns obtained from an open mRNA database in cancer patients indicate that ORs may be cancer biomarkers and therapeutic targets.

Detection and Classification of Demagnetization and Short-Circuited Turns in Permanent Magnet Synchronous Motors

  • Youn, Young-Woo;Hwang, Don-Ha;Song, Sung-ju;Kim, Yong-Hwa
    • Journal of Electrical Engineering and Technology
    • /
    • 제13권4호
    • /
    • pp.1614-1622
    • /
    • 2018
  • The research related to fault diagnosis in permanent magnet synchronous motors (PMSMs) has attracted considerable attention in recent years because various faults such as permanent magnet demagnetization and short-circuited turns can occur and result in unexpected failure of motor related system. Several conventional current and back electromotive force (BEMF) analysis techniques were proposed to detect certain faults in PMSMs; however, they generally deal with a single fault only. On the contrary, cases of multiple faults are common in PMSMs. We propose a fault diagnosis method for PMSMs with single and multiple combined faults. Our method uses three phase BEMF voltages based on the fast Fourier transform (FFT), support vector machine(SVM), and visualization tools for identifying fault types and severities in PMSMs. Principal component analysis (PCA) and t-distributed stochastic neighbor embedding (t-SNE) are used to visualize the high-dimensional data into two-dimensional space. Experimental results show good visualization performance and high classification accuracy to identify fault types and severities for single and multiple faults in PMSMs.

비정형 텍스트 데이터 분석을 활용한 기록관리 분야 연구동향 (Research Trends in Record Management Using Unstructured Text Data Analysis)

  • 홍덕용;허준석
    • 한국기록관리학회지
    • /
    • 제23권4호
    • /
    • pp.73-89
    • /
    • 2023
  • 본 연구에서는 텍스트 마이닝 기법을 활용하여 국내 기록관리 연구 분야의 비정형 텍스트 데이터인 국문 초록에서 사용된 키워드 빈도를 분석하여 키워드 간 거리 분석을 통해 국내기록관리 연구 동향을 파악하는 것이 목적이다. 이를 위해 한국학술지인용색인(Korea Citation Index, KCI)의 학술지 기관통계(등재지, 등재후보지)에서 대분류(복합학), 중분류 (문헌정보학)으로 검색된 학술지(28종) 중 등재지 7종 1,157편을 추출하여 77,578개의 키워드를 시각화하였다. Word2vec를 활용한 t-SNE, Scattertext 등의 분석을 수행하였다. 분석 결과, 첫째로 1,157편의 논문에서 얻은 77,578개의 키워드를 빈도 분석한 결과, "기록관리" (889회), "분석"(888회), "아카이브"(742회), "기록물"(562회), "활용"(449회) 등의 키워드가 연구자들에 의해 주요 주제로 다뤄지고 있음을 확인하였다. 둘째로, Word2vec 분석을 통해 키워드 간의 벡터 표현을 생성하고 유사도 거리를 조사한 뒤, t-SNE와 Scattertext를 활용하여 시각화하였다. 시각화 결과에서 기록관리 연구 분야는 두 그룹으로 나누어졌는데 첫 번째 그룹(과거)에는 "아카이빙", "국가기록관리", "표준화", "공문서", "기록관리제도" 등의 키워드가 빈도가 높게 나타났으며, 두 번째 그룹(현재)에는 "공동체", "데이터", "기록정보서비스", "온라인", "디지털 아카이브" 등의 키워드가 주요한 관심을 받고 있는 것으로 나타났다.