• 제목/요약/키워드: Dataset for AI

검색결과 206건 처리시간 0.028초

Identification of Specific Gene Modules in Mouse Lung Tissue Exposed to Cigarette Smoke

  • Xing, Yong-Hua;Zhang, Jun-Ling;Lu, Lu;Li, De-Guan;Wang, Yue-Ying;Huang, Song;Li, Cheng-Cheng;Zhang, Zhu-Bo;Li, Jian-Guo;Xu, Guo-Shun;Meng, Ai-Min
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제16권10호
    • /
    • pp.4251-4256
    • /
    • 2015
  • Background: Exposure to cigarette may affect human health and increase risk of a wide range of diseases including pulmonary diseases, such as chronic obstructive pulmonary disease (COPD), asthma, lung fibrosis and lung cancer. However, the molecular mechanisms of pathogenesis induced by cigarettes still remain obscure even with extensive studies. With systemic view, we attempted to identify the specific gene modules that might relate to injury caused by cigarette smoke and identify hub genes for potential therapeutic targets or biomarkers from specific gene modules. Materials and Methods: The dataset GSE18344 was downloaded from the Gene Expression Omnibus (GEO) and divided into mouse cigarette smoke exposure and control groups. Subsequently, weighted gene co-expression network analysis (WGCNA) was used to construct a gene co-expression network for each group and detected specific gene modules of cigarette smoke exposure by comparison. Results: A total of ten specific gene modules were identified only in the cigarette smoke exposure group but not in the control group. Seven hub genes were identified as well, including Fip1l1, Anp32a, Acsl4, Evl, Sdc1, Arap3 and Cd52. Conclusions: Specific gene modules may provide better understanding of molecular mechanisms, and hub genes are potential candidates of therapeutic targets that may possible improve development of novel treatment approaches.

Cross-Lingual Post-Training (XPT)을 위한 한국어 및 다국어 언어모델 연구 (Korean and Multilingual Language Models Study for Cross-Lingual Post-Training (XPT))

  • 손수현;박찬준;이정섭;심미단;이찬희;박기남;임희석
    • 한국융합학회논문지
    • /
    • 제13권3호
    • /
    • pp.77-89
    • /
    • 2022
  • 대용량의 코퍼스로 학습한 사전학습 언어모델이 다양한 자연어처리 태스크에서 성능 향상에 도움을 주는 것은 많은 연구를 통해 증명되었다. 하지만 자원이 부족한 언어 환경에서 사전학습 언어모델 학습을 위한 대용량의 코퍼스를 구축하는데는 한계가 있다. 이러한 한계를 극복할 수 있는 Cross-lingual Post-Training (XPT) 방법론을 사용하여 비교적 자원이 부족한 한국어에서 해당 방법론의 효율성을 분석한다. XPT 방법론은 자원이 풍부한 영어의 사전학습 언어모델의 파라미터를 필요에 따라 선택적으로 재활용하여 사용하며 두 언어 사이의 관계를 학습하기 위해 적응계층을 사용한다. 이를 통해 관계추출 태스크에서 적은 양의 목표 언어 데이터셋만으로도 원시언어의 사전학습 모델보다 우수한 성능을 보이는 것을 확인한다. 더불어, 국내외 학계와 기업에서 공개한 한국어 사전학습 언어모델 및 한국어 multilingual 사전학습 모델에 대한 조사를 통해 각 모델의 특징을 분석한다

CNN 딥러닝을 활용한 경관 이미지 분석 방법 평가 - 힐링장소를 대상으로 - (Assessment of Visual Landscape Image Analysis Method Using CNN Deep Learning - Focused on Healing Place -)

  • 성정한;이경진
    • 한국조경학회지
    • /
    • 제51권3호
    • /
    • pp.166-178
    • /
    • 2023
  • 본 연구는 이용자들의 인식과 경험이 내재된 소셜미디어 사진에서 경관 이미지를 분석하기 위한 방법으로 CNN 딥러닝 방법을 소개하고 평가하는 데 그 목적이 있다. 본 연구에서는 힐링장소를 연구의 대상으로 설정하여 경관 이미지를 분석하였다. 연구를 위해 텍스트마이닝과 선행연구 고찰을 통해 힐링과 관련되는 7가지의 경관 형용사를 선정하였다. 이후 CNN 딥러닝 학습 사진 구축을 위해 50명의 평가자를 모집하였으며, 평가자들에게 포털사이트에서 '힐링', '힐링풍경', '힐링장소'로 검색되는 사진 중 7가지 형용사마다 가장 적합한 사진을 3장씩 수집하도록 하였다. 수집된 사진을 정제 및 데이터 증강 과정을 거쳐 CNN 모델을 제작하였다. 이후 힐링장소 경관 분석을 위해 포털사이트에서 '힐링'과 '힐링풍경'으로 검색되는 15,097장의 사진을 수집하여 이를 분류하였다. 연구결과 '기타'와 '실내'를 제외한 범주에서 '조용한'이 2,093장(22%)으로 가장 높게 나타났으며, '개방적인', '즐거운', '안락한', '깨끗한', '자연적인', '아름다운' 순으로 나타났다. CNN 딥러닝은 경관 이미지 분석에서도 결과를 도출 가능한 분석 방법임을 연구를 통해 알 수 있었다. 또한, 기존 경관 분석 방법을 보완할 수 있는 하나의 방법임을 시사하였고, 경관 이미지 학습 데이터 셋 구축을 통한 향후 심층적이고 다양한 경관 분석을 제안한다.

자동-레이블링 기반 영상 학습데이터 제작 시스템 (An Auto-Labeling based Smart Image Annotation System)

  • 이용;장래영;박민우;이건우;최명석
    • 한국콘텐츠학회논문지
    • /
    • 제21권6호
    • /
    • pp.701-715
    • /
    • 2021
  • 최근 딥러닝 기술의 급속한 발전과 함께 학습데이터가 크게 주목을 받고 있다. 일반적으로 딥러닝 방식에서는 모델을 훈련시키기 위해 충분한 학습데이터가 준비되어 있어야 한다. 하지만, 딥러닝 모델 설계 작업과 달리 데이터셋을 제작하는 데 상당한 시간과 노력이 필요하다. 영상 데이터를 주로 다루는 시각지능 분야에서도 학습데이터 제작자들은 전문적인 학습데이터 제작 도구를 사용해 이미지 단위로 레이블링을 수작업으로 하고 있어 여전히 많은 시간과 노력이 필요한 상황이다. 따라서, 다양한 분야에서 필요한 충분한 영상 학습데이터셋을 확보하기 위해 기존의 수작업 방식을 대체할 수 있는 레이블링 기술이 필요하다. 본 논문에서는, 영상 학습데이터셋 동향을 소개하고, 학습데이터 제작 환경에 대해 분석한다 특히, 수작업으로 이루어지는 반복적이고 수고스러운 레이블링 과정을 자동화하여, '확인과 수정'의 단계를 비약적으로 단축시킬 수 있는 '스마트 영상학습데이터 제작 시스템'을 제안한다. 그리고, 실험을 통해 영상 학습데이터 제작 과정에서 이미지에 박스형 및 폴리곤형 객체영역을 지정하여 레이블링하는 데 소요되는 시간을 크게 줄이기 위한 자동레이블링 방식의 효과를 검증한다. 마지막으로, 제안하는 시스템의 실험에서 추가적으로 검증되어야 하는 부분과 함께 이를 개선하기 위한 향후 연구 계획에 대해 논의한다.

BERT를 활용한 속성기반 감성분석: 속성카테고리 감성분류 모델 개발 (Aspect-Based Sentiment Analysis Using BERT: Developing Aspect Category Sentiment Classification Models)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.1-25
    • /
    • 2020
  • 대규모 텍스트에서 관심 대상이 가지고 있는 속성들에 대한 감성을 세부적으로 분석하는 속성기반 감성분석(Aspect-Based Sentiment Analysis)은 상당한 비즈니스 가치를 제공한다. 특히, 텍스트에 속성어가 존재하는 명시적 속성뿐만 아니라 속성어가 없는 암시적 속성까지 분석 대상으로 하는 속성카테고리 감성분류(ACSC, Aspect Category Sentiment Classification)는 속성기반 감성분석에서 중요한 의미를 지니고 있다. 본 연구는 속성카테고리 감성분류에 BERT 사전훈련 언어 모델을 적용할 때 기존 연구에서 다루지 않은 다음과 같은 주요 이슈들에 대한 답을 찾고, 이를 통해 우수한 ACSC 모델 구조를 도출하고자 한다. 첫째, [CLS] 토큰의 출력 벡터만 분류벡터로 사용하기보다는 속성카테고리에 대한 토큰들의 출력 벡터를 분류벡터에 반영하면 더 나은 성능을 달성할 수 있지 않을까? 둘째, 입력 데이터의 문장-쌍(sentence-pair) 구성에서 QA(Question Answering)와 NLI(Natural Language Inference) 타입 간 성능 차이가 존재할까? 셋째, 입력 데이터의 QA 또는 NLI 타입 문장-쌍 구성에서 속성카테고리를 포함한 문장의 순서에 따른 성능 차이가 존재할까? 이러한 연구 목적을 달성하기 위해 입력 및 출력 옵션들의 조합에 따라 12가지 ACSC 모델들을 구현하고 4종 영어 벤치마크 데이터셋에 대한 실험을 통해 기존 모델 이상의 성능을 제공하는 ACSC 모델들을 도출하였다. 그리고 [CLS] 토큰에 대한 출력 벡터를 분류벡터로 사용하기 보다는 속성카테고리 토큰의 출력 벡터를 사용하거나 두 가지를 함께 사용하는 것이 더욱 효과적이고, NLI 보다는 QA 타입의 입력이 대체적으로 더 나은 성능을 제공하며, QA 타입 안에서 속성이 포함된 문장의 순서는 성능과 무관한 점 등의 유용한 시사점들을 발견하였다. 본 연구에서 사용한 ACSC 모델 디자인을 위한 방법론은 다른 연구에도 비슷하게 응용될 수 있을 것으로 기대된다.

태아수종의 특성 및 사망률과 연관된 위험인자 (Identification of Characteristics and Risk Factors Associated with Mortality in Hydrops Fetalis)

  • 고훈;이병섭;김기수;원혜성;이필량;심재윤;김암;김애란
    • Neonatal Medicine
    • /
    • 제18권2호
    • /
    • pp.221-227
    • /
    • 2011
  • 목적: 태아수종으로 진단된 환아를 대상으로 태아수종의 특성과, 사망률과 연관된 위험 인자를 분석하고자 한다. 방법: 1990년 1월부터 2009년 6월까지 서울아산병원 신생아 중환자실에 입원하여 태아수종을 진단받고 치료한 환아 71명을 대상으로 후향적 의무기록 분석을 시행하여 태아수종아의 특성, 산모의 특성, 태아수종의 원인 등을 조사하였다. 또한 이들 생존군과 사망군의 2군으로 나누어 사망률과 연관된 위험 인자에 대한 분석을 시행하였다. 결과: 전체 71명의 환아(평균 재태연령: 33주, 출생체중: 2.6 kg) 중 생존한 환아의 수는 38명(53.5%), 사망한 환아의 수는 33명(46.5%)으로 나타났다. 태아수종의 원인 중, 비면역성 원인은 총 71례 중 68례(95.8%)로 나타났고, 이 중 특발성이 가장 많았고, 유미흉, 심기형, 쌍생아간 수혈, 태변복막염, 심부정맥, 선천성 감염 순으로 나타났다. 면역성 원인은 총 71례 중 3례(4.2%)로 Rh 부적합증이 2례, ABO 부적합증이 1례로 나타났다. 위험인자의 다변량 분석에서, 낮은 5분 아프가 점수(P=0.001), 유리질막병을 동반한 경우(P=0.030), 그리고 출생 시재태주령 별 50백분위수에 해당하는 표준체중을 10일내 회복하지 못하는 경우(P=0.042)에 사망률이 유의하게 증가하였다. 결론: 본 연구에서는 낮은 5분 아프가 점수, 유리질막병의 동반 그리고 재태주령 별 50백분위수에 해당하는 표준 체중을 10일 내 회복하지 못하는 경우가 태아수종의 사망률을 높이는 유의한 위험인자로 나타났다. 낮은 5분 아프가 점수 및 유리질막병을 동반한 경우는 출생 초기의 상태를 반영하고 표준 체중 회복의 지연은 출생시 태아수종의 심한 정도를 반영하기 때문에, 태아 수종에 이환된 신생아의 경우 출생 초기의 상태와 태아 수종의 정도가 예후 예견에 도움이 될 수 있을 것이라고 생각된다.