• 제목/요약/키워드: and Pre-Processing

검색결과 1,934건 처리시간 0.034초

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

ICT기술을 활용한 곤충스마트팩토리팜의 현황과 미래 (Current status and future of insect smart factory farm using ICT technology)

  • 석영식
    • 식품과학과 산업
    • /
    • 제55권2호
    • /
    • pp.188-202
    • /
    • 2022
  • 최근 곤충산업은 애완곤충, 천적 등 산업에서 사료, 식용, 약용곤충으로 그 활용범위가 확대되면서 곤충 원료의 품질관리에 대한 요구가 커지고 곤충 제품의 안전성 확보에 관심이 높아지고 있다. 전세계 곤충산업 시장은 많은 소규모 농가형 기업과 소수의 대기업으로 구성되어 있으며 전통적인 수작업 사육에서 고도로 자동화되고 기술적으로 진보된 플랜트형 사육 등 다양한 기술 수준의 사육형태가 존재한다. 산업규모가 확대되는 과정에서 사육환경의 설계는 온습도, 공기질 조절과 병원체 및 기타 오염 물질의 전파를 방지하는 것은 중요한 성공 요인이 되며 사육에서 부화, 사육, 가공에 이르기까지 생산의 안전성을 유지하기 위해서 통일된 운영시스템 아래 통제된 환경이 필요하다. 따라서 곤충의 생육과 사육환경의 빅데이터화 된 데이터베이스를 기반으로 외부 환경 변화에도 안정적인 사육환경 유지가 가능하고 곤충성장에 맞추어 사육환경을 제어하며 노동력 감소와 생산성 향상을 이루기 위한 ICT 기반 곤충 스마트팩토리팜의 설계 및 운용알고리즘을 개발하는 것은 곤충산업 발전의 필수 선결조건이 되고 있다. 특히 유럽 상업용 곤충사육시설은 상당한 투자자의 관심을 받아 곤충 회사가 대규모 생산시설로 건설하고 있는데 이는 EU가 2017년 7월 물고기양식 사료원료로 곤충 단백질의 사용을 승인한 후 가능해졌으며 이를 기반으로 곤충산업의 식용, 의료 등 다른 분야도 첨단기술을 접목하는 현상이 가속화되었다. 외국 곤충산업은 주로 전세계 식품 생산량의 30%에 이르는 소비 전 폐기물이라고 불리는 식품회사의 생산과잉 원료 등을 업사이클링을 통해 재활용생태계를 형성하는데 반해 우리나라는 가정 및 가게에서 발생하는 음식물폐기물 또는 농산물 가공부산물을 주로 이용한다는 점에서 사료 수집과 영양성분 유지, 위생 등 지속가능한 산업생태계를 이루는 데 어려움을 겪고 있다. 또한, 각 곤충 종은 고유하고 특정 사육기술을 요구하고 있다는 점을 감안할 때 곤충사육자는 각기 다른 종별 접근 방식을 채택해야 하는데 대부분의 곤충기업은 여전히 소규모로 운영되며 특히 농가형 기업의 경우 지식과 경험이 도제식으로 전승되는 경우가 많아 표준화되고 규격화된 사육기술이 유지되기 어려운 반면, 일부 곤충 기업은 대규모 사육시설에 스마트 통합 제어시스템을 도입하여 먹이주기, 물주기, 취급, 수확, 청소 시스템, 가공, 품질관리, 포장 및 보관과 같은 곤충 생산과 관련된 요소가 최적화된 사육 환경과 사육프로세스로 표준화되어가는 모습을 보이고 있으며 심지어 일부 유럽기업은 AI기술로 구동되는 완전 자율 모듈식 곤충시스템으로 사육 유지관리를 하고 있는 사례도 등장하기 시작하였다. 향후 전세계 곤충산업은 공급업체로부터 알이나 작은 유충을 구입하고 곤충을 성숙시키기까지 애벌레의 비육 즉 생산원료에 중점을 두는 시스템과 알을 낳고 수확하고 유충의 초기 전처리에 이르기까지 전체 생산 과정을 다루는 시스템, 곤충 유충 생산의 모든 단계와 제분, 지방 제거 및 단백질 또는 지방 분획 등 추가 가공 단계를 다루는 대규모 생산시스템 등으로 점점 세분화할 것으로 본다. 우리나라에서도 인공지능 및 ICT 첨단기술을 활용한 곤충스마트팩토리팜 연구 및 개발 등이 가속화되고 있어 곤충이 기존 사료, 식품 뿐만 아니라 천연 플라스틱 또는 천연성형소재 등 2차산업의 탄소제로 소재로 활용할 수 있도록 특정 종 육종과정 단축이나 기능성 강화를 위한 사육제어가 가능하도록 곧 곤충 스마트팩토리팜 한국형 맞춤사육시스템이 등장할 수 있을 것으로 보이며, 특히 곤충 제품의 지속 가능성을 높이기 위해 사료 및 자원 사용에 대한 통합 소프트웨어 접근 방식을 개발하는 것에 중점을 두고 진행되고 있다.

삼차신경 운동핵에서 교근 근방추 구심성 신경섬유 종말지의 미세구조 (MORPHOLOGY OF THE TERMINAL ARBORS FROM THE MASSETERIC MUSCLE SPINDLE AFFERENTS IN THE TRIGEMINAL MOTOR NUCLEUS)

  • 이경우;배용철;김진수
    • Maxillofacial Plastic and Reconstructive Surgery
    • /
    • 제16권3호
    • /
    • pp.321-347
    • /
    • 1994
  • 교근의 근방추에서 유래하여 단일 연접성 고유수용성 악반사에 관여하는 구심성 신경섬유를 단일 축삭내 HRP 주입기법으로 염색해서 삼차신경 운동핵에서의 type I a 및 type II 신경 섬유 종말부의 미세 구조 및 연접양상을 분석한 결과는 다음과 같았다. ${\cdot}$ 대부분의 표식 종말지는 dome, 길쭉한 형태 혹은 둥근 모양을 나타내었으며, scalloped 형태 혹은 glomerulus 형태는 관찰되지 않았다. ${\cdot}$ 표식 종말지는 다수의 균일한 형태 및 크기(49-52nm) 의 투명한 구형의 소포와 때때로 소수의 치밀소포(직경:87-114nm)를 함유하고 있었다. ${\cdot}$ 표식 종말지의 크기는 type I a가 장경($1.91{\pm}0.63{\mu}m$), 단경($0.94{\pm}0.28{\mu}m$) 및 평균 직경($1.42{\pm}0.40{\mu}m$)에서 type II보다 작았다(p<0.05). ${\cdot}$ 표식 종말지는 신경원체 혹은 가지돌기와 비대칭 연접을 이루었으며, 다형소포와 같은 연접소포들을 함유하는 종말부와의 연접은 관찰되지 않았다. ${\cdot}$ 대부분의 type I a (94.9%) 및 type II(85.9%) 종말지는 단지 1개의 neuronal propile과 연접을 이루었으며, 4개 이상의 neuronal propile들과 연접을 이루는 경우는 관찰되지 않았다. ${\cdot}$ type I a 종말지에 있어서 대부분(87.2%)은 신경원체 및 근심부 가지돌기와 연접을 이루는데 반해 type II 종말지는 다수가(64.8%) 원심부 가지돌기와 연접을 이루었으며 신경원체 및 근심부 가지돌기와 연접을 이루는 경우는 35.2%에 그쳤다. 이상을 종합해 보면 단일 연접성 악반사를 일으키는 구심성 신경섬유 종말부는 삼차운동신경핵에서, 동통 및 촉각 또는 감각분별등 복잡한 감각을 처리하는 감각핵에서 보다 연접후신경원에 강력한 흥분성 신호를 전달하며 또한 대단히 단순한 연접양상을 이루는 것으로 나타났다.

  • PDF

그린키위 및 골드키위를 이용한 프렌치 드레싱 제조의 혼합비율 최적화의 연구 (A Study on the Optimization of Green Kiwi and Gold Kiwi Puree Mixing Ratio for the Best French Kiwi Dressing)

  • 조인숙;진현희;이승주
    • 한국조리학회지
    • /
    • 제21권4호
    • /
    • pp.16-28
    • /
    • 2015
  • 이 연구는 새로운 드레싱의 개발 목적의 일환으로 그린키위 및 골드키위의 첨가량을 달리하여 적합한 가공 및 조리 방법을 모색하고, 항산화성을 규명하여, 이를 드레싱에 활용하였을 때 현대인의 입맛에 맞는 향상된 키위드레싱의 제조에 적합한 최적 조건을 제시하고자 하였다. 예비실험에서 가장 선호도가 좋았던 그린키위 150, 골드키위 150, 그린키위 50: 골드키위 100, 그린키위 100: 골드키위 50, 그린키위 75: 골드키위 75로 제조하여 키위 퓨레 150 g을 기준으로 드레싱을 제조한 후, 품질특성으로 기계적 특성과 관능검사를 실시하였다. 키위드레싱의 점도는 GD2 시료로 단일 키위로 제조한 것보다 두 가지 키위를 섞은 과일이 더 높은 점도를 나타내는 결과를 보였다. 당도 측정의 경우, 골드키위의 비율을 많이 첨가할수록 당도가 높게 나타났으며, 염도는 그린키위로만 제조한 GR1 드레싱이 2.16%로 가장 높은 염도를 보였다(p<0.05). pH는 2.34~2.47의 범위를 보였으며, 총 산도의 경우 그린키위로만 제조한 드레싱이 1.86%로 가장 높은 값을 보였다. 그린키위 및 골드키위로 제조한 드레싱의 총페놀 함량은 골드키위의 함량이 늘어남에 따라 유의적으로 증가하였고, DPPH의 라디칼 소거활성은 폴리페놀 함량과 같이 모두 골드키위 함량의 증가함에 비례하는 결과를 보였다. 색도에서는 골드키위 함량이 높을수록 대체적으로 증가하였고, a값(-2.75)과 b값(17.50) 모두 GD1이 가장 높은 값을 나타냈다(p<0.05). 관능 검사에서 전반적인 기호도(overall acceptability)는 골드키위와 그린키위를 1:1로 믹싱하여 제조한 드레싱이 가장 높은 것으로 나타났다. 위의 결과로부터 골드키위와 그린키위의 드레싱 제조시 키위 퓨레를 1:1 비율로 믹스하여 식용유 130 g, 양파 50 g, 설탕 40 g, 식초 30 g, 레몬쥬스 30 g, 소금 5 g을 첨가한다면 드레싱의 기호도와 품질을 향상시킬 수 있을 것으로 기대된다.

Conditional Generative Adversarial Network(CGAN) 기반 협업 필터링 추천 시스템 (Conditional Generative Adversarial Network based Collaborative Filtering Recommendation System)

  • 강소이;신경식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.157-173
    • /
    • 2021
  • 소비자의 욕구와 관심에 맞추어 개인화된 제품을 추천하는 추천 시스템은 비즈니스에 필수적인 기술로서의 그 중요성이 증가하고 있다. 추천 시스템의 대표적인 모형 중 협업 필터링은 우수한 성능으로 다양한 분야에서 활용되고 있다. 그러나 협업필터링은 사용자-아이템의 선호도 정보가 충분하지 않을 경우 성능이 저하되는 희소성의 문제가 있다. 또한 실제 평점 데이터의 경우 대부분 높은 점수에 데이터가 편향되어 있어 심한 불균형을 갖는다. 불균형 데이터에 협업 필터링을 적용할 경우 편향된 클래스에 과도하게 학습되어 추천 성능이 저하된다. 이러한 문제를 해결하기 위해 많은 선행연구들이 진행되어 왔지만 추가적인 외부 데이터 또는 기존의 전통적인 오버샘플링 기법에 의존한 추천을 시도하였기에 유용성이 떨어지고 추천 성능 측면에서 한계점이 있었다. 본 연구에서는 CGAN을 기반으로 협업 필터링 구현 시 발생하는 희소성 문제를 해결함과 동시에 실제 데이터에서 발생하는 데이터 불균형을 완화하여 추천의 성능을 높이는 것을 목표로 한다. CGAN을 이용하여 비어있는 사용자-아이템 매트릭스에 실제와 흡사한 가상의 데이터를 생성하여, 희소성을 가지고 있는 기존의 매트릭스로만 학습한 것과 비교했을 때 높은 정확도가 예상된다. 이 과정에서 Condition vector y를 이용하여 소수 클래스에 대한 분포를 파악하고 그 특징을 반영하여 데이터를 생성하였다. 이후 협업 필터링을 적용하고, 하이퍼파라미터 튜닝을 통해 추천 시스템의 성능을 최대화하는데 기여하였다. 비교 대상으로는 전통적인 오버샘플링 기법인 SMOTE, BorderlineSMOTE, SVM-SMOTE, ADASYN와 GAN을 사용하였다. 결과적으로 데이터 희소성을 가지고 있는 기존의 실제 데이터뿐만 아니라 기존 오버샘플링 기법들보다 제안 모형의 추천 성능이 우수함을 확인하였으며, RMSE, MAE 평가 척도에서 가장 높은 예측 정확도를 나타낸다는 사실을 증명하였다.

수질 매개변수 추정에 있어서 항공 초분광영상의 가용성 고찰 (Airborne Hyperspectral Imagery availability to estimate inland water quality parameter)

  • 김태우;신한섭;서용철
    • 대한원격탐사학회지
    • /
    • 제30권1호
    • /
    • pp.61-73
    • /
    • 2014
  • 본 연구는 항공 초분광영상을 사용한 수질추정 활용을 검토하고 한강일부분에 대해 가용한 측정자료를 이용하여 초분광영상 기반의 수질추정을 테스트하였다. 원격탐사에 의한 수질추정은 수체에 대한 downwelling과 수체 내에서의 산란과 반사에 대한 관측정보를 이용하는 방법과 원격탐사 센서에 도달하는 upwelling과 수질측정정보와의 선형적 회귀분석을 구하는 방법이 선호된다. 두 방법 모두 유의미한 결과를 도출하지만 수질정보나 산란정보 등 추정에 필요한 보조자료에 의한 영향이 더 클 것으로 판단되었다. 수질 추정 테스트는 팔당댐 하류에 위치한 한강의 일부분에 대해서 적용되었다. AISA eagle 초분광센서로 취득된 자료와 수질관측정보를 선형적 회귀분석을 통한 방법을 적용하였다. 기존 문헌에서 제시된 밴드조합에 대해서 회귀분석한 결과 유의미한 밴드조합으로 $-24.847+0.013L_{560}$의 회귀식을 얻었다 ($L_{560}$은 560 nm 파장에서의 radiance로 $R^2$=0.985). 다중분광영상을 이용했을 경우의 결과와 비교하기 위해서 spectral resampling을 통해 Landsat TM 영상을 생성하여 -55.932 + 33.881(TM, TM3)의 회귀식을 얻을 수 있었다(TM, TM3는 radiance로, $R^2$=0.968). 부유물질 농도는 수질측정지점에서 약 3.75 mg/l 이고, 초분광영상으로 추정된 농도는 약 3.65 mg/l, 시뮬레이션된 TM은 약 5.85 mg/l 로 다중분광영상을 이용했을 경우 과대 추정하는 경향을 보였다. 항공 초분광영상의 활용가치를 높이고 보다 정밀한 값을 추정하기 위해서 영상 전반에 걸친 sun glint 와 같은 영향을 최소화하기 위해 태양고도각을 고려하여 정교한 비행계획을 구성하고 체계적 전처리와 검 보정 체계를 갖출 필요가 있다고 사료된다. 일반적으로 적용된 방법에 따른 테스트로, 대기보정의 정밀성과 부족한 수질측정 샘플자료, 분광밴드의 검색, 적합한 선형회귀모델의 선택, 그리고 정량적 검증방법과 같은 몇 가지 문제점과 제약사항들을 발견할 수 있었다.

학습부진아의 청각정보처리와 단기기억력 향상을 위한 음악의 치료적·교육적 접근 (Effect of Therapeutic and Educational strategies using music on improvement of auditory information processing and short-term memory skills for children with underachievement)

  • 정현주
    • 인간행동과 음악연구
    • /
    • 제1권1호
    • /
    • pp.1-10
    • /
    • 2004
  • 음악 활동에 참여하기 위해서는 기본적인 인지기능을 필요로 하는데, 이는 학습에 필요한 기능과도 공통점을 가진다. 음악을 듣고 기억하는 데에 복합적인 의식 활동이 요구되며, 일련의 소리 자극들이 음악으로서 의미를 갖고 기억되기 위해서는 주어진 소리 정보에 내재해 있는 특징들을 지각하고 처리할 수 있는 기능이 요구된다. 여러 선행 연구에서는 음악활동을 통해서 기본적인 학습 기능이 강화될 수 있다는 결과를 제시하였다. 본 연구는 학습부진 아동들이 청각정보처리기술과 단기기억력 강화를 중심으로 구성된 음악치료 세션에 참여하였을 때 음악 활동과 학습에 필요한 인지기능에 향상이 있는지를 보고자 하는 데에 그 목적이 있다. 본 연구에서는 음악 활동 내에서 다루어지는 인지기능을 사정할 수 있는 척도를 개발하여 학습기술 증진을 위한 음악치료 프로그램을 실행 전 후에 각각 실시하였다. 음악인지기술척도(Music Cognitive Skills Test)는 청각 지각인지력과 단기기억력 측정을 중심으로 모두 5 항목으로 구성되어 있는데, 1) 리듬 모방력, 2) 선율 모방력, 3) 음고 구별력, 4) 동화음 구별력, 5) 음보존력으로 구성되어 있다. 본 연구에는 기초학력기능검사 결과를 중심으로 담임교사가 추천한 18명의 초등학교 4, 5, 6학년 학생들이 참여하였으며, 4 개월간 주 2회씩 음악치료 프로그램이 투입되었다. 연구 결과, 리듬 모방력과 선율 모방력은 사후 검사에서 통계적으로 유의미한 차이가 있었다. 그 외에 음고 구별력, 동화음 구별력, 그리고 음보존력에서는 사후검사에서 증가된 결과를 보여주었다. 결과와 함께 본 연구에서는 참여자들이 수행한 시험을 통해서 나타낸 공통점을 분석한 결과 선율모방 보다 리듬모방에서 더 높은 결과를 보여주었다. 이는 리듬이 시간적인 개념만을 다루지만, 선율은 이외에 공간적인 개념이 추가된 것이기 때문에 더 난이도가 높은 작업이라고 분석될 수 있다. 선율 모방에서는 공통적으로 특정 음역에서 어려움을 보였는데, 4도 이상의 음역이 제시되었을 때와 2도의 음역을 가지고 있는 경우는 동일한 음으로 지각되는 경우가 많았다. 이러한 연구결과는 제시된 청각적 정보를 의미있는 단위로 구분하고 이를 이해하고, 기억하여 재생산해내는 작업은 모방은 물론, 음의 구별과 보존에도 필요한 기술임으로, 체계적으로 구성된 음악활동은 이러한 인지기술들을 강화시켜 줄 수 있는 전략으로 활용될 수 있다는 점을 시사한다.

  • PDF

텍스트 마이닝을 활용한 Youtube 광고에 대한 소비자 인식 분석 (A Study on Analysis of consumer perception of YouTube advertising using text mining)

  • 엄성원
    • 경영과정보연구
    • /
    • 제39권2호
    • /
    • pp.181-193
    • /
    • 2020
  • 본 연구는 최근에 이슈가 되고 있는 텍스트마이닝을 활용하여 소비자 인식을 분석한 연구이다. 이를 위해 삼성갤럭시 Youtube 광고에 대한 소비자 리뷰 분석을 통해 소비자들이 가지고 있는 삼성 갤럭시에 대한 인식을 분석하였다. 분석을 위해 Youtube 광고의 소비자 리뷰 1,819개를 추출하였다. 이를 데이터 전처리 과정을 거쳐 광고와 관련된 키워드를 명사, 형용사, 부사로 분류하여 추출하였다. 이후 빈도 분석 및 감성 분석을 실시하였으며 마지막으로 구조적 등위성 분석을 통한 군집화를 실시하였다. 본 연구 결과를 간략히 요약하면 다음과 같다. 첫 번째 가장 많이 언급된 단어는 갤럭시 노트(n=217), 좋음(n=135), 펜(n=40), 기능(n=29) 등으로 나타났다. 이는 소비자들이 광고를 통해 "갤럭시 노트", "좋음", "펜", "기능"은 삼성 핸드폰 제품에 대해 기능적인 면이 좋고, 노트 펜에 대해서 긍정적으로 높게 인식한다고 판단할 수 있다. 추가적으로 "삼성페이", "혁신", "디자인", "아이폰" 등에 대한 인식은 삼성 핸드폰에 대해 혁신적인 디자인과 삼성페이의 기능적인 면에서 상당히 좋은 평가를 하는 것을 알 수 있다. 두 번째, Youtube 광고에 대한 감성분석 결과이다. 감성 분석 결과 감성강도 비율이 긍정(75.95%)로 부정(24.05%)보다 높게 나타났다. 이는 소비자들이 삼성 갤럭시 모바일폰에 대해 긍정적으로 인식하고 있음을 의미한다. 감성 키워드 분석 결과 긍정키워드의 경우는 "좋다", "후하다", "혁신적", "최고다", "빠르다", "예쁘다" 등으로 나타났으며, 부정키워드의 경우는 "겁난다", "울고싶다", "불편", "아쉽다", "싫다" 등이 추출되었다. 본 연구이 시사점은 기존 광고에 대한 소비자 인식 연구를 살펴보면 대부분 정량적 분석 방법에 의한 연구가 대부분이었다. 본 연구에서는 광고에 대한 정량적 연구 방법에서 탈피하여 정성적 연구를 통해 소비자 인식분석을 시도하였다. 이는 향후 연구에도 많은 영향을 미칠 것으로 판단되며, 정성적 연구를 통해 소비자 인식 연구의 출발점이 될 것으로 확신한다.

해양 이상 자료 탐지를 위한 오토인코더 활용 기법 최적화 연구 (An Outlier Detection Using Autoencoder for Ocean Observation Data)

  • 김현재;김동훈;임채욱;신용탁;이상철;최영진;우승범
    • 한국해안·해양공학회논문집
    • /
    • 제33권6호
    • /
    • pp.265-274
    • /
    • 2021
  • 해양 이상 자료 탐지의 연구는 이전부터 활발하게 이루어지고 있으며, 통계 및 거리 기반의 기계 학습 알고리즘을 활용하는 기법들이 개발되었다. 최근에는 AI 기반의 해양 자료 이상 탐지 기법이 많은 관심을 받고 있으며, AI를 활용한 해양 이상 자료 탐지 기법은 정답이 주어지는 지도학습 기법이 주를 이루고 있다. 이러한 방법은 학습에 필요한 모든 자료에 수작업으로 분류 정보(라벨)를 지정해야 한다는 점에서 많은 시간과 비용이 요구된다. 본 연구에서는 이러한 문제를 극복하기 위해 비지도학습 기반의 오토인코더를 이상 자료 탐지 기법에 사용하였다. 실험으로는 오토인코더의 평가를 위해 단변수·다변수학습 두가지 실험을 구성하였고, 단변수 학습은 기상청에서 제공하는 덕적도 부이 정점 관측 자료 중 수온만 사용하였으며, 다변수 학습은 수온과 기온, 풍향, 풍속, 기압, 습도 등을 사용하였다. 사용기간은 1996~2020년의 25년간이며 학습 자료에 해양-기상 자료의 특성을 고려한 전처리 기법을 적용하였다. 학습된 다변수와 단변수 오토인코더를 활용하여 실제 표층 수온에 대한 이상 탐지를 시도하였다. 모델성능 비교를 위해 오차를 삽입한 합성 자료에 다변수와 단변수 오토인코더를 포함한 여러 이상 탐지 기법을 적용하여 정량적으로 평가하였으며, 다변수/단변수의 정확도가 각각 약 96%/91%로써 다변수 오토인코더가 더 나은 이상자료 탐지 성능을 보였다. 오토인코더를 이용한 비지도학습 기반 이상 탐지 기법은 주관적 판단에 의한 오류와 자료 라벨링에 필요한 시간과 비용을 줄일 수 있다는 점에서 다양하게 활용될 것으로 판단된다.

태권도 뉴스기사의 연도별 주제어 비교분석: 토픽모델링 적용 (Comparative Analysis of the Keywords in Taekwondo News Articles by Year: Applying Topic Modeling Method)

  • 전민수;임효성
    • 디지털융복합연구
    • /
    • 제19권11호
    • /
    • pp.575-583
    • /
    • 2021
  • 이 연구는 토픽모델링을 적용하여 뉴스기사에 따른 태권도 동향을 연도별로 분석하는 것에 목적이 있다. 언론보도를 통한 태권도 동향을 살펴보기 위해 한국언론재단의 빅카인즈를 통해 뉴스기사와 태권도 전문 언론에 대한 기사를 수집하였다. 검색기간은 2000년 이전, 2001년~2010년, 2011년~2020년 3개의 구간으로 구분하여 검색하여 총 12,124개를 연구자료로 선정하였다. 토픽분석을 위해 전처리 과정을 거쳤으며, LDA 알고리즘을 활용하여 토픽분석을 수행하였다. 이때 모든분석은 python 3을 적용하였다. 그 결과 첫째, 연도별에 따른 언론기사 주제를 분석한 결과 2000년이전 1위는 '세계'. 2위는 '남북', 3위는 '올림픽'으로 나타났으며, 2001년~2010년 1위는 '세계', 2위는 '협회', 3위는 '세계태권도연맹'으로 조사되었다. 2011년~2020년 1위는 '세계', 2위는 '시범', 3위는 '국기원'으로 나타났다. 둘째, 2000년이전 뉴스기사를 토픽모델링으로 분석한 결과 토픽은 2가지로 구분되었다. 구체적으로 Topic 1은 '남·북 체육교류', Topic 2는 '올림픽 시범종목 채택'으로 선정되었다. 셋째, 2001년~2010년 뉴스기사를 토픽모델링으로 분석한 결과 토픽은 3가지로 선정되었다. Topic 1은 '태권도 시범공연 및 비리', Topic 2는 '무주태권도공원 조성', Topic 3은 '세계태권도축제'로 선정되었다. 넷째, 2011년~2020년 뉴스기사를 토픽모델링으로 분석한 결과 토픽은 3가지로 선정되었다. Topic 1은 '2018 평창동계올림픽 성공 개최', Topic 2는 '남북 태권도 합동시범공연 ', Topic 3은 '2017 무주세계태권도선수권대회'로 선정되었다.