• Title/Summary/Keyword: 과도 분류

Search Result 8,511, Processing Time 0.043 seconds

A Comparative Study on Feature Combination for MathML Formula Classification (MathML 수식 분류를 위한 자질 조합 비교 연구)

  • Kim, Shin-Il;Yang, Seon;Ko, Young-Joong
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.37-41
    • /
    • 2010
  • 본 논문에서는 Mathematical Markup Language(MathML) 형식으로 작성된 수학식 분류를 위해 필요한 자질과 성능 향상에 기여하는 자질 조합을 비교 평가한다. 이것은 MathML 형식의 수학식을 분석하기 위한 전처리 작업으로, 연산자의 모호성을 해소하기 위한 가장 기본적인 단계에 해당한다고 볼 수 있다. 실험에 사용되는 기본자질(Baseline)은 MathML 태그 정보와 연산자이고, 여기에 다른 자질들을 추가하며 가장 높은 분류 성능을 가지는 자질을 찾는 방식으로 진행하였다. 학습은 지지벡터기기(Support Vector Machine: SVM)를 사용하였고 분류하고자 하는 단원은 '수학의 정석' 책을 토대로 총 12개(집합, 명제, 미분, 적분 등)로 나누었다. 실험을 통해 MathML 문서 안에서 가장 유용한 자질이 '식별자&연산자 바이그램'인 것을 알 수 있었고, 여러 가지 자질들을 조합하여 수학식을 분류한 결과 92.5%의 성능으로 분류하는 것을 확인할 수 있었다.

  • PDF

Sequential Sentence Classification Model based on ELECTRA (ELECTRA 기반 순차적 문장 분류 모델)

  • Choi, Gi-Hyeon;Kim, Hark-Soo;Yang, Seong-Yeong;Jeong, Jae-Hong;Lim, Tae-Gu;Kim, Jong-Hoon;Park, Chan-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.327-330
    • /
    • 2020
  • 순차적 문장 분류는 여러 문장들을 입력으로 받아 각 문장들에 대하여 사전 정의된 라벨을 할당하는 작업을 말한다. 일반적인 문장 분류와 대조적으로 기준 문장과 주변 문장 사이의 문맥 정보가 분류에 큰 영향을 준다. 따라서 입력 문장들 사이의 문맥 정보를 반영하는 과정이 필수적이다. 최근, 사전 학습 기반 언어 모델의 등장 이후 여러 자연 언어 처리 작업에서 큰 성능 향상이 있었다. 앞서 언급하였던 순차적 문장 분류 작업의 특성상 문맥 정보를 반영한 언어 표현을 생성하는 사전 학습 기반 언어 모델은 해당 작업에 매우 적합하다는 가설을 바탕으로 ELECTRA 기반 순차적 분류 모델을 제안하였다. PUBMED-RCT 데이터 셋을 사용하여 실험한 결과 제안 모델이 93.3%p로 가장 높은 성능을 보였다.

  • PDF

A study on the Construction of Annotated corpora for the Automatic Classification of Open Domain Queries (오픈도메인 질의문 자동 분류를 위한 주석 말뭉치 구축 연구)

  • Ahn, AeLim;Lee, SeoJin;Choi, DongHyun;Kim, EungGyun;Nam, JeeSun
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.309-314
    • /
    • 2019
  • 본 연구는 오픈도메인 자연어 질의문 유형을 '질문 초점(Question Focus)'에 따라 분류하고, 기계학습 기반 질의문 유형 분류기의 성능 향상을 위한 주석 말뭉치 구축을 목표로 한다. 오픈도메인 질의문 분석을 통해 의문사 등의 키워드 기반 질의문 유형 분류의 한계를 설명하고, 질의문 내의 비명시적인 의미자질을 고려한 질문 초점 기반 질의문 유형 분류 기준을 정의하였다. 이 기준에 따라 구축된 112,856 문장의 주석 말뭉치를 기계학습(CNN) 기반 문장 분류 시스템의 학습 데이터로 사용하여 실험한 결과 F1-Score 97.72%성능을 보였다. 또한 이를 카카오 오픈도메인 질의응답시스템에 적용하여 질의문 확장을 위한 의미 자질로 사용하였고 그 결과 전체 시스템 성능을 1.6%p 향상시켰다.

  • PDF

Adversarial Training Method for Handling Class Imbalance Problems in Dialog Datasets (대화 데이터셋의 클래스 불균형 문제 보정을 위한 적대적 학습 기법)

  • Cho, Su-Phil;Choi, Yong Suk
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.434-439
    • /
    • 2019
  • 딥러닝 기반 분류 모델에 있어 데이터의 클래스 불균형 문제는 소수 클래스의 분류 성능을 크게 저하시킨다. 본 논문에서는 앞서 언급한 클래스 불균형 문제를 보완하기 위한 방안으로 적대적 학습 기법을 제안한다. 적대적 학습 기법의 성능 향상 여부를 확인하기 위해 총 4종의 딥러닝 기반 분류 모델을 정의하였으며, 해당 모델 간 분류 성능을 비교하였다. 실험 결과, 대화 데이터셋을 이용한 모델 학습 시 적대적 학습 기법을 적용할 경우 다수 클래스의 분류 성능은 유지하면서 동시에 소수 클래스의 분류 성능을 크게 향상시킬 수 있음을 확인하였다.

  • PDF

A Flora of Vascular Plants in Boraebong (보래봉 일대의 관속식물상)

  • Ji Eun Kim;Young-Soo Kim;Jung Sim Lee;Ju Eun Jang;Hyeon Jin Jeong;Aleksey L. Kim;Sang-Kuk Han;Hee-Young Gil
    • Korean Journal of Plant Resources
    • /
    • v.37 no.1
    • /
    • pp.35-61
    • /
    • 2024
  • Floristic study can help to understand the current status of species diversity, evaluate and predict distribution changes of plants based on the specimens, and record the climate environment and biodiversity of the Korean Peninsula. Boraebong is an area that has plant resources of conservation value, but there is concern about artificial interference through trail and forest road. Therefore, this study aims to report the vascular plants of Boraebong based on voucher specimens and photos and to use them as baseline data to conserve biodiversity of Boraebong. Also, it will be useful to prevent additional influx of invasive species through comparison with previous studies. The investigation was carried out 11 times from April to September in 2022 and confirmed a total of 455 taxa including 87 families, 269 genera, 401 species, 13 subspecies, 35 varieties, 6 forms. In addition, we confirmed the 4 taxa of red list plants (EN 2 taxa, NT 2 taxa), 18 taxa of Korean endemic plants, and 102 taxa of floristic target species (V degree 1 taxon, IV degree 16 taxa, III degree 31 taxa, II degree 31 taxa, I degree 23 taxa). Furthermore, alien plants 17 taxa, invasive species 2 taxa, useful plants 439 taxa were confirmed in Boraebong. As the results of comparison with previous studies, 98 total taxa including 38 families, 76 genera, 86 species, 1 subspecies, 8 varieties, 3 forms were newly identified in this study.

Flora and Restoration Plan of Hanon Paddy Fields Made in Maar Crater, Jeju Island, South Korea (제주도 마르형 분화구 내에 형성된 하논의 식물상과 복원 방안)

  • Kim, Myung-Hyun;Nam, Hyung-Kyu;Eo, Jinu;Kwon, Soon-Ik;Song, Young-Ju
    • Korean Journal of Environmental Biology
    • /
    • v.36 no.4
    • /
    • pp.439-455
    • /
    • 2018
  • Hanon made in the largest maar crater in Korea, is the only paddy field ecosystem in Jeju Island that has been conducting rice farming, for the past 500 years. Flora surveys were conducted eight times, 2015-2018, to understand floristic characteristics and a restoration plan of the study area. As a result, vascular plants of Hanon paddy fields were listed 225 taxa that consist of 55 families, 151 genera, 194 species, 1 subspecies, 25 varieties, and 4 forms. The taxonomic group including the most species, was Gramineae (36 taxa). The next families were Compositae (29 taxa), Cyperaceae (20), Leguminosae (13), and Polygonaceae (11). Biological type of the Hanon was $Th-R_5-D_4-t$ type. The rare plants revealed 3 taxa; Ottelia alismoides(L.) Pers., Acorus calamus L., Pseudoraphis ukishiba Ohwi. Endemic plant revealed 1 taxon; Saururus chinensis(Lour.) Baill. Forty three taxa were naturalized plants composed of 15 families, 24 genera, 41 species, and 2 varieties. The urbanization index and naturalized index were 13.3% and 16.9%, respectively. The Hanon has high plant diversity, including endemic plant and rare plants, and is the only rice paddy in Jeju Island. So, the Hanon has sufficient values in ecological and socio-cultural aspects, so it should be maintained continuously in the future.

Stress, Depressive Symptom, and Utilization of Professional Consultation according by Occupation Classification and Employment Status (직업분류 및 고용분류에 따른 스트레스, 우울증상, 의료기관 이용률)

  • An, Ji-Yeon;Lee, Seoung-Eun
    • The Journal of the Korea Contents Association
    • /
    • v.14 no.2
    • /
    • pp.409-420
    • /
    • 2014
  • The purpose of this study is to examine the level of stress and depressive symptom and to assess the utilization of professional consultation. Data extracted from Community Health Survey (CHS), conducted by Korea Centers for Disease Control and Prevention. The subjects were 174,975 (19-65 years). In result, 'Managers', 'Professionals and related workers', 'Clerks', 'Service workers', and 'Sales workers', 'Equipment, machine operating assembling workers', and 'Armed forces' were more in risk of stress. However, theses groups were less in probability of utilization for stress consultation. Based on these findings, mental health screening program for detecting risk group among occupation classification and employment status will be essential. It may be necessary to have sustainable strategies for utilizing mental health service to reduce the level of stress and depressive symptom of workers.

The Specific Plant Species and Conservation of Juwangsan National Park, Korea (주왕산국립공원의 특정식물과 보전방안)

  • Lee, Hee-Cheon;Hwang, In-Chun;Lim, Dong-Ok;Chung, Chul-Un
    • Korean Journal of Environment and Ecology
    • /
    • v.25 no.4
    • /
    • pp.498-515
    • /
    • 2011
  • The flora of Juwangsan National Park was surveyed. The field works was done for seven times from March to October 2008. Endangered species designated by The Ministry of Environment in Juwangsan National Park were found to be Hylotelephium ussuriense (KOM.) H. OHBA, Berchemia berchemiaefolia (MAK.) KOIDZ, Jeffersonia dubia BENTH., Iris odaesanensis Y.N.LEE and Acanthopanax senticosus (RUPR. et MAX.) HARMS, Lilium cernum KOM., Thalictrum coreanum LEV.(7 taxa). The floristic special plants were recorded to a total of 88 taxa; that is, degree V species (8 family 9 taxa) were containing as Jeffersonia dubia BENTH., Berchemia berchemiaefolia (MAK.) KOIDZ, Lilium cernum KOM., etc, degree IV species (4 family 5 taxa) were Cimicifuga heracleifolia KOM., Anemone reflexa STEPH. et WILLD., Patrinia rupestris JUSS., etc, degree III species (16 family 18 taxa) were containing; Pyrrosia petiolosa (CHRIST.et BARONI) CHING, Exochorda serratifolia S. MOORE., Aristolochia manshuriensis KOM., etc, degree II species (14 family 18 taxa) were Paeonia japonica MIYABE et TAKEDA, Isopyrum raddeanum (REGEL) MAX., Cypripedium macramthum SW., etc and degree I species (30 family 38 taxa) were Botrychium virginianum (L.) SW., Chloranthus japonicus SIEB., Dictamnus dasycarpus TURCZ., etc. 15 taxa that included Salix hulteni FLODERUS, Celtis choseniana NAKAI, Clematis trichotoma NAKAI, Vicia venosissima NAKAI, etc. were found to be endemic to korea and 21 taxa that included ; Bilderdykia dumetora (L.) DUM., Bilderdykia convolvulus DUM., Lepidium apetalum WILLD., Amorpha fruticosa L. and Symphytum offcinale L., Hibiscus trionum L. etc. were identified as naturalized plants.

The Flora of Mt. Toemo·Hyeolgu (Incheon Metropolitan City) in Western DMZ Area (서부 DMZ 일원 퇴모·혈구산(인천광역시) 일대의 관속식물상)

  • Jong-Won Lee;Jin-Heon Song;Young Min Choi;Jae Sang Jeong;Kyong Youl Byun;Hee Young Gil;Shin-Ho Kang
    • Proceedings of the Plant Resources Society of Korea Conference
    • /
    • 2021.04a
    • /
    • pp.31-31
    • /
    • 2021
  • 본 연구는 서부 DMZ 및 접경지역에 속하고 인천광역시 강화군 강화읍에 위치한 퇴모·혈구산(466m) 을 대상으로 수행되었다. 강화군은 우리나라에서 4번째로 넓은 면적의 섬으로 알려져있고, 인천광역시 서북부 경기만의 한강 하구에 위치하고 있으며, 서쪽으로는 석모도 등 부속섬과 서해안, 북쪽으로는 북 한의 황해도 연백시, 동쪽으로는 김포시와 강화대교와 강화초지대교가 육지로 연결되어 있다. 2019년 4 월부터 2020년 10월까지 7회에 걸쳐 계절별로 식물상 조사를 진행하였다. 본 연구에서 확인된 해명산 일대에 분포하는 관속식물의 현황은 92과 257속 353속 4아종 41변종 4품종 총 402분류군으로 확인되었다. 양치식물은 6과 9속 10종 2변종 12분류군, 나자식물은 3과 4속 8종 총 8분류군, 쌍자엽식물은 74과 198속 268종 4아종 30변종 3품종 등 305분류군, 단자엽식물은 9과 46속 67종 9변종 1품종 등 77분류군으로 조사되었다. 또한, 식물구계학적 특정식물 IV급은 등 1분류군, III급은 물박달나무, 병아리꽃나무 등 6분 류군, II급은 갯장구채, 꼬리조팝나무 등 8분류군, I급은 야산고비, 일엽초 등 20분류군으로 파악되었 다. 희귀식물은 산림청 지정 희귀식물 취약종(VU)에 속하는 산들깨와 약관심종(LC)에 속하는 쥐방울덩굴 등 총 2분류군이 확인되었다. 특산식물은 백운산원추리 및 병꽃나무 등 4분류이 파악되었다. 침입외래식물은 애기수영 및 유럽점나무도물 등 39분류군으로 확인되었고, 생태계교란식은 가시박 등 4분류군으로 파악되었다. 주변의 신산저수지 및 고비고개에 큰 공사가 진행되고있어 침입외래식물의 개체수는 크게 증가할 것으로 예측었다. 따라서 장기적인 생태계 보전대책 수립이 필요하다고 판단된다.

  • PDF

Internet Application Traffic Classification using a Hierarchical Multi-class SVM (계층적 다중 클래스 SVM을 이용한 인터넷 애플리케이션 트래픽 분류)

  • Yu, Jae-Hak;Kim, Sung-Yun;Lee, Han-Sung;Kim, Myung-Sup;Park, Dai-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06a
    • /
    • pp.174-178
    • /
    • 2008
  • P2P를 포함하는 인터넷 애플리케이션 트래픽의 보다 빠르고 정확한 분류는 최근 학계의 중요한 이슈 중 하나이다. 본 논문에서는 기존의 전통적인 분류방법으로 대표되는 port 번호 및 payload 정보를 이용하는 방법론의 구조적 한계점을 극복하는 새로운 대안으로써, 이진 분류기인 SVM과 단일클래스 SVM을 계층적으로 결합한 다중 클래스 SVM을 구축하여 인터넷 애플리케이션 트래픽 분류를 수행하였다. 제안된 시스템은 이진 분류기인 SVM으로 P2P 트래픽과 non-P2P 트래픽을 빠르게 분류하는 첫 번째 계층, 3개의 단일클래스 SVM을 기반으로 P2P 트래픽들을 파일공유, 메신저, TV로 분류하는 두 번째 계층, 그리고 전체 16가지의 애플리케이션 트래픽별로 세분화 분류하는 세 번째 계층으로 구성된다. 제안된 시스템은 flow 기반의 트래픽 정보를 수집하여 인터넷 애플리케이션 트래픽을 coarse 혹은 fine하게 분류함으로써 효율적인 시스템의 자원 관리, 안정적인 네트워크 환경의 지원, 원활한 bandwidth의 사용, 그리고 적절한 QoS를 보장하였다. 또한, 새로운 애플리케이션 트래픽이 추가되더라도 전체 시스템을 재학습 시킬 필요 없이 새로운 애플리케이션 트래픽만을 추가 학습함으로써 시스템의 점증적 갱신 및 확장성에도 기여하였다. 평가항목인 recall과 precision에서 만족스러운 수치 등을 실험을 통하여 확인함으로써 제안된 시스템의 성능을 검증하였다.

  • PDF