• 제목/요약/키워드: Text Label

검색결과 66건 처리시간 0.021초

기계학습에 기초한 자동분류의 성능 요소에 관한 연구 (An Analytical Study on Performance Factors of Automatic Classification based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제33권2호
    • /
    • pp.33-59
    • /
    • 2016
  • 국내 학술회의 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히 구현이 쉽고 컴퓨터 처리 속도가 빠른 로치오 알고리즘을 사용하여 "한국정보관리학회 학술대회 논문집"의 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 분류기 생성 방법, 학습집합 규모, 가중치부여 기법, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 파라미터(${\beta}$, ${\lambda}$)와 학습집합의 크기(5년 이상)를 적절하게 적용하는 것이 효과적이며, 동등한 성능 수준이라면 보다 단순한 단일 가중치부여 기법을 사용하여 분류의 효율성을 높일 수 있음을 발견하였다. 또한 국내 학술회의 논문의 분류는 특정 논문에 하나 이상의 범주가 부여되는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있으므로, 이러한 환경을 고려하여 주요 성능 요소들의 특성에 기초한 최적의 분류 모델을 개발할 필요가 있다.

An Analytical Study of National and International Care Label Systems of Textile and Apparel Products

  • Sanad, Reham A.;Kang, Zi Young
    • 한국의류산업학회지
    • /
    • 제20권3호
    • /
    • pp.331-342
    • /
    • 2018
  • This paper enables stakeholders involved in textile industry to gain an overview of standards used for care labelling and help establish a common standard that could be used as a universal standard. This study provides a comprehensive and detailed analytical study of care labelling standards adopted by common countries in the textile market. It was found that the development of a universal system for care labeling could enhance the trade of textile articles and assist consumers in caring for textile articles. Universal care label systems could be characterized by two main features of inclusiveness and comprehensiveness. The range of instructions and symbols presented were found different among standards. Insignificant differences in symbols' shapes were found between standards for bleaching, ironing and professional cleaning. The washing process had the widest variety of instructions; in addition, options were provided by stated standards. Different meanings were found for similar shapes in some tumble drying symbols. The study findings show the importance of enhancing text based standards or the development of an understandable format across as many cultures as possible. The unification of symbols and meanings may be needed to provide global consumers consistent guidance. The efficiency of a detailed standard that provides and covers a wide range of instructions is an important aspect. The visibility and practicality of offering variable options/symbols in one standard is an important aspect for developing a universal care label system.

이미지 처리기술을 이용한 온라인 바코드 품질검사 시스템 (An On-Line Barcode Verification System using Image Processing Technique)

  • 이주호;송하주
    • 한국전자통신학회논문지
    • /
    • 제7권5호
    • /
    • pp.1053-1059
    • /
    • 2012
  • 바코드 레이블은 저비용과 편리함으로 인해 물품의 식별을 위해 널리 사용되고 있다. 바코드 레이블은 실링인쇄(seal printing)를 통해 대량으로 생산되는데 그 과정에서 인쇄 품질이 좋지 않거나 레이블 내의 바코드와 텍스트가 서로 일치하지 않는 불량품이 발생하기도 한다. 불량 레이블은 인식 불량 및 업무 오류를 가져오고 이로 인해 물류 지체 및 처리비용 증가를 가져온다. 본 논문에서는 이미지 처리기술을 이용하여 생산단계에서 레이블을 검사하는 온라인 바코드 품질 검사 시스템을 제안한다. 제안 시스템은 카메라에 의해 얻은 이미지를 사용하여 바코드의 품질과 데이터와의 일치성을 검증하고, 불량레이블이 발견되면 경고 신호와 함께 불량임을 표시하여 불량품이 조기에 제거되도록 한다.

Semantic Feature Analysis for Multi-Label Text Classification on Topics of the Al-Quran Verses

  • Gugun Mediamer;Adiwijaya
    • Journal of Information Processing Systems
    • /
    • 제20권1호
    • /
    • pp.1-12
    • /
    • 2024
  • Nowadays, Islamic content is widely used in research, including Hadith and the Al-Quran. Both are mostly used in the field of natural language processing, especially in text classification research. One of the difficulties in learning the Al-Quran is ambiguity, while the Al-Quran is used as the main source of Islamic law and the life guidance of a Muslim in the world. This research was proposed to relieve people in learning the Al-Quran. We proposed a word embedding feature-based on Tensor Space Model as feature extraction, which is used to reduce the ambiguity. Based on the experiment results and the analysis, we prove that the proposed method yields the best performance with the Hamming loss 0.10317.

텍스트 마이닝을 이용한 공군 부사관 지원자 자기소개서의 차별적 특성 분석 (Analyzing the discriminative characteristic of cover letters using text mining focused on Air Force applicants)

  • 권혁;김우주
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.75-94
    • /
    • 2021
  • 저출산 문제로 인한 병역자원 감소와 병 복무기간 단축에 따른 군 간부 대비 병 복무 선호 현상은 우수한 군 간부확보정책에 대한 추가적인 고찰을 필요로 한다. 이와 관련된 연구들은 대부분 사회과학에서 주로 사용되는 방법론으로 분석하였으나, 본 연구는 대량의 문헌조사에 적합한 텍스트 마이닝의 방법론으로 접근한다. 이를 위해, 본 연구는 공군 부사관 지원자 자기소개서에서 차별적인 특성의 단어들을 추출하고 합격 및 불합격의 극성을 분석한다. 본 연구는 총 3단계로 이루어졌다. 첫번째, 지원분야를 일반분야와 기술분야로 나누고, 자기소개서에서 특성을 가지는 단어들을 분야별 빈도수 비율의 차이대로 순서화 한다. 각 지원분야별 비율의 차이가 클수록 해당 지원분야의 특성을 나타내는 것으로 정의하였다. 두번째, 이 특성을 나타내는 단어들을 LDA를 통해 단어들의 Topic을 군집화하고 이를 바탕으로 Label을 정의하였다. 세번째, 이 군집화 된 지원분야별 단어들을 L-LDA를 통해 합격과 불합격의 극성을 분석하였다. L-LDA값의 차이가 합격에 가까울수록 합격자들이 많이 사용하는 단어로 정의하였다. 본 연구를 통해, 공군 부사관 자기소개서의 차별적 특성을 추출하기에는 LDA보다 L-LDA가 더 적합함을 알 수 있다. 또한, 이러한 방법론은 별도의 서면 또는 대면 설문 방식이 아니라, 대량 문서에 대한 텍스트 마이닝 기법을 적용하여 분석시간을 단축하고, 전체 모집단에 대한 신뢰성을 높일 수 있다. 따라서 본 연구인 공군 부사관 선발결과 분석을 통해, 선발제도 및 홍보제도에 활용 가능한 정보를 제공하고, 군 인력획득 분야 연구에 있어 활용 가능한 방법론을 제안하고자 한다.

건강기능식품의 신뢰도 및 이해도 향상을 위한 표시제도 연구 (A Study on Labeling Regulation for Reliability and Understanding Improvement of Health Functional Food)

  • 강은진;김지연;권오란;김명철;김건희
    • 한국식품위생안전성학회지
    • /
    • 제23권1호
    • /
    • pp.51-61
    • /
    • 2008
  • 본 연구는 건강기능식품에 대한 소비자 연구를 통하여 신뢰도를 향상시키기 위한 표시 제도를 제안하기 위해 수행되었다. 소비자가 쉽게 건강기능식품을 확인할 수 있도록 공모를 통하여 인증마크를 개발하고 소비자 조사를 실시하였다. 조사대상자는 대도시, 중소도시 등 2000명으로 하여 1:1 면접조사를 실시하였다. 조사결과 건강기능식품 인증마크의 필요도가 매우 높았고, 텍스트 형태보다 텍스트/그래픽이 혼합된 형태의 영양 기능정보의 신뢰도가 높았다. 또한 인체에 작용하는 기전을 포함한 영양 기능정보가 소비자의 신뢰도를 높이는 데 도움이 되는 것으로 조사되었다. 따라서 건강기능식품 인증마크는 소비자로 하여금 제품을 선택하는데 도움을 줄 수 있을 것으로 사료되며, 또한 건강기능식품의 신뢰도를 높일 수 있는 표시제도의 개선에 기여할 것으로 사료된다.

교육적으로 유의미한 의사소통을 위한 지구과학 관련 전시 라벨의 서술 특징 (Descriptive Characteristics of the Label Texts Related to Earth Science: Toward Educationally Meaningful Communication)

  • 김찬종;박은지;윤세열;이선경
    • 한국지구과학회지
    • /
    • 제33권1호
    • /
    • pp.94-109
    • /
    • 2012
  • 본 연구는 국내 주요 과학관 및 자연사 박물관의 지구과학 관련 전시 라벨 텍스트의 서술 특징을 분석하고자 하였다. 이를 위해, 국립 중앙 과학관과 서대문 자연사 박물관에서 자료를 수집하였고, 체계기능언어학을 일부 적용한 분석틀을 사용하였다. 연구 결과, 라벨들은 1) 대부분 평서형 문장, 2) 적절한 과학적 정보의 양, 3) '사실' 위주의 정보 제시, 4) 모두 논리적 설명 장르로 구성되어 있었다. 특히, 국립 중앙 과학관의 라벨들은 5) 전체 어휘 중 과학 용어의 비율이 높고 6) 주어의 절반 이상이 생략되거나 긴 명사화 형태였다. 결론적으로, 분석 대상 라벨들은 전시물과 관람객들 사이에서 과학 문화에 관한 양 방향적 의사소통을 이끌기보다 일 방향적인 의사소통을 일으킬 가능성이 높은 것으로 해석할 수 있었다. 이를 토대로, 과학 문화와 관람객의 일상 문화 사이의 열린 구조를 만들어 보다 교육적으로 유의미한 의사소통을 가능하게 하는 라벨 텍스트의 서술 특징들을 제안하였다.

LDA 토픽 모델을 활용한 포스트 Covid-19 시대의 소상공인 지원정책 분석 (An Analysis of the Support Policy for Small Businesses in the Post-Covid-19 Era Using the LDA Topic Model)

  • 서경도;최정일;최판암;정재림
    • 산업융합연구
    • /
    • 제22권6호
    • /
    • pp.51-59
    • /
    • 2024
  • 본 논문은 COVID-19와 같은 팬데믹 상황에서 소상공인에게 실질적으로 도움이 되는 정부 정책을 제언하는데 목적이 있다. 이를 위해 'COVID-19 소상공인 지원', 'COVID-19 감염병 대응체계에 따른 소상공인 영향', 'COVID-19 소상공인 경제정책' 키워드를 중심으로 뉴스 기사를 크롤링하여 텍스트 마이닝 분석의 키워드 빈도분석과 워드클라우드 분석을 수행하였고, LDA 토픽 모델링 분석을 통해 주요 이슈를 파악하였다. LDA 토픽 모델링을 수행한 결과 소상공인 지원 정책은 정부의 현금성 지원과 금융지원으로 토픽 레이블을 구성하였고, COVID-19 감염병 대응체계에 따른 소상공인 영향은 정부 주도의 방역체계와 개인 주도의 방역체계로 토픽 레이블을 구성하였으며, COVID-19 경제정책은 경제위기와 자생력을 갖추기 위한 소상공인 정책으로 토픽 레이블을 구성하였다. 구성한 토픽레이블을 중심으로 향후 팬데믹 상황에서 소상공인 피해 감면 정책과 소상공인이 시장경쟁력 제고 정책에 대해 파악할 수 있는 기초자료를 제공하고자 하였다.

음절 단위 Multi-hot 벡터 표현을 활용한 Sequence-to-sequence Autoencoder 기반 한글 오류 보정기 (Sequence-to-sequence Autoencoder based Korean Text Error Correction using Syllable-level Multi-hot Vector Representation)

  • 송치성;한명수;조훈영;이경님
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.661-664
    • /
    • 2018
  • 온라인 게시판 글과 채팅창에서 주고받는 대화는 실제 사용되고 있는 구어체 특성이 잘 반영된 텍스트 코퍼스로 음성인식의 언어 모델 재료로 활용하기 좋은 학습 데이터이다. 하지만 온라인 특성상 노이즈가 많이 포함되어 있기 때문에 학습에 직접 활용하기가 어렵다. 본 논문에서는 사용자 입력오류가 다수 포함된 문장에서의 한글 오류 보정을 위한 sequence-to-sequence Denoising Autoencoder 모델을 제안한다.

  • PDF

머신러닝 기반의 기업 리뷰 다중 분류: 부분 문법 적용을 중심으로 (Multi-Label Classification for Corporate Review Text: A Local Grammar Approach)

  • 백혜연;장영균
    • 경영정보학연구
    • /
    • 제25권3호
    • /
    • pp.27-41
    • /
    • 2023
  • 최근 많은 분야에서 기계학습에 대한 연구가 활발히 진행되고 있는데, 상당수의 연구들이 학습 모델의 성능을 개선하는 최신 방법론을 제시하고 있다. 본 연구에서는 방법론의 개발 못지않게 기계학습에 투입되는 훈련용 데이터의 '품질'을 개선하는 것 역시 중요하다는 점에 착안하여, 코퍼스 분석에서 자주 사용되는 '부분 문법' 처리 프로세스를 통해 훈련 데이터의 품질을 향상시키는 방법을 제시한다. 우리나라 100대 기업에 근무하는 재직자들이 채용플랫폼에 게시하는 방대한 양의 비정형 기업 리뷰 텍스트 데이터를 수집하고, 데이터 품질을 부분 문법 프로세스로 개선한 후, 부분 문법이 적용된 분류 모델이 적용되지 않은 모델보다 분류 성능이 우수함을 확인하였다. 분류 카테고리는 직원 몰입의 5가지 요인으로 상정하였는데, 국내 직장인들이 기업 리뷰가 각 유형별로 빈도에 차이가 있는지를 분석하였다. 추가로 리뷰 양상이 코로나 팬데믹 전후로 어떠한 변화가 있었는지도 분석하였다. 본 연구를 통해 국내 직장인들의 생생한 일터 경험들을 자동적으로 식별하고 분류하여, 이직을 포함한 주요한 조직문화 현상의 행태와 유발 원인 등을 유추해 볼 수 있는 근거를 제공한다.