• 제목/요약/키워드: 최소단어

검색결과 56건 처리시간 0.028초

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

도로건설사업의 생애주기별 정보를 이용한 건설사업정보 통합관리방안 연구 (A Study on Project Information Integrated Management Measures Using Life Cycle Information in Road Construction Projects)

  • 김성진;김범수;김태학;김남곤
    • 한국산학기술학회논문지
    • /
    • 제20권11호
    • /
    • pp.208-216
    • /
    • 2019
  • 건설공사는 기획-설계-시공-유지관리 등 생애주기에 따라 다양한 많은 정보를 발생시킨다. 도로 등 SOC 공공건설공사는 최소 5년에서 10년이상 기간동안 공사가 이루어짐으로서 공정·공사비 등 사업이력에 대한 정보관리가 중요한 실정이다. 또한, 도로건설사업의 생애주기별 정보 관리를 통해 최초 계획했던 목표대로 공사가 수행되었는지 확인하고 유사공사에 반영할 수 있도록 건설정보의 선순환 구조체계로의 전환이 필요하다. 민간건설공사는 건설사에서 계획부터 준공까지 전반적인 정보관리를 수행하는데 반해, 공공건설사업은 각기 다른 기관 또는 부서에서 업무를 수행함으로서 정보의 통합관리가 어려운 실정이다. 특히, 공공건설 중 일반국도의 경우 건설사업정보시스템에서 건설사업정보를 관리하고 있으나, 세부시스템별로 개별 관리함으로서 정보 단절로 인해 통합적인 모니터링을 할 수 없는 실정이다. 따라서, 본 연구는 일반국도 건설사업의 생애주기별 발생 정보를 종합적으로 관리할 수 있도록 정보 통합관리방안을 제시하였다. 이를 위해 건설관련 정보시스템 현황을 조사하고, 기존 건설사업정보시스템을 분석한 후, 표준화 절차에 따라 용어, 단어, 도메인을 정의하였다. 그 결과, DB 표준화에 따라 세부시스템의 DB를 통합하고 개별 관리되던 사용자정보를 통합하며 디브레인과의 연계를 통해 사업예산 기반의 정보관리가 이루어질 수 있도록 정보시스템을 개선하였다.

희귀식물 무주나무(Lasianthu japonicus Miquel)의 특성과 자생지

  • 이은주;문명옥;강영제;김문홍
    • 한국자원식물학회:학술대회논문집
    • /
    • 한국자원식물학회 2002년도 제9차 국제심포지움 및 추계정기학술발표회
    • /
    • pp.76-76
    • /
    • 2002
  • 무주나무(Lasianthus japonicus Miquel)는 일본, 대만, 중국 등에 분포하고 열대 및 아열대의 상록활엽수림에서만 자라는 것으로 알려져 있으며, 우리나라에는 제주도 남쪽계곡에만 분포하는 희귀식물이다. 무주나무는 현재 환경부 지정 보호야생식물로 보호되고 있으나 개체특성 및 자생지에 대한 정확한 조사가 이루어진 바 없다. 본 연구는 무주나무의 자생지 현황과 생육특성을 파악하고자 실시하였다. 무주나무의 자생지는 제주도 남제주군 남원읍 하례리 해발 250m의 계곡 동사면과 서귀포시 돈네코 계곡의 해발 350 m 계곡의 서사면 등 2개소로 확인되었다. 자생지별 개체수는 남원읍 하례리 4개체, 서귀포시 돈네코계곡 5개체 등 총 9개체에 불과하였다. 자생지는 계곡의 상록수림 하부에 바위 위 부엽토나, 습한 계곡 사면이었으며, 교목층에는 구실잣밤나무, 비쭈기나무, 황칠나무, 동백나무 등이 우점하고, 관목층에는 사스레피나무, 백량금, 산호수 등이 우점하는 상록활엽수림이었다. 분포 개체의 수고는 최소 0.4 m, 최대 1.55 m로 평균 1.5 m 였다. 생장특성을 조사한 결과 줄기는 어릴 때는 사각형이지만 점차 원형으로 되며, 일정한 마디가 있고 털이 없으며, 잎은 대생하고, 혁질이며, 중륵과 측맥이 뚜렷한 특성을 갖고 있었다. 열매는 장과형으로 성숙 시에는 남색이며 털이 없으며, 직경 약 6-7 mm, 4-5개의 종자가 들어 있었다. 종자는 반달형이며, 3개의 홈이 지는 특성을 갖고 있었다. 현재의 자생지는 자연적인 요인으로서 토양유실이 심하게 일어나고 있는 지역이었으며, 교목 또는 다른 관목에 의한 피압으로 무주나무의 생장에 부적절한 환경으로 판단되었다. 따라서 자생지의 적절한 식생관리와 지속적인 자생지 조사 및 자생지외 보존에 관한 연구가 이루어져야할 것으로 생각된다.$I_{NO}$ 가 죽절초를 제외한 3종에서 여름철 낮시간에 증가하였다. 겨울철의 O-J-I-P곡선은 모든 종에서 낮시간에 다소 낮아지지만 큰 변화는 없었다. 그리고, 문주란, 박달목서, 파초일엽에서 $\psi$o/(1-$\psi$o)가 낮시간에 다소 증가하였다. 이로부터 P $I_{NO}$ , SF $I_{NO}$ , $\psi$o/(1-$\psi$o)등의 변수는 식물의 활력도를 검정하는 지표로 활용될 가능성이 높다고 할 수 있다.irc}C$) 까지 동시에 냉각된 사실을 지시한다. 각섬석 편암내의 각섬석들은 복잡한 40Ar/39Ar 연대를 보여주며 일부가 평형연대를 보여주지만 특별한 의미 부여가 힘들다.해예방행동을 촉구하는 등의 효과도 높은 것으로 예방의학적인 유용성이 크다고 볼 수 있다. 미침을 알 수 있었다. 대두 단백질로 코팅된 golden delicious는 상온에서60일 동안 보관하였을 경우, 사과표피의 색도 변화를 현저히 지연시킴을 확인하였다. 또한 control과 비교하여 성공적으로 사과에 코팅하였으며, 상온에서 보관하여을 때 사과의 품질을 30일 이상 연장하는 효과를 관찰하였다. 이들 결과로부터 대두단백질 필름이 과일 등의 포장제로서 이용할 가능성을 확인하였다.로 [-wh] 겹의문사는 복수 의미를 지닐 수 없 다. 그러면 단수 의미는 어떻게 생성되는가\ulcorner 본 논문에서는 표면적 형태에도 불구하고 [-wh]의미의 겹의문사는 병렬적 관계의 합성어가 아니라 내부구조를 지니지 않은 단순한 단어(minimal $X^{0}$ elements)로 가정한다. 즉, [+wh] 의미의 겹의문사는 동일한 구성

  • PDF

혼합 가우시안 군집화를 이용한 상태공유 음향모델 최적화 (A Study on the Optimization of State Tying Acoustic Models using Mixture Gaussian Clustering)

  • 안태옥
    • 대한전자공학회논문지SP
    • /
    • 제42권6호
    • /
    • pp.167-176
    • /
    • 2005
  • 본 논문은 음성인식에 쓰이는 음향모델의 모델링 방법 중 결정트리 상태공유 모델링(DTST)을 기반으로 출력 확률 분포의 혼합 가우시안 수를 줄여 모델을 최적화하는 방법을 제안한다. DTST는 음성학적 지식을 포함할 수 있는 질의어 집합과 유사도를 기반으로 한 결정 방법을 이용하는 것이다. 이때 상태들의 출력 확률 분포의 혼합 가우시안 수를 늘려 인식률을 증가시킬 수 있게 된다. 본 논문에서는 인식률이 최대가 되는 지점에서 혼합 가우시안들을 군집화 하여 그 수를 줄이고자 한다. 군집화 시에 필요한 거리 측정 방법은 유클리드(Euclidean)와 바타챠랴(Bhattacharyya) 방법을 이용하였고, 새로운 가우시안은 거리가 최소가 되는 두 가우시안으로부터 평균과 분산을 다시 계산하여 생성하였다. 증권상장 회사명(STOCKNAME) 1,680개의 단어 데이터베이스를 구성하여 실험한 결과 바타챠랴 방법은 $97.2\%$의 인식률을 유지하면서 전체 혼합 가우시안 수의 비율을 $1.0\%$로 감소시켰고, 유클리드 방법은 $96.9\%$의 인식률을 유지하면서 혼합 가우시안 수의 비율을 $1.0\%$로 감소시켜 모델을 최적화할 수 있었다.

웹사이트에 게시된 기업의 소개글 분석을 통한 기업의 현재 및 미래 가치 예측 분석 방법 (The Association of Institutional Information on Websites with Present and Future Financial Performance)

  • 나형종;최석재;권오병
    • 한국전자거래학회지
    • /
    • 제23권4호
    • /
    • pp.63-85
    • /
    • 2018
  • 기업의 "회사소개" 페이지는 기업이 중요시하게 여기는 가치가 무엇인지를 소개하고 있다. 본 연구에서는 이에 관한 글이 회사의 현재 및 미래의 재무성과의 연관성을 조사한다. 텍스트 마이닝 기법을 활용하여 2016년의 S&P500 기업의 기관 정보를 분석하여 회사소개 페이지에서 의도적으로 반복되는 단어를 파악하고, 이를 통해 요인분석을 수행하였다. 그 결과 홈페이지의 키워드는 6가지 요인으로 분류될 수 있음을 알 수 있었고, 그후 최소 자승 회귀분석을 수행하여 키워드의 요인과 기업의 현재 재무 성과 사이의 연관성을 결정하였다. 분석 결과 요인 2("구매 경험"과 관련된 키워드)가 현재 재무 성과의 대체 변수인 ROE와 긍정적인 상관관계가 있음을 보여주며, 요인 1("고객에게 알림"과 관련된 키워드)은 ROE와 부정적인 관계를 가짐을 알 수 있었다. 다만, 요인 1은 기업의 미래 재무 성과를 측정하는 대안 변수인 Tobin's Q와 긍정적인 관계가 있었다. 이 결과는 기업의 웹사이트에 소개된 글과 기업의 재무 성과 사이에 관계가 있음을 나타낸다. 따라서 웹 사이트에 대한 기관의 소개글은 현재 회사 성과 및 미래 회사 가치에 대하여 유용한 지표가 될 수 있다.

BERT-Fused Transformer 모델에 기반한 한국어 형태소 분석 기법 (Korean Morphological Analysis Method Based on BERT-Fused Transformer Model)

  • 이창재;나동열
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권4호
    • /
    • pp.169-178
    • /
    • 2022
  • 형태소는 더 이상 분리하면 본래의 의미를 잃어버리는 말의 최소 단위이다. 한국어에서 문장은 공백으로 구분되는 어절(단어)의 조합이다. 형태소 분석은 어절 단위의 문장을 입력 받아서 문맥 정보를 활용하여 형태소 단위로 나누고 각 형태소에 적절한 품사 기호를 부착한 결과를 생성하는 것이다. 한국어 자연어 처리에서 형태소 분석은 가장 핵심적인 태스크다. 형태소 분석의 성능 향상은 한국어 자연어 처리 태스크의 성능 향상에 직결된다. 최근 형태소 분석은 주로 기계 번역 관점에서 연구가 진행되고 있다. 기계 번역은 신경망 모델 등으로 어느 한 도메인의 시퀀스(문장)를 다른 도메인의 시퀀스(문장)로 바꾸는 것이다. 형태소 분석을 기계 번역 관점에서 보면 어절 도메인에 속하는 입력 시퀀스를 형태소 도메인 시퀀스로 변환하는 것이다. 본 논문은 한국어 형태소 분석을 위한 딥러닝 모델을 제안한다. 본 연구에서 사용하는 모델은 기계 번역에서 높은 성능을 기록한 BERT-fused 모델을 기반으로 한다. BERT-fused 모델은 기계 번역에서 대표적인 Transformer 모델과 자연어 처리 분야에 획기적인 성능 향상을 이룬 언어모델인 BERT를 활용한다. 실험 결과 형태소 단위 F1-Score 98.24의 성능을 얻을 수 있었다.