• 제목/요약/키워드: Morpheme Analysis

검색결과 122건 처리시간 0.024초

개체추출기법을 이용한 관계성 도출기법 (A Study of Relationship Derivation Technique using object extraction Technique)

  • 김종희;이은석;김정수;박종국;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.309-311
    • /
    • 2014
  • 최근, 산재된 비정형 데이터 분석 등을 통한 빅데이터 활용에 대한 요구들이 증가하고 있으나, 아직까지 이에 대한 연구들이 부족한 실정이다. 따라서 본 연구에서는 수집된 웹 정보에서 개체들을 추출하여 이들 간의 관계를 집단지성 기술과 언어처리 기술을 통해 자동 분석해 냄으로써 문장단위의 의미기반 분석을 할 수 있는 기법을 제시한다. 이를 위해, 수집된 정보를 DBMS에 정형화된 형태로 저장한 후 형태소와 자질정보를 분석한다. 획득한 형태소 중 관심개체, 주변개체, 비관심 개체를 분류하고 개체간 속성인식기법을 이용하여 각 개체간의 관계를 정도, 범위, 성격 등으로 분석한다. 그 결과, 긍정 부정의 판단이 가능한 개체간의 관계성 도출기법을 제시함으로써, 특정 키워드를 대상으로 분석된 정보들의 연관도를 분석할 수 있었다. 이 연구를 통해, 최근 실시간 대용량 처리 시스템에 적합한 시스템을 설계하여 이를 부가가치가 높은 서비스에 적용할 수 있는 방법을 제시하였다.

  • PDF

텍스트 마이닝과 네트워크 이론을 활용한 권역별 국가하천 점용허가 키워드 분석 (Analysis of Keywords in national river occupancy permits by region using text mining and network theory)

  • 정성윤
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.185-197
    • /
    • 2023
  • 점용허가 정보를 기록하는 단순 용도로만 사용되고 있는 허가 대장에서 허가 내용에 내재한 점용 신청과 허가업무 수행에 유용한 정보를 추출하기 위해 텍스트 마이닝과 네트워크 이론을 활용하여 본 연구를 진행하였다. 텍스트 마이닝 기반으로 불용어 제거와 형태소 분석 등 정규화 과정을 비롯하여 서울·경기, 경상, 전라, 충청, 강원 등 5개 권역별로 어휘 출현 빈도와 토픽 모델링을 분석, 비교하였다. 네트워크 이론에 가정 많이 사용되는 단계, 근접, 매개 및 고유벡터 등 4종의 중심성 알고리즘을 적용하여 네트워크에서 중심적인 위치에 있거나 중간 매개체 역할을 하는 키워드를 살펴보았다. 이러한 어휘 출현 빈도, 토픽 모델링 및 네트워크 중심성을 종합적으로 분석하여 모든 권역에서 '설치' 키워드가 가장 영향력이 큰 것을 알 수 있었다. 이는 환경부의 허가관리청에서는 시설물을 건설하거나 공작물을 설치하는 허가가 많아서 나타난 결과라고 판단된다. 또한, 도로 시설, 치수 시설, 지하 매설 시설, 전력·통신 시설, 체육·공원 시설 등과 연관된 키워드가 토픽 모델링과 네트워크에서 중심적 위치에 있거나 중간 매개체의 역할을 하는 것을 알 수 있었다. 키워드 대부분은 출현 빈도와 분포 비율이 낮은 짚프의 원칙(Zipf' Law)의 통계분포 형태를 보이는 것으로 보였다.

텍스트마이닝을 활용한 러닝 어플리케이션 사용자 리뷰 분석: Nike Run Club과 Runkeeper를 중심으로 (Analysis of User Reviews of Running Applications Using Text Mining: Focusing on Nike Run Club and Runkeeper)

  • 류기문;김일광
    • 산업융합연구
    • /
    • 제22권4호
    • /
    • pp.11-19
    • /
    • 2024
  • 본 연구의 목적은 텍스트마이닝을 활용하여 러닝 어플리케이션 사용자의 리뷰를 분석하였다. 본 연구는 python3의 selenium 패키지를 이용하여 google playstore의 Nike Run Club, Runkeeper의 사용자 리뷰들을 분석자료로 이용하였으며, okt 분석기를 통해 한글 명사만을 남겨 형태소를 분리하였다. 형태소 분리 후 rankNL 사전을 만들어 불용어(stopword)를 제거하였다. 자료 분석을 위해 텍스트마이닝의 TF(빈도분석), TF-IDF(키워드 빈도-문서 역빈도), LDA 토픽모델링을 통해 분석하였다. 본 연구의 결과는 다음과 같다. 첫째, Nike Run Club, Runkeeper 어플리케이션 사용자 리뷰에서 공통적으로 상위 키워드로 '기록', '앱', '운동'의 키워드가 도출되었으며 TF, TF-IDF의 순위에는 차이가 나타났다. 둘째, Nike Run Club의 LDA 토픽모델링으로 '기본 항목', '추가 기능', '오류 사항', '위치기반데이터'의 토픽이 도출되었고 Runkeeper는 '오류 사항', '음성 기능', '러닝 데이터', '사용 혜택', '사용 동기'의 토픽이 도출되었다. 결과를 통해 제언하면 어플리케이션의 경쟁력 향상을 기여하기 위해 오류 및 개선사항을 보완해야 한다.

온라인 상품 판매 성과에 영향을 미치는 상품 소개글 효과 측정 기법 (Measuring the Economic Impact of Item Descriptions on Sales Performance)

  • 이동원;박성혁;문송천
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.1-17
    • /
    • 2012
  • 온라인 상에서 판매되는 상품은 매우 다양하지만, 소비자에게 판매 가격을 제시하거나 소개글을 통해서 상품에 대한 구체적인 설명을 제공한다는 점은 모든 상품에 있어서 가장 기본이 되는 공통적인 특징이다. 만약, 상품의 실제 품질이나 가격과는 독립적으로 상품 소개글이 판매에 미치는 영향력을 파악할 수 있다면 어떠한 소개글이 상품의 판매를 촉진하는 측면에서 더 좋은 글인지 분별할 수 있게 된다. 이런 관점에서 본 연구는 상품 소개글과 판매 성과의 관계를 파악하기 위한 목적으로 수행되었으며, 구체적으로는 온라인 시장에서 한글로 작성된 상품 소개글에 쓰인 각각의 표현 별로 소비자가 구매를 결정하는 데에 어떤 영향을 미치는지를 분석하고자 하였다. 한글 형태소 분석기를 사용하여 국내 앱 시장에서 수집된 앱 소개글 및 판매이력 데이터로부터 상품을 설명하는 주요 속성과 그 속성에 대한 평가를 추출하였으며, 추출된 키워드를 입력 변수로 구성한 계량경제학 모형을 구축하였고, 구체적으로 특정 표현들이 판매 성과에 미치는 영향을 구축된 모형을 사용하여 계량적으로 측정하였다. 앱의 카테고리 별로 표현의 종류가 상이하게 나타남이 관찰됨에 따라, 분석은 각 카테고리 별로 수행되었다. 유료 앱과 무료 앱에 대해서 데이터 분석을 수행한 결과, 판매 성과에 영향을 미치는 '속성과 평가' 키워드를 그 영향력의 크기 별로 파악할 수 있었으며, 특히 무료 앱의 경우는 무료로 이용할 수 있음에도 불구하고 품질이 좋다는 것을 강조했을 때 판매량을 더 높일 수 있다는 것이 확인되었다. 본 연구는 모바일 앱에 대해 수행되었으나, 온라인에서 거래되는 다양한 상품에 대해서도 소개글이 판매 성과에 미치는 영향을 분석할 수 있는 모형으로 활용될 수 있다. 마지막 장에서는 기업의 마케팅 매니저가 본 연구에서 제시하는 연구 방법론과 분석 결과를 활용할 수 있는 방안을 제시하였다.

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

발달성 읽기 장애 진단을 위한 단어/비단어 읽기 검사와 글자기호감별검사의 표준화 연구 (STANDARDIZATION OF WORD/NONWORD READING TEST AND LETTER-SYMBOL DISCRIMINATION TASK FOR THE DIAGNOSIS OF DEVELOPMENTAL READING DISABILITY)

  • 조수철;이정범;정동선;신성웅
    • Journal of the Korean Academy of Child and Adolescent Psychiatry
    • /
    • 제14권1호
    • /
    • pp.81-94
    • /
    • 2003
  • 목 적:발달성 읽기 장애는 정상적인 읽기 능력의 현저한 발달 저하나 지속적인 오류를 보이는 질환이며, 학령기 아동의 $3{\sim}7$%에서 관찰된다. 기존에 사용되는 기초학습기능검사의 단점을 보완하고 발달성 읽기 장애의 진단과 평가를 위해 단어/비단어 읽기 검사와 글자기호감별검사의 신뢰도와 타당도를 검증하였다. 방 법:DSM-IV의 진단 기준과 임상적인 판단에 근거하여 읽기 장애 아동 63명(평균 연령 10.48세)과 정상 아동 77명(평균 연령 10.33세)을 대상으로 하였다. 이들에게 기초학습기능검사의 읽기 I과 II목을 실시하였고, 단어/비단어 읽기 검사와 글자기호감별검사를 시행하였다. 단어/비단어 읽기 검사는 각 100문항씩의 익숙한 단어와 의미를 갖지 않는 생소한 비단어를 각각 1.2초와 2.4초안에 읽도록 하여, 이를 통해 자동화된 음운 처리 능력과 의식적인 글자-음소 처리 능력을 평가하였다. 글자기호감별검사를 통해 읽기 장애 환자들이 오류를 일으키는 거울상 반전 글자들의 조합을 판별하는 능력을 검사하였다. 이들 검사의 내적 일치도 등의 신뢰도 검사와 공존타당도, 구성타당도, 판별타당도 등을 검증하였다. 결 과:단어/비단어 읽기 검사는 내적 일치도가 0.96으로서 신뢰할 수 있고, 기초학습기능검사와 0.94의 공존타당도를 나타내었으며, 단어와 비단어 모두 발달성 읽기 장애와 정상 아동을 통계적으로 구분할 수 있었고, 판별 분석에서 원집단에 속한 83.0%를 정확하게 판별할 수 있었다. 글자기호감별검사는 내적 일치도가 0.86으로서 신뢰할 수 있고, 기초학습기능검사와 0.86의 공존타당도를 나타내었으며, 요인 분석 결과 안구 운동 거울상 처리, 전반적 정확성, 거울상 반전 오류, 정지상 처리, 전반적 기민성 부족, 부주의-충동성 등의 여섯 요인으로 구성되어 있었다. 글자기호감별검사의 각 항목 별로 발달성 읽기 장애와 정상 아동을 통계적으로 구분할 수 있었으며, 판별분석에서 원집단에 속한 대상의 87.3%를 정확하게 판별할 수 있었다. 결 론:발달성 읽기 장애 아동은 읽기 과정의 자동적인 시각-의미 연결 기전과 의식적인 형태소-음소 상응 규칙 적용 능력 모두에서 장애를 보였으며, 거울상 반전 오류 등 시각적 정보 처리 기능의 장애도 나타내었다. 이들 장애는 단어/비단어 읽기 검사와 글자기호감별검사를 통해 신뢰할 수 있고 타당성 있게 구분하고 평가할 수 있었다.

  • PDF

뉴스와 주가 : 빅데이터 감성분석을 통한 지능형 투자의사결정모형 (Stock-Index Invest Model Using News Big Data Opinion Mining)

  • 김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.143-156
    • /
    • 2012
  • 누구나 뉴스와 주가 사이에는 밀접한 관계를 있을 것이라 생각한다. 그래서 뉴스를 통해 투자기회를 찾고, 투자이익을 얻을 수 있을 것으로 기대한다. 그렇지만 너무나 많은 뉴스들이 실시간으로 생성 전파되며, 정작 어떤 뉴스가 중요한지, 뉴스가 주가에 미치는 영향은 얼마나 되는지를 알아내기는 쉽지 않다. 본 연구는 이러한 뉴스들을 수집 분석하여 주가와 어떠한 관련이 있는지 분석하였다. 뉴스는 그 속성상 특정한 양식을 갖지 않는 비정형 텍스트로 구성되어있다. 이러한 뉴스 컨텐츠를 분석하기 위해 오피니언 마이닝이라는 빅데이터 감성분석 기법을 적용하였고, 이를 통해 주가지수의 등락을 예측하는 지능형 투자의사결정 모형을 제시하였다. 그리고, 모형의 유효성을 검증하기 위하여 마이닝 결과와 주가지수 등락 간의 관계를 통계 분석하였다. 그 결과 뉴스 컨텐츠의 감성분석 결과값과 주가지수 등락과는 유의한 관계를 가지고 있었으며, 좀 더 세부적으로는 주식시장 개장 전 뉴스들과 주가지수의 등락과의 관계 또한 통계적으로 유의하여, 뉴스의 감성분석 결과를 이용해 주가지수의 변동성 예측이 가능할 것으로 판단되었다. 이렇게 도출된 투자의사결정 모형은 여러 유형의 뉴스 중에서 시황 전망 해외 뉴스가 주가지수 변동을 가장 잘 예측하는 것으로 나타났고 로지스틱 회귀분석결과 분류정확도는 주가하락 시 70.0%, 주가상승 시 78.8%이며 전체평균은 74.6%로 나타났다.

'신선(神仙)'을 지명소(地名素)로 하는 바위명의 유형과 입지특성 (Types and Site Characteristics of Rocks with Sinsun Relevant Place Name Morpheme)

  • 노재현;박주성;심우경
    • 한국전통조경학회지
    • /
    • 제29권3호
    • /
    • pp.61-77
    • /
    • 2011
  • 본 연구는 문헌 및 인터넷조사를 중심으로 민간어원적으로 신선사상의 흔적이 장소와 결합하여 고착화된 '신선[仙]' 관련 바위 지명어에 주목하였다. 특히 신선 지명소를 포함한 대표적 지명의 유형을 분류하는 한편, 각 신선 지명별 입지 및 장소 특성을 개관함으로써 바위 지명에 남겨진 신선과 관련된 문화의 흔적을 조명하였다. 본 연구 결과를 요약하면 다음과 같다. 1. 신선 관련 바위지명 중 가장 흔하게 발견되는 지명은 신선바위(52개소)였으며, 이어서 신선봉(38개소), 신선대(31개소) 등의 지명이 압도적으로 많이 발견되었다. 그밖에 강선대(12개소), 선유대(10개소), 사선대(5개소) 등의 순으로 나타났다. 2. 신선대는 '대(臺)' 라는 대상 자체의 경관성도 뛰어나지만 원경의 부감경관(俯瞰景觀) 조망이 탁월함 곳에 입지하고 있다. 3. 신선봉의 위치는 해당 산의 최고봉 그 자체를 의미하기도 하지만 봉(峰)의 의미에는 '하늘과 맞닿아 있는' 그리고 '우러러 올려보는' 등의 숭배의 개념이 내포된 공간이다. 4. 신선봉에는 신선바위와 같이 '신선 바둑' 또는 '신선 하강'과 관련된 전설을 잉태하고 있는 지명도 상당수 있었는데 '신선과 바둑'은 신선 지명 바위의 민간어원설을 이끄는 매우 중요한 모티프가 되고 있다. 그리고 신선대와 함께 신선바위는 내륙은 물론 해양경관이 수려한 바닷가 암상 위에도 다수 존재하고 있다. 5. 신선 바위가 위치한 고도 분석 결과, 신선봉-신선대-신선바위 순으로 '해당 위치'뿐만 아니라 '지명이 속한 최고봉의 높이' 역시 동일한 순으로 나타났다. 이는 신선봉이 산의 정상에 위치하거나 단일 산봉의 명칭으로 불리고 있음에 기인된다. 이에 비해 신선대는 대부분 파노라믹한 원경이 부감되는 곳으로, 정상은 아니더라도 신선경(神仙境)을 이루는 듯한 조망이 펼쳐지는 곳에 입지하였다. 그러나 신선바위는 높은 곳에 위치한 경우와 높지는 않지만 인가에서 멀리 떨어지지는 않았지만 암경(巖景)이 수려하고 계곡이 잘 발달된 곳에 입지하고 있는 경우도 많은 것으로 보아 고도 보다는 장소성에 기인된 지명임을 알 수 있다. 6. 신선지명을 보이는 곳의 암경적 특성은 숭배 대상의 시각적 존재감이 인정되고, 숭배 주체의 태도와도 밀접하게 관련된 것으로 보인다. 또한 숭배대상과 숭배주체의 소통방식과 깊이 관련되고 있는데 이는 신선 바위지명의 민간어원설을 이끄는 주요 사유인 것으로 보인다. 7. 신선사상이 시대 변천에 따라 점차 가시적이며 현실적 차원으로 우리 곁에서 구현되어 왔음을 가장 여실이 보여주는 대상이 바로 지명으로 표상(表象)되는 '신선[仙] 바위'이다.

광제정(光霽亭) 장소 전승의 함의와 의미맥락 (Implication and Its Meaning Contact of Gwangje-jeong's Place Transmission)

  • 노재현;이석우;이정한;정경숙;김영숙
    • 한국전통조경학회지
    • /
    • 제29권3호
    • /
    • pp.40-51
    • /
    • 2011
  • 본 연구는 전북 임실군 삼계면에 소재한 광제정의 건립 배경 및 연혁 그리고 장소 및 공간특질에 대한 분석과 해석을 통해 광제정 조영 및 이건(移建)에 담긴 상징과 장소적 함의를 추찰(推察)할 목적으로 시도되었다. 옛 광제정 터와 현 광제정에 대한 '물리적 환경 인간활동 상징성과 의미'를 중심으로 해석할 때 다음과 같은 장소성과 장소전승의 의미가 도출되었다. 정명(亭名)의 '광제(光霽)'란 선비로서 혼탁한 속세에 물들지 않겠다는 매당(梅堂) 양돈(楊墩)의 지조를 상징하며, 이는 매당 생존의 시대상황과 무관치 않다. 광제정의 누정제영을 통해, 은일을 실현코자 한 매당의 심정과 광풍제월의 마음으로 우뚝 선 기상이 엿보인다. 광제정중건기를 통해 볼 때 광제정에 매화를 심고 광제라는 현판을 내건 주체가 바로 매당 자신이며 매당뿐만 아니라 사후에도 광제정은 매당을 기리는 상징물로 존재해 왔는데 이는 경사지를 이용해 조성된 돈대(墩臺)와 매화 식재에서도 확인된다. 또한 광제정 입구 '숙호(宿虎)마을'과 광제정 우측으로 돌출된 '복호암(伏虎巖)'은 매당을 배향하는 공간이라는 장소성이 함축된 표현이며, 이곳에 새겨진 양집하의 5언시에도 매당을 추념하는 공간 아계사(阿溪祠)의 장소성이 잘 묘사되어 있다. 매당을 배향한 아계사가 고종5년(1868) 훼철되면서 그 유지(遺址)는 '광제정 이건을 위한 터'로의 쓰임새를 보였다. 광제정 건립 이후 최소 359년간 이어져 왔던 후천리 옛 광제정 터와 그 주변은 광제정의 이건에도 불구하고 '광제정 광제마을 광제교 광제천' 등의 지명 속에 '광제'라는 전부지명소로 남아 매당을 기리는 장소로 전승되고 있다. 광제정은 남원 양씨 종중의 '연대의 공간'이라는 뚜렷한 구심적 장소로, 전승될 수 있었던 배후에는 선조의 덕업을 숭상하며 시대적 고민을 함께한 후손과 종중 및 교우자 간의 동료의식이 크게 작용한 것으로 풀이된다. 또한 장소 전승의 이면에는 매당의 인품과 '광풍제월'의 기상을 기리고자 하는 추모의 정 그리고 선조의 덕업을 이어받아 지켜나가는 '봉선(奉先)'의 정신이 깊이 작용했던 것으로 해석된다.