• 제목/요약/키워드: 텍스트 출현 빈도

검색결과 102건 처리시간 0.029초

웹마이닝을 활용한 사이클웨어 소비자 인식 분석 (Analysis of Consumer Awareness of Cycling Wear Using Web Mining)

  • 김춘정;이은주
    • 한국산학기술학회논문지
    • /
    • 제19권5호
    • /
    • pp.640-649
    • /
    • 2018
  • 본 연구는 빅데이터 분석방법 중 하나인 웹마이닝을 이용하여 사이클웨어의 요구성능 및 착용 현황 및 소비자 감성을 분석하였다. 이를 위해 네이버 카페인 '자전거로 출퇴근하는 사람들'을 대상으로 2006년~2017년 기간 동안 사이클웨어와 관련 있는 게시글과 댓글을 R 패키지를 사용하여 크롤링하였다. 수집된 데이터는 데이터 전처리 과정을 거쳐 선별된 15,321건의 문서를 데이터를 분석에 사용하였다. 추출된 데이터에서 텍스트는 한국어형태소분석기(KoNLP)를 사용하여 키워드를 추출한 후 TDM(Term Document Matrix)과 co-occurrence matrix로 변환하여 키워드별 출현 빈도수와 키워드 간 관계를 계산하였다. 사이클웨어에서 가장 출현빈도수가 높았던 키워드는 '타이츠'로 전문적인 사이클웨어에 대한 높은 관심을 나타내었으나 몸에 달라붙어 착용 시 민망하다는 의견이 많았다. 사이클웨어 '구매'와 관련하여 '가격', '사이즈', '브랜드' 등과 관련이 많았으며 '가격'과 관련하여 '저가'와 '가성비'에 대한 출현빈도수가 높았다. 이것은 최근 고가의 브랜드보다는 가격대비 성능을 만족시키는 실용적인 제품들이 선호되는 경향을 나타내주었다. 사이클웨어에서 소재의 흡한속건성이나 패드의 기능성, 불편함 등에 대한 소재나 디자인 등에 대한 개선이 요구되었다. 이처럼 웹마이닝을 이용하여 사이클웨어에 대한 소비자의 의견을 분석할 수 있었으며 기존의 설문조사와도 유사한 결과를 보여주었다. 그러므로 웹마이닝을 이용하여 소비자의 의견이나 요구사항을 실시간으로 분석하여 제품개발에 반영할 수 있는 객관적 지표로 사용할 수 있을 것으로 기대된다.

한국미혼모에 대한 관점 변화와 정부정책의 방향: 1995년~2020년 소셜미디어 빅데이터 분석 (A Study on the Changes in Perspectives on Unwed Mothers in S.Korea and the Direction of Government Polices: 1995~2020 Social Media Big Data Analysis)

  • 서동희;전복선
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.305-313
    • /
    • 2021
  • 본 연구는 1995년부터 2020년까지 기간의 '미혼모', '싱글맘', '비혼모' 키워드를 중심으로 시기별 빅데이터를 수집, 분석하여, 미혼모에 대한 관점 변화에 따른 적절한 정부의 지원정책 방향성을 제시하고자 한다. 자료수집을 위해 빅데이터 수집 플랫폼인 텍스톰을 활용하여 포털검색 사이트 네이버, 다음에서 데이터 수집 후, 데이터를 정제하는 과정을 거쳤다. 최종 정제된 데이터는 텍스톰에서 제공하는 단어빈도분석, TF-IDF 분석, N-gram 분석, UCINET6 프로그램을 통한 Network 분석과 CONCOR 분석을 진행하였다. 연구결과, 단어빈도분석, TF-IDF 분석에서는 유사한 단어들이 출현하였으나 연도별로 차이를 보였고, N-gram 분석에서는 단어 출현의 유사점은 있었으나 빈도수와 연쇄적으로 출현되는 단어들의 형태에 많은 차이가 있었으며 CONCOR 분석결과, 연도별로 다른 군집을 이루는 것을 볼 수 있었다. 본 연구는 미혼모의 관점 변화를 빅데이터의 분석을 통해 확인하고, 독립적인 여성들의 다양한 선택권을 위한 미혼모 정책, 그리고 그에 맞는 차별 없는 임신, 출산, 양육이 새로운 가족의 형태 내로 포용 되는 정책의 필요성을 제언한다.

텍스트 내용분석 방법을 적용한 소프트웨어 교육 요구조사 분석: A대학을 중심으로 (The Study on the Software Educational Needs by Applying Text Content Analysis Method: The Case of the A University)

  • 박금주
    • 한국산학기술학회논문지
    • /
    • 제20권3호
    • /
    • pp.65-70
    • /
    • 2019
  • 본 연구는 대학생을 대상으로 시행되고 있는 소프트웨어 교육의 강의평가결과에 대해 텍스트 내용분석 방법을 적용하여 수강생의 요구사항을 파악하고 개선방안을 도출하는 데 목적이 있다. 연구방법은 텍스트 내용분석 프로그램을 활용해 단어출현빈도, 핵심단어 선정, 핵심단어의 공출현빈도를 산출하고, 네트워크 분석 프로그램을 활용해 텍스트 중앙성 분석, 네트워크 분석을 실시하였다. 연구결과, 소프트웨어 교육의 좋은 점 네트워크는 '교수님'에 대한 언급이 가장 많고 '친절', '학생', '설명', '코딩'과 함께 언급되고 있다. 개선점 네트워크는 '강의'에 대한 언급이 가장 많고 '좋겠다', '학생', '교수님', '과제', '코딩', '어려운', '발표'가 함께 언급되었다. 좋은 점과 개선점에 대한 네트워크 비교 분석에서 공통으로 언급된 핵심 단어 중 조별(활동), 과제, 수업의 난이도, 교수자에 대한 생각에서 차이를 보였다. 이러한 생각 차이는 강의평가 내용을 통해, 개별 조원의 적절한 역할 부족, 어렵고 과다한 과제, 소프트웨어 교육의 난이도와 필요성에 대한 인식, 교수자의 수업방식과 피드백의 부족을 확인할 수 있었다. 따라서, 소프트웨어 교육의 조별(활동)과 과제부여가 어떻게 이루어지고 있는지 살펴보고 강의내용과 교수방법, 실습과 디자인 싱킹을 다루는 비율에 대한 점검이 필요하다.

대어휘 연속음성 인식을 위한 결합형태소 자동생성 (Automatic Generation of Concatenate Morphemes for Korean LVCSR)

  • 박영희;정민화
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.407-414
    • /
    • 2002
  • 본 논문에서는 형태소를 인식 단위로 하는 한국어 연속음성 인식의 성능 개선을 위해 결합형태소를 자동으로 생성하는 방법을 제시한다. 학습코퍼스의 54%를 차지하고 오인식의 주요인이 되는 단음절 형태소를 감소시켜서 인식 성능을 높이는 것을 목적으로 한다. 품사의 접속 규칙을 이용한 기존의 지식기반의 형태소 결합방법은 접속 규칙의 생성이 어렵고, 학습 코퍼스에 나타난 출현 빈도를 반영하지 못하여 저빈도 결합형태소를 다수 생성하는 경향을 보였다. 본 논문에서 제시하는 방법은 학습데이터의 통계정보를 이용하여 결합형태소를 자동 생성한다. 결합할 형태소 쌍 선정을 위한 평가척도로는 형태소 쌍의 빈도, 상호정보, 유니그램 로그 유도값(unigram log likelihood)을 이용하였고 여기에 한국어의 특성 반영을 위해 단음절 형태소 제약과 형태소 결합길이를 제한하는 두개의 제약사항을 추가하였다. 학습에 사용된 텍스트 코퍼스는 방송뉴스와 신문으로 구성된 7백만 형태소이고, 최빈도 2만 형태소 다중 발음사전을 사용하였다. 세가지 평가척도 중 빈도를 이용한 것의 성능이 가장 좋았고 여기에 제약조건을 반영하여 성능을 더 개선할 수 있었다. 특히 최대 결합 길이를 3으로 할 때의 성능이 가장 우수하여 언어모델 혼잡도는 117.9에서 97.3으로 18%감소했으며, 형태소 에러율 (MER: Morpheme error rate)은 21.3%에서 17.6%로 감소하였다. 이때 단음절 형태소는 54%에서 30%로 24%가 감소하였다.

텍스트마이닝 기술을 이용한 공간정보 분야의 연구 동향에 관한 고찰 -국가연구개발사업 보고서 및 논문을 중심으로- (A Study on the Research Trends in the Area of Geospatial-Information Using Text-mining Technique Focused on National R&D Reports and Theses)

  • 임시영;이미숙;진기호;신동빈
    • Spatial Information Research
    • /
    • 제22권4호
    • /
    • pp.11-20
    • /
    • 2014
  • 본 연구의 목적은 텍스트마이닝 기법을 활용하여 공간정보 분야의 연구동향을 파악하는 것이다. 이를 위하여 국가과학기술도서관에서 국가연구개발보고서와 논문을 추출하여 키워드에 대한 전처리를 수행한 후 분야별로 정리하였다. 정리된 키워드들을 통해 보고서 및 논문에서 키워드의 시기별 출현 빈도 및 변화를 살펴보고 이를 통해 공간정보 분야의 연구동향을 확인하였다. 분석결과 공간정보 분야에서는 시스템 관련 연구가 줄어드는 반면 활용 관련 연구가 늘어가는 추세가 있음을 확인하였다.

FolksoViz: Wikipedia 본문을 이용한 상하위 관계 기반 폭소노미 시각화 기법 (FolksoViz: A Subsumption-based Folksonomy Visualization Using the Wikipedia)

  • 이강표;김현우;장충수;김형주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권4호
    • /
    • pp.401-411
    • /
    • 2008
  • 다수의 사용자들의 협력태깅으로 생성되는 폭소노미는 웹 2.0을 이끌고 있는 대표적인 요소이다. 태그는 어떤 웹 문서를 기술하는 웹 메타데이타라고 할 수 있는데, 협력태깅으로 이루어진 태그들 사이의 의미적인 상하위 관계를 밝혀내 이를 시각화한다면, 사용자들이 문서의 메타데이타를 보다 직관적으로 이해하는 데 도움을 줄 수 있다. 이에 본 논문에서는 del.icio.us의 태그들을 대상으로 하여, Wikipedia 텍스트를 이용한 태그들간 상하위 관계 산출 기법을 제안한다. 이를 위해 태그들이 Wikipeida 텍스트상에서 출현하는 빈도수를 기반으로 태그들간 상하위 관계를 산출하는 통계적인 모델링을 제안하였고, 각각의 태그를 그에 상응하는 Wikipedia 텍스트에 매핑시키는 TSD 기법을 제안하였다. 이렇게 산출된 상하위 관계 짝들은 시각화 기법을 통하여 효과적으로 화면에 표현되었다. 실제로 우리가 제안하는 알고리즘이 태그들간의 상하위 관계들을 높은 정확도로 찾아내었음을 실험을 통해 확인하였다.

술어기반 문형정보를 이용한 자동요약시스템에 관한 연구 (A Study on an Automatic Summarization System Using Verb-Based Sentence Patterns)

  • 최인숙;정영미
    • 정보관리학회지
    • /
    • 제18권4호
    • /
    • pp.37-55
    • /
    • 2001
  • 본 연구에서는 특정 주제분야의 텍스트를 대표할 수 있는 단어술어를 추출하고 기본문형을 형성 한 후 각 단서술어의 기본문형을 실례화하여 연결함으로써 요약문을 작성하는 자동요약시스템의 모형을 설계하고 구현하였다. 시스템은 학습과정과 요약과정을 구분되며, 학습과정에서는 술어와 격조사를 출현빈도를 이용하여 주제분야 텍스트집단을 대표하는 단어술어와 필수격 조사를 추출한 뒤 단어술어가 이루는 문장의 기본문형을 형성한다. 요약과정에서 실례화 규직을 요약 대상 문장의 구문 분석 결과에 적용하여 기본문형의 격조사와 결합될 논항을 찾아 단문을 생성하고 연결하여 요약문을 완성한다. ‘화재’및‘강도’와 관련된 신문기사를 대상으로 실험을 수행하였으며, 작성된 요약문은 단어술어가 포함된 주요 문장에서 추출한 필수 정보항목과 술어를 중심으로 생성된 문장들로서 문장간의 연결이 자연스러울 뿐 아니라 텍스트의 전체적인 의미를 표현할 수 있었다. 또한, 통계적 기법을 이용한 학습을 통해 주제영역의 확장이 가능하였다.

  • PDF

텍스트 마이닝과 연관 관계 분석을 이용한 건축역사 용어 분석 (Analyzing Architectural History Terminologies by Text Mining and Association Analysis)

  • 김민정;김철주
    • 디지털융복합연구
    • /
    • 제15권1호
    • /
    • pp.443-452
    • /
    • 2017
  • 건축의 한 분야인 동시에 역사학의 한 분야이기도 한 건축역사는 건축양식의 변천을 다루기는 하나 사회적, 경제적, 문화적, 기술적 상황 등의 시대 배경을 종합적으로 고찰할 필요가 있다. 그러므로 건축역사에서 주로 사용되는 용어는 다양한 분야를 아우를 수밖에 없다. 따라서 본 연구에서는 건축역사 관련 문헌을 대상으로 텍스트 마이닝과 연관 관계 분석을 수행하여 어떤 용어가 건축역사에서 핵심적인 용어인지를 파악해보았다. 우선 국내 건축역사 분야 유일한 학술지인 "건축역사연구"를 선정하여 지금까지 게재된 논문의 제목과 주제어, 초록에 사용된 용어 중 고빈도로 출현하는 핵심 용어들을 도출하였다. 다음으로 연구 분야별 문헌들을 구분하여 핵심 용어의 특징을 분석하였다. 마지막으로, 연관 관계 분석을 통해 핵심 용어들 간에 유기적인 관계를 분석하고 시각화하였다. 이러한 건축역사 핵심 용어의 파악은 건축역사 분야의 지금까지의 논의 내용과 향후 방향성을 이해하는데 유용할 것이다.

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

특허와 뉴스 기사를 이용한 가상현실 기술에 관한 탐색적 연구 (An Exploratory Study of VR Technology using Patents and News Articles)

  • 김성범
    • 디지털융복합연구
    • /
    • 제16권11호
    • /
    • pp.185-199
    • /
    • 2018
  • 이 연구의 목적은 가상현실(VR)의 핵심기술을 특허 분석을 통해서 도출하고 VR에 대한 사회와 대중의 관심을 뉴스 분석을 통해서 탐색하는 것이다. 연구1에서는 특허 텍스트의 단어 출현 빈도를 이용하여 핵심 키워드를 도출하고 업체별, 연도별, 기술 분류별 비교를 하였으며, 네트워크 분석 프로그램인 넷마이너를 사용하여 특허의 IPC 코드를 분석하였다. 연구2에서는 뉴스 기사의 텍스트를 내용분석 도구인 T-LAB 프로그램을 사용하여 분석하였다. 키워드 선정을 위해 TF-IDF를 사용하였고, 카이제곱과 연관지수(Association index) 알고리즘을 사용하여 VR과 관련성이 높은 단어를 추출하였다. 이 연구를 통해 VR 기술이 광학과 머리착용디스플레이(HMD), 데이터 분석, 전기, 전자 기술을 포함하는 융합기술임을 확인하였고, 광학기술이 중심적 기술임을 발견하였다. 뉴스 기사를 통해서는 대중은 VR 공급업체와 시장의 형성과 성장에 관심을 가지며 VR은 사용자 경험에 기초해서 개발되어야 함을 도출하였다.