• 제목/요약/키워드: 단어빈도

검색결과 542건 처리시간 0.024초

밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구 (A Case Study on Text Analysis Using Meal Kit Product Review Data)

  • 최혜선;연규필
    • 한국콘텐츠학회논문지
    • /
    • 제22권5호
    • /
    • pp.1-15
    • /
    • 2022
  • 본 연구에서는 밀키트 제품 평가에 영향을 미치는 요인을 파악하기 위하여 밀키트 제품 리뷰 데이터에 대한 텍스트 분석을 수행하였다. 분석에 사용된 자료는 네이버 쇼핑 사이트에서 판매되고 있는 밀키트 제품에 대한 리뷰 334,498건을 스크래핑하여 수집하였다. 텍스트 자료에 대한 전처리 과정을 거쳐 제품 리뷰에 빈번히 등장하는 단어를 추출한 후 워드클라우드 및 감성분석을 수행하였다. 감성분석시 제품 리뷰에 대한 긍정 또는 부정의 레이블은 평점을 기준으로 설정하여 반응변수로 활용하였고, 입력변수로는 단어들의 정규화 단어빈도-역문서빈도 (TF-IDF) 값을 구하여 사용하였다. 리뷰의 극성을 판별하는 모형으로는 로지스틱 회귀모형, 서포트 벡터 머신, 랜덤 포레스트 알고리즘을 적용하였으며, 분류 정확도 및 해석가능성을 고려하여 로지스틱 회귀모형을 최종 모형으로 선택한 후 제품 범주별 감성분석 모형으로 사용하였다. 각 제품 범주별로 도출된 로지스틱 회귀모형으로부터 밀키트 제품 구매 후 긍·부정의 감성을 발생시킨 주요 요인들을 밝혀내었다. 결과적으로 텍스트 분석을 통해 밀키트 제품 개발 시 특정 카테고리, 메뉴, 재료에 대한 긍정 요소를 극대화하고 부정적 위험 요소를 제거할 수 있는 기반을 제공할 수 있음을 확인하였다.

키워드 출현 빈도 분석과 CONCOR 기법을 이용한 ICT 교육 동향 분석 (Analysis of ICT Education Trends using Keyword Occurrence Frequency Analysis and CONCOR Technique)

  • 이영석
    • 산업융합연구
    • /
    • 제21권1호
    • /
    • pp.187-192
    • /
    • 2023
  • 본 연구는 기계학습의 키워드 출현 빈도 분석과 CONCOR(CONvergence of iteration CORrealtion) 기법을 통한 ICT 교육에 대한 흐름을 탐색한다. 2018년부터 현재까지의 등재지 이상의 논문을 'ICT 교육'의 키워드로 구글 스칼라에서 304개 검색하였고, 체계적 문헌 리뷰 절차에 따라 ICT 교육과 관련이 높은 60편의 논문을 선정하면서, 논문의 제목과 요약을 중심으로 키워드를 추출하였다. 단어 빈도 및 지표 데이터는 자연어 처리의 TF-IDF를 통한 빈도 분석, 동시 출현 빈도의 단어를 분석하여 출현 빈도가 높은 49개의 중심어를 추출하였다. 관계의 정도는 단어 간의 연결 구조와 연결 정도 중심성을 분석하여 검증하였고, CONCOR 분석을 통해 유사성을 가진 단어들로 구성된 군집을 도출하였다. 분석 결과 첫째, '교육', '연구', '결과', '활용', '분석'이 주요 키워드로 분석되었다. 둘째, 교육을 키워드로 N-GRAM 네트워크 그래프를 진행한 결과 '교육과정', '활용'이 가장 높은 단어의 관계로 나타났다. 셋째, 교육을 키워드로 군집분석을 한 결과, '교육과정', '프로그래밍', '학생', '향상', '정보'의 5개 군이 형성되었다. 이러한 연구 결과를 바탕으로 ICT 교육 동향의 분석 및 트렌드 파악을 토대로 ICT 교육에 필요한 실질적인 연구를 수행할 수 있을 것이다.

한국어 어휘판단과제와 관련된 언어현상의 인간과 계산주의 모델의 비교 (A Comparison Study between Human and Computation Model on Language Phenomena of in Korean Lexical Decision Task)

  • 임희석;권유안;박기남
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.33-37
    • /
    • 2006
  • 본 논문은 어휘판단과제(LDT: Lexical Decision Task)시 나타나는 여러 언어현상 중 단어빈도효과(word frequency effect)와 단어유사성효과(word similarity effect)를 한국어에 적용시켜 인간과 계산주의적 모델을 통해 실험하고, 결과를 비교하였다. 실험결과 인간과 계산주의적 모델 각각 한국어에 대해 단어빈도효과와 단어 유사성효과를 보였으며, 인간의 실험결과와 계산주의적 모델의 결과가 유의미한 유사성을 나타내었다.

  • PDF

한국어 어휘판단과제와 관련된 언어현상의 인간과 계산주의 모델의 비교 (A Comparison Study between Human and Computation Model on Language Phenomena of in Korean Lexical Decision Task)

  • 박기남;임희석
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2006년도 춘계학술발표논문집
    • /
    • pp.391-393
    • /
    • 2006
  • 본 논문은 어휘판단과제(LDT: Lexical Decision Task)시 나타나는 여러 언어현상 중 단어빈도효과(word frequency effect)와 단어유사성효과(word similarity effect)를 한국어에 적용시켜 인간과 계산 주의적 모델을 통해 실험하고, 결과를 비교하였다. 실험결과 인간과 계산주의적 모델 각각 한국어에 대해 단어빈도효과와 단어 유사성효과를 보였으며, 인간의 실험결과와 계산주의적 모델의 결과가 유의미한 유사성을 나타내었다.

  • PDF

질의 어휘와의 근접도를 반영한 단어 그래프 기반 질의 확장 (Query Expansion based on Word Graph using Term Proximity)

  • 장계훈;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.37-42
    • /
    • 2012
  • 잠정적 적합성 피드백모델은 초기 검색 결과의 상위에 순위화된 문서를 적합 문서라 가정하고, 상위문서에서 빈도가 높은 어휘를 확장 질의로 선택한다. 빈도수를 이용한 질의 확장 방법의 단점은 문서 안에서 포함된 어휘들 사이의 근접도에 상관없이 각 어휘를 독립적으로 생각한다는 것이다. 본 논문에서는 어휘빈도를 이용한 질의 확장을 대체할 수 있는 어휘 근접도를 반영한 단어 그래프 기반 질의 확장을 제안한다. 질의 어휘 주변에 발생한 어휘들을 노드로 표현하고, 어휘들 사이의 근접도를 에지의 가중치로 하여 단어 그래프를 표현한다. 반복된 연산을 통해 확장 질의를 선택함으로써 성능을 향상시키는 기법을 제안한다. 유효성 검증을 위해 웹문서 집합인 TREC WT10g 테스트 컬렉션에 대한 실험에서 언어모델 보다 MAP 평가 기준에서 6.4% 향상됨을 보였다.

특허 발명의 명칭에 쓰인 단어를 이용한 기술동향 분석 연구 (Analysis of Technology Trends from Words in Patent Titles)

  • 김태중;이명선;최호남
    • 한국콘텐츠학회논문지
    • /
    • 제10권4호
    • /
    • pp.433-437
    • /
    • 2010
  • 특허는 중요한 과학기술 연구 성과물을 담고 있다. 과학기술용어의 사용 빈도를 활용해 기술동향을 분석하는 연구가 있으나 용어는 종종 분야에 따라 다른 의미로 사용된다. 이 논문에서는 2000년부터 2008년 까지 매 2년 주기의 미국, 일본, 한국, 유럽(EPO), 국제(PCT) 특허의 제목(발명의명칭)으로부터 단어를 추출하여 WIPO가 제시한 전기공학, 기기, 화학, 기계공학, 기타 등의 5가지 분류로 정리하여 용어의 출현빈도 변화를 계산하였다. 이 값이 상위에 있는 단어들을 분석하여 기술동향, 특허와 기술개발과의 관련성을 분석하였다.

텍스트마이닝기법을 활용한 남녀 학생의 인구문제에 관한 인식 분석: 인구교육의 시사점 도출을 위하여 (A Study on the Recognition of Population Problems of Male and Female Students using Text-mining: To Drive the Implications of Population Education)

  • 왕석순;심준영
    • 한국가정과교육학회지
    • /
    • 제31권3호
    • /
    • pp.73-90
    • /
    • 2019
  • 이 연구는 인구 문제에 대한 남녀 학생들의 인식의 차이를 규명하여 인구교육의 시사점을 도출하기 위한 것을 목적으로 하였다. 이를 위해 J 대학교의 인구교육 강좌인 「인구와 사회」수업을 수강한 학생이 개인별로 최종 제출한 보고서를 분석 자료로 활용하였다. 분석 자료는 텍스트 마이닝 기법을 활용하여 성별에 따라 인구 문제에 대한 인식에 차이가 있는 가를 분석하였다. 우선, 출현 빈도가 높은 단어를 중심으로 성별에 따른 차이를 확인하고, 핵심단어를 추출하여 의미연결망 분석을 하고 시각화를 실시하였다. 분석 결과는 다음과 같다. 첫째, 상위 출현 빈도 단어 100개를 기준으로 살펴본 결과, 10위까지의 단어는 '인구', '교육', '문제', '결혼', '사회', '출산', '심각', '사람', '우리' 등으로 남녀가 동일하였다. 또 출현 빈도, 연관분석에 따라 핵심단어를 추출한 후, 의미 연결망을 시각화한 결과, 출현 빈도를 기준으로 한 경우, 의미 연결망 중앙에 위치하는 단어에 남녀 차이가 없었다. 둘째, 연관분석에 따라 추출된 핵심 단어와 바이그램 단위로 추출한 핵심 단어는 성별에 따라 큰 차이를 보였다. 즉, 여학생의 단어의 의미 연결망에서 '생활'-'결혼'-'출산'-'임신'의 연결망이 독립적으로 나타나서, 인구 문제에 대해 분리된 객관적 연결망을 보이는 남학생과 구별되었다. 따라서 남학생과 여학생은 인구 문제에 대해 다른 인식 구조를 갖는 이질적인 집단으로 봐야 하고, 인구 교육에 있어 내용과 방법을 성별에 따라 다르게 접근해야 할 것이라는 시사점을 도출하였다.

친숙한 웹 페이지 정보 항목명 선택을 위한 지표 비교 (The Comparison of Indicators for Selecting Familiar Labels of Information Items in Web Pages)

  • 조인호;김형래
    • 인터넷정보학회논문지
    • /
    • 제12권1호
    • /
    • pp.111-118
    • /
    • 2011
  • 인터넷 웹페이지나 XML 등을 통해 정보를 공유할 때, 친숙한 정보항목 명칭은 사용자 간에 혼동을 최소화한다. 친숙한 단어를 선택하기 위해 언어 전문가의 의견을 구하는 경우 비용과 시간이 소모되지만, 자동화된 지표는 별도의 비용 없이 참고정보를 제공하여 사용자가 친숙한 단어를 선택하도록 돕는다. 본 논문은 사용자가 인터넷에서 쉽게 접할 수 있는 지표를 수집하여, 친숙한 단어를 선택하는데 사용 효과를 비교 조사하였다. 수집된 지표는 단어 길이, 관련 사이트에 사용되는 빈도, 검색 사이트에서 결과 건수이다. 관련 사이트에 사용되는 빈도에 의해 선택된 단어가 여성의 것과 최고 76%, 남성의 것과 최고 71% 매칭 되는 것으로 나타나, 참고 지표로 사용 가능한 것으로 결과가 나타났다.

SVM을 이용한 한글문서 범주화 실험 (Categorization of Korean documents using Support Vector Machines)

  • 최성환;임혜영;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2000년도 제7회 학술대회 논문집
    • /
    • pp.29-32
    • /
    • 2000
  • 자동문서 범주화에 이용되는 학습분류기 중에서 SVM은 자질 차원을 축소하지 않고도 좋은 성능을 보이고 있다. 본 실험에서는 KTSET 텍스트 컬렉션을 대상으로 두 개의 SVM 분류기를 이용하여 자질축소 및 자질표현에 따른 성능비교 실험을 하였다. 자질축소를 위하여 $\chi$$^2$통계량을 자질선정기준으로 사용하였으며, 자질값으로는 단어빈도 및 문헌빈도의 두 요소로 구성되는 다양한 가중치를 사용하였다. 실험결과 SVM은 자질축소에 큰 영향을 받지 않고 가중치 유형에 따라 성능의 차이를 보였다.

  • PDF