• 제목/요약/키워드: 텍스트 빈도 분석

검색결과 342건 처리시간 0.039초

한국어 언어모델의 속성 및 정량적 편향 분석: 영어 언어모델과의 비교 및 개선 제안 (Properties and Quantitative Analysis of Bias in Korean Language Models: A Comparison with English Language Models and Improvement Suggestions)

  • 김재민;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.558-562
    • /
    • 2023
  • 최근 ChatGPT의 등장으로 텍스트 생성 모델에 대한 관심이 높아지면서, 텍스트 생성 태스크의 성능평가를 위한 지표에 대한 연구가 활발히 이뤄지고 있다. 전통적인 단어 빈도수 기반의 성능 지표는 의미적인 유사도를 고려하지 못하기 때문에, 사전학습 언어모델을 활용한 지표인 BERTScore를 주로 활용해왔다. 하지만 이러한 방법은 사전학습 언어모델이 학습한 데이터에 존재하는 편향으로 인해 공정성에 대한 문제가 우려된다. 이에 따라 한국어 사전학습 언어모델의 편향에 대한 분석 연구가 필요한데, 기존의 한국어 사전학습 언어모델의 편향 분석 연구들은 사회에서 생성되는 다양한 속성 별 편향을 고려하지 못했다는 한계가 있다. 또한 서로 다른 언어를 기반으로 하는 사전학습 언어모델들의 속성 별 편향을 비교 분석하는 연구 또한 미비하였다. 이에 따라 본 논문에서는 한국어 사전학습 언어모델의 속성 별 편향을 비교 분석하며, 영어 사전학습 언어모델이 갖고 있는 속성 별 편향과 비교 분석하였고, 비교 가능한 데이터셋을 구축하였다. 더불어 한국어 사전학습 언어모델의 종류 및 크기 별 편향 분석을 통해 적합한 모델을 선택할 수 있도록 가이드를 제시한다.

  • PDF

뉴스기사의 연관 단어 텍스트 마이닝을 이용한 스타의 분야별 기여도순위 비교기법 (Ranking Contribution of Star in Each Domain Using Association Text Mining News Articles on the Web)

  • 강윤정;윤재열;임지연;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1191-1194
    • /
    • 2011
  • 스타의 대중에 대한 인기가 브랜드의 이미지 제고와 상업적 영향을 끄는 마케팅 전략을 스타 마케팅이라고 한다. 오늘날의 스타는 방송, 연예활동뿐만 아니라 스포츠, 정치활동, 사회기여활동 등 다양한 분야에서 활약하며 스타의 이미지는 그 활약상에 영향을 받는다. 스타의 이미지는 브랜드 및 기업의 이미지로 직결되므로 그에 대한 사전분석은 마케팅에서 중요한 요소이다. 그래서 일반적으로 스타들이 활약하는 도메인을 분류하여서 그 스타에 대해서 검색을 하였을 때 어떤 분야에서 활약하고 기여를 하는지 그 기여도를 도메인에 따라 랭킹을 매기는 방법을 제안한다. 뉴스기사에서 텍스트 마이닝 기술을 이용하여 스타의 이름과 활동 도메인들에 대해서 관련단어를 빈도에 따라 추출한다. 그리고 관련된 단어들을 이용하여 스타에 대한 뉴스 중 각 도메인과 관련된 기사들을 카운트하며 도메인에 대해서 긍정 혹은 부정적인 보도내용일 경우에는 극성을 부여하여 그 가중치를 달리한다. 빈도 및 극성을 고려한 점수화에 의해 스타가 기여하는 분야에 대한 순위를 매긴다.

민원 분석을 위한 텍스트 마이닝 기법 연구: 계층적 연관성 분석 (A Study on Text Mining Methods to Analyze Civil Complaints: Structured Association Analysis)

  • 김현종;이태헌;유승의;김나랑
    • 한국산업정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.13-24
    • /
    • 2018
  • 정부 및 공공기관에 있어 시민의 직접적인 요구사항이 담겨 있는 민원은 정책 개발을 위한 중요한 데이터로 활용이 가능하다. 그러나 민원 데이터는 비정형 텍스트로 작성되어 있는 특성으로 인해 일반적인 텍스트 마이닝 기법으로는 시민의 요구사항을 정확히 도출하기 어려웠다. 이에 본 연구에서는 민원 데이터 분석을 위한 텍스트 마이닝 기법을 개선하여, 시민의 요구사항을 도출할 수 있는 방법을 제시하고자 하였다. 새로운 텍스트 마이닝 기법은 공기어구조맵의 원리에 착안하여 연관성 분석을 2단계로 실시하여 핵심주제어를 기반으로 1차 연관 단어 와 2차 연관 단어로 구조화하였다. 분석을 위해 2016년 1년간 부산시 민원게시판에 올라온 3004건을 활용하였다. 분석 결과는 빈도수와 핵심주제어를 가지고 연관성 분석만으로는 찾을 수 없었던 민원 상의 문제를 본연구에서 제시한 계층적 연관성 분석을 이용하여 시민의 요구사항을 더욱 정확하게 파악할 수 있었다. 본 연구는 민원 데이터에서 시민의 요구사항을 도출하기 용이한 방법을 제안하였다는 학문적 기여점이 있으며, 행정기관에서 민원 데이터를 통해 정책 개발에 활용할 수 있다는 실무적 기여점이 있다.

텍스트 분석 기술 및 활용 동향 (Investigations on Techniques and Applications of Text Analytics)

  • 김남규;이동훈;최호창
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.471-492
    • /
    • 2017
  • 최근 데이터의 양 자체가 해결해야 할 문제의 일부분이 되는 빅데이터(Big Data) 분석에 대한 수요와 관심이 급증하고 있다. 빅데이터는 기존의 정형 데이터 뿐 아니라 이미지, 동영상, 로그 등 다양한 형태의 비정형 데이터 또한 포함하는 개념으로 사용되고 있으며, 다양한 유형의 데이터 중 특히 정보의 표현 및 전달을 위한 대표적 수단인 텍스트(Text) 분석에 대한 연구가 활발하게 이루어지고 있다. 텍스트 분석은 일반적으로 문서 수집, 파싱(Parsing) 및 필터링(Filtering), 구조화, 빈도 분석 및 유사도 분석의 순서로 수행되며, 분석의 결과는 워드 클라우드(Word Cloud), 워드 네트워크(Word Network), 토픽 모델링(Topic Modeling), 문서 분류, 감성 분석 등의 형태로 나타나게 된다. 특히 최근 다양한 소셜미디어(Social Media)를 통해 급증하고 있는 텍스트 데이터로부터 주요 토픽을 파악하기 위한 수요가 증가함에 따라, 방대한 양의 비정형 텍스트 문서로부터 주요 토픽을 추출하고 각 토픽별 해당 문서를 묶어서 제공하는 토픽 모델링에 대한 연구 및 적용 사례가 다양한 분야에서 생성되고 있다. 이에 본 논문에서는 텍스트 분석 관련 주요 기술 및 연구 동향을 살펴보고, 토픽 모델링을 활용하여 다양한 분야의 문제를 해결한 연구 사례를 소개한다.

빅데이터 분석을 통한 아두이노 강의에 대한 사회적 인식 (Social perception of the Arduino lecture as seen in big data)

  • 이은상
    • 정보교육학회논문지
    • /
    • 제25권6호
    • /
    • pp.935-945
    • /
    • 2021
  • 이 연구의 목적은 빅데이터 분석 방법을 이용하여 아두이노 강의에 대한 사회적 인식을 분석하는 데 있다. 이를 위해 네이버 사이트의 블로그, 카페, 뉴스 채널에서 '아두이노+강의'를 검색 키워드로 2012년 1월부터 2021년 5월까지의 데이터를 텍스톰 사이트로 수집하였다. 수집된 데이터는 텍스톰 사이트를 이용하여 정제하였으며, 텍스톰 사이트, Ucinet 6, Netdraw 프로그램을 이용하여 텍스트 마이닝 분석과 의미 연결망 분석을 수행하였다. 빈도 분석, TF-IDF 분석, 연결 중심성 등의 텍스트 마이닝 분석 결과 '교육', '코딩' 등이 상위 키워드임을 확인하였다. 의미 연결망 분석을 위해 CONCOR 분석을 수행한 결과 '아두이노 관련 교육', '피지컬 컴퓨팅 관련 강의', '아두이노 특강', 'GUI 프로그래밍' 등 4개의 군집을 확인할 수 있다. 이 연구를 통해 인터넷상에서 아두이노 강의와 관련하여 일반 대중들의 여러 가지 의미 있는 사회적 인식을 확인할 수 있었다. 이 연구의 결과는 아두이노 강의를 준비하는 교수자나 해당 주제를 연구하는 연구자, 나아가 소프트웨어 교육이나 코딩 교육과 관련 정책을 수립하는 정책 입안자들에게 의미 있는 시사점을 제공하는 자료로 활용될 것이다.

텍스트마이닝 및 CONCOR 분석을 활용한 환자안전문화 융복합 연구주제 분석 (The Study on the patient safety culture convergence research topics through text mining and CONCOR analysis)

  • 백수미;문인오
    • 디지털융복합연구
    • /
    • 제19권12호
    • /
    • pp.359-367
    • /
    • 2021
  • 본 연구의 목적은 텍스트 마이닝 및 CONCOR 분석을 활용해 국내 환자안전문화 연구주제를 분석하는 것이다. 연구방법은 자료수집, 데이터 전처리, 텍스트 마이닝과 사회연결망 분석, CONCOR 분석 단계로 진행하였으며, 2021년 9월1일 기준으로 '환자안전문화'의 주제어를 검색하여 중복된 논문과 본 연구 목적에 부합되지 않는 논문을 제외한 총 136편을 분석하였다. 자료 분석은 텍스톰(Textom)과 UCINET 프로그램을 이용하였다. 본 연구의 결과 환자안전문화 관련 연구의 TF(빈도)는 환자안전(patient safety), TF-IDF(문서상의 중요도)는 간호(nursing) 가 가장 높게 나타났다. CONCOR 분석결과 환자안전문화를 구성하는 지식 및 태도, 커뮤니케이션, 의료서비스, 팀, 작업환경, 구조, 조직 및 경영의 총 7개의 클러스터가 도출되었다. 추후 환자안전문화 구축과 환자결과와의 연관성에 대한 연구가 진행되어야 할 필요가 있다.

텍스트마이닝을 통한 고용허가제 트렌드 분석과 정책 제안 : 텍스트마이닝과 소셜네트워크 분석을 중심으로 (A Trend Analysis and Policy proposal for the Work Permit System through Text Mining: Focusing on Text Mining and Social Network analysis)

  • 하재빈;이도은
    • 융합정보논문지
    • /
    • 제11권9호
    • /
    • pp.17-27
    • /
    • 2021
  • 본 연구에서는 고용허가제에 대한 이슈와 국민적 인식을 확인하고 정책을 제언하기 위해 소셜데이터를 기반으로 한 텍스트마이닝 기법을 활용하고자 하였다. 이를 위해 2020년 1월부터 2020년 12월까지 1년 동안 온라인상에서 '고용허가제'가 언급되는 6,217개의 문서의 텍스트 1,453,272개를 텍스톰(Textom)을 통해 수집하여 텍스트마이닝과 소셜네트워크 분석을 수행하였다. 데이터 상위 키워드 빈도, TF-IDF(Term Frequency - Inverse Document Frequency) 분석, 연결중심성 분석으로 언급량이 많은 키워드 100개를 도출하였으며, 일자리 문제, 정책과정의 중요성, 산업관점의 경쟁력, 외국인근로자 생활 개선을 주요한 키워드로 구성하였다. 또한, 의미연결망 분석을 통해 '고용정책'과 같은 주요인식과 '국제협력', '노동자 인권', '법률', '외국인 채용', '기업 경쟁력', '이주민 문화', '외국인력 관리'와 같은 주변인식을 파악하였다. 끝으로 고용허가제에 관한 정책 수립과 관련 연구를 진행하는데 있어서 고려해야 할 요소를 제안하였다.

사회적 감성과 주가의 상관성 분석 (Correlation Analysis of Social Sentiment and Stock Prices)

  • 윤홍원
    • 한국정보통신학회논문지
    • /
    • 제19권7호
    • /
    • pp.1593-1598
    • /
    • 2015
  • 본 논문에서는 사회적 감성과 주가의 상관성을 분석한다. 먼저, 주가 폭락 또는 폭등 기간과 그 직전의 극성을 각각 분석하고 이 결과를 이용하여 사회적 감성과 주가 사이의 상관관계를 분석한다. 본 연구를 위하여 과거의 다우존스산업평균지수 데이터를 수집하고 주가의 폭등과 폭락 시점을 검출한다. 검출한 시점에 근거하여 뉴욕 타임즈 기사를 수집하고 극성을 분석한다. 분석 결과에 의하면 주가 폭락 기간보다 폭등 기간에는 부정적 용어의 출현 빈도가 감소하고 긍정적 용어의 출현 빈도가 증가한다. 주가 폭락 또는 폭등 직전에는 부정적 용어의 출현 빈도와 긍정적 용어의 출현 빈도 사이에 차이가 커지 않다. 상관관계 분석에 의하면, 주가 폭락과 폭등 기간에는 사회적 감성과 주가 사이에 양의 상관관계를 보인다. 반면에, 주가 폭락과 폭등 직전에는 사회적 감성과 주가 사이에 유의한 수준의 상관관계를 나타내지 않는다.

텍스트 마이닝을 활용한 대학 화학 실험 수업의 서술형 강의 평가 내용 분석 (Analysis of Descriptive Course Evaluation of University Chemistry Laboratory Class using Text Mining)

  • 윤정현;박금주
    • 대한화학회지
    • /
    • 제66권3호
    • /
    • pp.218-227
    • /
    • 2022
  • 이 연구는 대학 화학 실험 수업에 참여한 수강생이 작성한 강의평가의 서술형 내용 중 수업의 좋은 점과 개선사항에 대해 텍스트 마이닝 기법을 적용하여 학생들의 의견을 분석하고, 수업의 개선 방안을 도출하는 데 목적이 있다. 연구 방법은 텍스트 마이닝 기법을 적용하여 핵심단어의 출현 빈도, 동시 출현 빈도, 네트워크 분석을 실시하였다. 연구결과, 화학 실험 수업의 좋은점 네트워크에서는 수업과 교수님 간 언급이 가장 많았고, 설명, 이해, 학생, 열정, 재미, 조교, 실험, 도움 등과 함께 언급되었다. 화학 실험 수업의 개선점 네트워크에서는 수업과 학생 간 언급이 가장 많았고, 교수님, 내용, 설명, 시험, 좋겠다, 실험, 이해, 어렵다, 생각, 문제 등과 함께 언급되었다. 즉, 학생들은 '쉽고 자세한 설명'과 '조교의 도움'으로 인해 실험 수업 내용이 잘 이해되고, 실험 과정에 재미와 만족을 느꼈다는 의견을 수업의 좋은 점으로 제시하였다. 반면에 '수업 내용과 시험의 어려움', '과도한 과제', '수업 환경'으로 인해 수업 내용에 대한 이해도와 집중도가 떨어진다는 부정적인 의견을 수업의 개선점으로 제시하였다.

텍스트 마이닝 알고리즘을 이용한 기상청 기상연감 자료 분석 (Analysis of the Yearbook from the Korea Meteorological Administration using a text-mining agorithm)

  • 선현석;임창원;이영섭
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.603-613
    • /
    • 2017
  • 최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 그러나 대부분 비정형 형태로 구성되어 있는 텍스트 기반의 자료는 기존의 통계 분석이나 데이터 마이닝 기법을 적용하기에 부적합하기 때문에 텍스트 마이닝 기법이 사용되고 있다. 본 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝 기법으로 기상청 기상연감 자료를 분석하였다. 먼저 전처리 과정을 통하여 용어사전을 구축하고, 용어-문서 행렬을 생성하였다. 그리고 이것을 사용하여 연도별 용어 빈도수를 계산하고, 자주 나타나는 단어들에 대하여 상대도수의 변화를 관찰하였다. 또한 회귀 분석 기법을 사용하여 증가추세와 감소추세를 보이는 용어들을 파악하였다. 이러한 분석으로 기상청 기상연감 문서에서의 트렌드를 파악하고, 이를 통해 이슈가 되었던 기상 관련 소식과 기상현황, 그리고 기상청이 중점으로 하고 있는 업무 현황의 트렌드를 파악하였다. 본 연구를 통해 기상업무 분석 및 효율화에 도움을 주고 기상정책에 반영할 수 있는 유용한 정보를 이끌어내고자 하였다.