• 제목/요약/키워드: 빈도 기반 텍스트 분석

검색결과 106건 처리시간 0.026초

사회연결망 분석을 활용한 개인정보 유출 프레임 변화에 관한 연구: 1984년-2014년을 중심으로 (A study on frame transition of personal information leakage, 1984-2014: social network analysis approach)

  • 정서화;조현석
    • 디지털융복합연구
    • /
    • 제12권5호
    • /
    • pp.57-68
    • /
    • 2014
  • 이 글은 한국에서 시기별 개인정보 유출에 대한 프레임이 어떤 형태로 변화하는지에 초점을 맞추고 있다. 이를 위하여 개인정보 유출이라는 텍스트가 등장하기 시작한 1984년도부터 현재까지 30년 간 걸쳐 보도된 신문기사의 제목을 수집하였다. 시기마다 형성되어 있는 지배적인 프레임을 도출하기 위하여 단순 빈도분석과 공동출현빈도 매트릭스 기반의 텍스트 네트워크 분석, 군집분석을 실시하였다. 사회연결망분석의 주요 지표인 연결중심성의 개념을 적용하여 시기별 주된 프레임을 밝혀내었다. 총 4시기에 걸쳐 프레임의 태동, 형성, 확장, 전환의 과정이 일어났는데, 개인정보에 대한 접근 및 보유주체가 주로 정부였다면 점차 전자상거래 등 고객맞춤형 서비스로 인해 민간 기업으로 확대되었다. 또한 초국가기업의 등장은 개인정보 유출의 경계를 자연스럽게 국내에서 국외로 확장시켰다. 빅데이터 시대의 엄청난 정보량과 데이터 생태계의 역동성은 새로운 정보보안위협으로 다가오고 있어 강력한 정보보호체계 설계가 시급함을 프레임의 전환을 통하여 보여주고 있다.

코사인 유사도를 기반의 온톨로지를 이용한 문장유사도 분석 (Sentence Similarity Analysis using Ontology Based on Cosine Similarity)

  • 황치곤;윤창표;윤대열
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.441-443
    • /
    • 2021
  • 문장 또는 텍스트 유사도란 두 가지 문장의 유사한 정도를 나타내는 척도이다. 텍스트의 유사도를 측정하는 기법으로 자카드 유사도, 코사인 유사도, 유클리디언 유사도, 맨하탄 유사도 등과 같이 있다. 현재 코사인 유사도 기법을 가장 많이 사용하고 있으나 이는 문장에서 단어의 출현 여부와 빈도수에 따른 분석이기 때문에, 의미적 관계에 대한 분석이 부족하다. 이에 우리는 온톨로지를 이용하여 단어 간의 관계를 부여하고, 두 문장에서 공통으로 포함된 단어를 추출할 때 의미적 유사성을 포함함으로써 문장의 유사도에 분석의 효율을 향상하고자 한다.

  • PDF

음절 n-gram 기반의 미등록 어휘 추정기 구현 (Out of Vocabulary Word Extractor based on a Syllable n-gram)

  • 신준수;홍초희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.139-141
    • /
    • 2013
  • 다양한 콘텐츠가 생성됨에 따라 신조어 및 미등록어도 다양한 형태로 나타나고 있다. 이러한 신조어 및 미등록어는 텍스트 처리 단계에서 오분석 되어 성능 저하의 원인이 된다. 본 논문은 이러한 문제를 해결하기 위해서 대량의 문서로부터 신조어 및 미등록 어휘를 추정하는 방법에 대해서 제안한다. 제안 방법은 대량의 문서로부터 음절 n-gram을 추출한 뒤, 각 n-gram에서 n을 한음절 축소 및 확장 시켜, (n+1)gram, (n-1)gram을 추가적으로 추출한다. 추출된 음절 n-gram을 기준으로 (n+1)gram, (n-1)gram과의 빈도 차이를 계산하여 빈도차가 급격하게 발생하는 구간을 신조어 및 미등록 어휘로 추정한다. 실험결과 신조어 뿐만 아니라 트위터, 미투데이 등과 같은 도메인에 종속적인 미등록 어휘도 추출되는 것을 확인할 수 있었다.

  • PDF

민원 분석을 위한 텍스트 마이닝 기법 연구: 계층적 연관성 분석 (A Study on Text Mining Methods to Analyze Civil Complaints: Structured Association Analysis)

  • 김현종;이태헌;유승의;김나랑
    • 한국산업정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.13-24
    • /
    • 2018
  • 정부 및 공공기관에 있어 시민의 직접적인 요구사항이 담겨 있는 민원은 정책 개발을 위한 중요한 데이터로 활용이 가능하다. 그러나 민원 데이터는 비정형 텍스트로 작성되어 있는 특성으로 인해 일반적인 텍스트 마이닝 기법으로는 시민의 요구사항을 정확히 도출하기 어려웠다. 이에 본 연구에서는 민원 데이터 분석을 위한 텍스트 마이닝 기법을 개선하여, 시민의 요구사항을 도출할 수 있는 방법을 제시하고자 하였다. 새로운 텍스트 마이닝 기법은 공기어구조맵의 원리에 착안하여 연관성 분석을 2단계로 실시하여 핵심주제어를 기반으로 1차 연관 단어 와 2차 연관 단어로 구조화하였다. 분석을 위해 2016년 1년간 부산시 민원게시판에 올라온 3004건을 활용하였다. 분석 결과는 빈도수와 핵심주제어를 가지고 연관성 분석만으로는 찾을 수 없었던 민원 상의 문제를 본연구에서 제시한 계층적 연관성 분석을 이용하여 시민의 요구사항을 더욱 정확하게 파악할 수 있었다. 본 연구는 민원 데이터에서 시민의 요구사항을 도출하기 용이한 방법을 제안하였다는 학문적 기여점이 있으며, 행정기관에서 민원 데이터를 통해 정책 개발에 활용할 수 있다는 실무적 기여점이 있다.

텍스트마이닝을 활용한 정보보호 키워드 기반 소셜미디어 빅데이터 분석 (Social Media Bigdata Analysis Based on Information Security Keyword Using Text Mining)

  • 정진명;박영호
    • 한국산업정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.37-48
    • /
    • 2022
  • 디지털 기술의 발전으로 사회적 이슈들이 SNS와 같은 디지털 기반 플랫폼을 통해서 소통되고 여론을 형성하기도 한다. 본 연구에서는 소셜미디어를 통해서 공유되고 있는 정보보호 이슈관련 여론을 살펴보기 위하여 대표적인 단문 소셜네트워크서비스인 트위터 빅데이터 분석을 진행하였다. 2021년 1년간 14개 정보보호 관련 키워드를 중심으로 데이터를 수집한 후, 데이터마이닝 기술을 활용하여 용어 빈도(TF)분석과 피어슨 계수를 활용한 상관분석을 통해 키워드간의 상관관계를 밝혔다. 또한 잠재적 확률기반 LDA 토픽모델링을 실시하여 정보보호분야에 많은 관심을 받았던 6개의 주요 토픽을 도출하였다. 이러한 결과는 관련 산업의 전략수립이나, 정부 정책수립 시 주요 키워드를 도출하는 기초데이터로 활용될 수 있을 것으로 기대된다.

텍스트 마이닝을 이용한 상황 정보 분석 및 예측 프로세스에 관한 연구 (A novel on Context Information Analysis and Prediction Process using Text Mining)

  • 정세훈;강주희;김종찬;심춘보
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1039-1040
    • /
    • 2015
  • 최근 IoT 및 인공지능 기술을 활용한 상황 정보 예측 서비스가 각광을 받고 있다. 본 논문에서는 특정 메타 데이터(Meta Data)로부터 입력되는 정보를 기반으로 상황 정보 분석 및 예측하는 프로세스를 제안한다. 주성분 분석 및 데이터의 집단화(Corpus), 문서 매트릭스(Document Matrix), 단어 빈도수(Frequency)에 따른 데이터 전처리 과정을 통해 상황정보 데이터를 확보한다. 또한 연관 규칙분석을 통해 분류된 데이터의 연관성을 분석하여 예측 데이터의 연관성을 확보한다. 제안하는 상황정보 분석 및 예측 모델은 R을 적용하여 설계한다.

  • PDF

텍스트 마이닝을 활용한 데이터 거버넌스 연구 동향 분석: 2009년~2021년 국내 학술지 논문을 중심으로 (The Study on Data Governance Research Trends Based on Text Mining: Based on the publication of Korean academic journals from 2009 to 2021)

  • 정선경
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.133-145
    • /
    • 2022
  • 연구 목적은 데이터 거버넌스의 연구 동향을 파악하고자 하였다. 연구 대상은 데이터 거버넌스 개념과 전략이 제시되기 시작한 2009년부터 2021년까지의 논문 158편을 대상으로 하였다. 주요 연구방법은 텍스트 마이닝을 활용하였고, 주요 방법은 빈도분석, 워트클라우드, 네트워크 분석 및 토픽 모델링 기법을 사용하여 분석하였다. 연구 결과 최빈 키워드는 정보, 빅데이터, 관리, 정책, 정부, 법률, 스마트가 확인되었다. 또한 네트워크 분석 결과 데이터 산업 정책, 데이터 거버넌스 성과, 국방, 거버넌스, 데이터 공공 등의 주제로 연관된 연구 수행이 이루어지고 있었다. 토픽 모델링을 통해 도출된 4개 토픽은 "데이터 거버넌스 정책", "데이터 거버넌스 플랫폼", "데이터 거버넌스 관련 법률", "데이터 거버넌스 구현"이며, 이중 "데이터 거버넌스 플랫폼" 관련 연구는 증가 추세를 보였고, "데이터 거버넌스 구현"은 축소되고 있는 경향이었다. 본 연구는 데이터 거버넌스 관련 연구를 종합적으로 정리하였다. 데이터 거버넌스는 조직 차원의 데이터 경영 및 데이터 통합 정책, 관련 기술 등 관련 분야와 다양한 시각에서 연구영역 확대가 필요하다. 향후 해외데이터 거버넌스들을 대상으로 한 분석 대상을 확대하고 4차산업혁명, 인공지능, 메타버스 등 데이터 기반 미래 산업이 요구되는 산업 분야에서의 연구 방향과 정책 방향 수립 관련 후속 연구를 기대할 수 있다.

텍스트마이닝을 통한 고용허가제 트렌드 분석과 정책 제안 : 텍스트마이닝과 소셜네트워크 분석을 중심으로 (A Trend Analysis and Policy proposal for the Work Permit System through Text Mining: Focusing on Text Mining and Social Network analysis)

  • 하재빈;이도은
    • 융합정보논문지
    • /
    • 제11권9호
    • /
    • pp.17-27
    • /
    • 2021
  • 본 연구에서는 고용허가제에 대한 이슈와 국민적 인식을 확인하고 정책을 제언하기 위해 소셜데이터를 기반으로 한 텍스트마이닝 기법을 활용하고자 하였다. 이를 위해 2020년 1월부터 2020년 12월까지 1년 동안 온라인상에서 '고용허가제'가 언급되는 6,217개의 문서의 텍스트 1,453,272개를 텍스톰(Textom)을 통해 수집하여 텍스트마이닝과 소셜네트워크 분석을 수행하였다. 데이터 상위 키워드 빈도, TF-IDF(Term Frequency - Inverse Document Frequency) 분석, 연결중심성 분석으로 언급량이 많은 키워드 100개를 도출하였으며, 일자리 문제, 정책과정의 중요성, 산업관점의 경쟁력, 외국인근로자 생활 개선을 주요한 키워드로 구성하였다. 또한, 의미연결망 분석을 통해 '고용정책'과 같은 주요인식과 '국제협력', '노동자 인권', '법률', '외국인 채용', '기업 경쟁력', '이주민 문화', '외국인력 관리'와 같은 주변인식을 파악하였다. 끝으로 고용허가제에 관한 정책 수립과 관련 연구를 진행하는데 있어서 고려해야 할 요소를 제안하였다.

미디어에 나타난 직업 관련 데이터의 분석 (Analysis of Job Data on Media)

  • 반재훈;정윤성;정동민
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.152-155
    • /
    • 2018
  • 과거와는 비교 할 수 없을 만큼 방대한 양의 데이터가 생산되는 정보화 시대에서 과거와 현재의 데이터를 비교 분석하는 것이 매우 중요하다. 이러한 데이터를 분석하는 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 R을 이용하여 미디어에 나타난 직업 관련 빅데이터를 분석한다. 다양한 미디어에서 직업 관련 데이터를 수집하고 어떠한 텍스트가 분포되어 있는지 빈도 조사를 수행한다.

  • PDF

텍스트마이닝 기법을 활용한 국내외 장소성 관련 연구동향 분석 (Analyzing the Study Trends of 'Sense of Place' Using Text Mining Techniques)

  • 이인아;김혜진
    • 한국비블리아학회지
    • /
    • 제30권2호
    • /
    • pp.189-209
    • /
    • 2019
  • 주경로 분석(Main Path Analysis, MPA)은 문헌의 인용정보를 기반으로 지식이 전달되는데 기여한 핵심 문헌을 추출하는 텍스트마이닝 기법 중 하나이다. 본 연구는 1990년부터 2018년까지 국내외에서 발행된 장소성 관련 논문의 인용정보와 초록을 토대로 주경로 분석과 단어동시출현빈도 연관어 네트워크 분석을 적용하여 연구동향을 파악하였다. 1990년부터 2018년까지 수집된 문헌을 5년씩 기간 구분하여 (마지막 기간은 3년) 각 기간 별로 국내외에서 장소성 관련 연구가 전반적으로 어떻게 진행되었는지 비교 분석하여 제시하였다. 주경로 분석 결과, 1990년부터 해외의 장소성 관련 연구는 개인 정체성, 공공 토지 관리, 환경 교육, 도시 개발 분야 순으로 진행되어 온 것으로 나타났다. 단어동시출현을 기반으로 한 연관어 네트워크를 통해서는 국내의 경우 도시 개발, 문화, 문학, 역사 등 다양한 차원에서 장소성이 논의되는 격변기를 겪는 것으로 해석할 수 있었다. 반면 국외에서는 건강, 정체성, 경관, 도시 개발 관련 논의가 90년대부터 꾸준히 이루어지고 있는 것으로 파악되었다. 본 연구는 장소성 연구동향을 기존의 특정 영역에 장소성 개념을 적용하여 분석하는 미시적 관점의 분석이 아닌 다양한 텍스트마이닝 기법을 적용하여 장소성을 주제로 삼고 있는 논문의 전반적인 흐름을 파악하는 통시적 접근의 방법을 제시하였다는 점에서 시사점을 지닌다.