• 제목/요약/키워드: 핵심 단어 시각화

검색결과 16건 처리시간 0.022초

단어 구름과 동적 그래픽스 기법을 이용한 영어성경 텍스트 시각화 (English Bible Text Visualization Using Word Clouds and Dynamic Graphics Technology)

  • 장대흥
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.373-386
    • /
    • 2014
  • 단어 구름은 문자 텍스트 상의 복수개의 단어들을 대상으로 그 단어들의 출현 빈도에 비례하는 글자의 크기나 글자의 색깔로 중요도를 나타내는 텍스트 시각화 방법이다. 이 그림은 텍스트 상의 핵심단어를 재빨리 인지하고 단어들의 상대적 출현빈도수에 맞추어 배열하는 데 유용하다. 동적 그래픽스를 이용하여 텍스트 장들의 변화에 따른 핵심단어와 단어출현빈도의 패턴의 변하는 모습을 살필 수 있다. 행들이 텍스트 상의 장들이고 열들이 텍스트에 출현하는 단어들의 출현빈도수 순위들인 단어출현빈도행렬을 정의할 수 있고 이 행렬을 이용하여 단어출현빈도행렬그림을 그릴 수 있다. 동적 그래픽스를 이용하여 출현빈도수 순위의 변화에 따른 단어출현빈도행렬의 패턴의 변하는 모습을 살필 수 있다. 우리는 단어 구름과 동적 그래픽스 기법을 사용하여 영어성경 텍스트 시각화를 수행할 수 있다.

차원감소 단어벡터 시각화를 통한 어휘별 관계 분석 (Analysis of Vocabulary Relations by Dimensional Reduction for Word Vectors Visualization)

  • 고광호;백주련
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.13-16
    • /
    • 2022
  • LSTM과 같은 딥러닝 기법을 이용해 언어모델을 얻는 과정에서 일종의 부산물로 학습 대상인 말뭉치를 구성하는 어휘의 단어벡터를 얻을 수 있다. 단어벡터의 차원을 2차원으로 감소시킨 후 이를 평면에 도시하면 대상 문장/문서의 핵심 어휘 사이의 상대적인 거리와 각도 등을 직관적으로 확인할 수 있다. 본 연구에서는 기형도의 시(詩)을 중심으로 특정 작품을 선정한 후 시를 구성하는 핵심 어휘들의 차원 감소된 단어벡터를 2D 평면에 도시하여, 단어벡터를 얻기 위한 텍스트 전처리 방식에 따라 그 거리/각도가 달라지는 양상을 분석해 보았다. 어휘 사이의 거리에 의해 군집/분류의 결과가 달라질 수 있고, 각도에 의해 유사도/유추 연산의 결과가 달라질 수 있으므로, 평면상에서 핵심 어휘들의 상대적인 거리/각도의 직관적 확인을 통해 군집/분류작업과 유사도 추천/유추 등의 작업 결과의 양상 변화를 확인할 수 있었다. 이상의 결과를 통해, 영화 추천/리뷰나 문학작품과 같이 단어 하나하나의 배치에 따라 그 분위기와 정동이 달라지는 분야의 경우 텍스트 전처리에 따른 거리/각도 변화를 미리 직관적으로 확인한다면 분류/유사도 추천과 같은 작업을 좀 더 정밀하게 수행할 수 있을 것으로 판단된다.

  • PDF

텍스트마이닝기법을 활용한 남녀 학생의 인구문제에 관한 인식 분석: 인구교육의 시사점 도출을 위하여 (A Study on the Recognition of Population Problems of Male and Female Students using Text-mining: To Drive the Implications of Population Education)

  • 왕석순;심준영
    • 한국가정과교육학회지
    • /
    • 제31권3호
    • /
    • pp.73-90
    • /
    • 2019
  • 이 연구는 인구 문제에 대한 남녀 학생들의 인식의 차이를 규명하여 인구교육의 시사점을 도출하기 위한 것을 목적으로 하였다. 이를 위해 J 대학교의 인구교육 강좌인 「인구와 사회」수업을 수강한 학생이 개인별로 최종 제출한 보고서를 분석 자료로 활용하였다. 분석 자료는 텍스트 마이닝 기법을 활용하여 성별에 따라 인구 문제에 대한 인식에 차이가 있는 가를 분석하였다. 우선, 출현 빈도가 높은 단어를 중심으로 성별에 따른 차이를 확인하고, 핵심단어를 추출하여 의미연결망 분석을 하고 시각화를 실시하였다. 분석 결과는 다음과 같다. 첫째, 상위 출현 빈도 단어 100개를 기준으로 살펴본 결과, 10위까지의 단어는 '인구', '교육', '문제', '결혼', '사회', '출산', '심각', '사람', '우리' 등으로 남녀가 동일하였다. 또 출현 빈도, 연관분석에 따라 핵심단어를 추출한 후, 의미 연결망을 시각화한 결과, 출현 빈도를 기준으로 한 경우, 의미 연결망 중앙에 위치하는 단어에 남녀 차이가 없었다. 둘째, 연관분석에 따라 추출된 핵심 단어와 바이그램 단위로 추출한 핵심 단어는 성별에 따라 큰 차이를 보였다. 즉, 여학생의 단어의 의미 연결망에서 '생활'-'결혼'-'출산'-'임신'의 연결망이 독립적으로 나타나서, 인구 문제에 대해 분리된 객관적 연결망을 보이는 남학생과 구별되었다. 따라서 남학생과 여학생은 인구 문제에 대해 다른 인식 구조를 갖는 이질적인 집단으로 봐야 하고, 인구 교육에 있어 내용과 방법을 성별에 따라 다르게 접근해야 할 것이라는 시사점을 도출하였다.

학습 장면에서 감정 개입을 촉진하기 위한 기능성 게임의 활용 - 단어 시각화 기반의 영어 학습용 기능성 게임 '워드 콜렉트리안' 제작 사례를 바탕으로 (A Study on Enhancing Emotional Engagement in Learning Situation - Based on Development Case of English Learning Serious Game 'Word Collectrian')

  • 이학수;도영임
    • 한국게임학회 논문지
    • /
    • 제12권6호
    • /
    • pp.95-106
    • /
    • 2012
  • 교육 현장에서 감정은 기억, 학습 성취, 동기부여에 있어 핵심적으로 중요한 요인으로 알려져 있다. 본 연구에서는 초등학교 아동들을 대상으로 감정적 개입(emotional engagement)을 촉진하기 위해 기능성 게임을 학습 현장에서 활용할 수 있는지를 확인해보고자 하였다. 이를 위해 영어 학습용 기능성 게임 '워드 콜렉트리안'을 이용하여 탐색 연구를 진행하였다. 워드 콜렉트리안은 인터액션을 통한 단어의 동적 시각화와 맥락 영상의 제시를 통한 상황 인지, 완성된 단어의 배치를 통한 단어에 대한 애착 고취 등을 활용하여 아동들이 감정적으로 영단어 학습에 효과적으로 개입할 수 있도록 설계하였다. 1차 프로토타입을 활용한 기초 실험 결과 워드 콜렉트리안이 학습 효과와 감정 개입의 효과를 모두 불러일으킬 수 있는 가능성이 있음을 확인할 수 있었다.

고속 이미지 검색을 위한 2진 시각 단어 생성 기법 (Binary Visual Word Generation Techniques for A Fast Image Search)

  • 이수원
    • 정보과학회 논문지
    • /
    • 제44권12호
    • /
    • pp.1313-1318
    • /
    • 2017
  • 다수의 지역 특징들을 취합하여 하나의 벡터로 표현하는 것은 이미지 검색의 핵심 기술이다. 이 과정에서 경사도 기반 특징에 비해 수십 배 빠르게 추출되는 2진 특징이 활용된다면 이미지 검색의 고속화가 가능하다. 이를 위해서는 2진 특징들을 군집하여 2진 시각 단어를 생성하는 기법에 대한 연구가 선행되어야 한다. 기존의 경사도 기반 특징들을 군집하는 전통적인 방식으로는 2진 특징들을 군집할 수 없기 때문이다. 이를 위해 본 논문은 2진 특징들을 군집하여 2진 시각 단어를 생성하는 기법들에 대해 연구한다. 실험을 통해 2진 특징의 활용이 이미지 검색에 미치는 정확도와 연산효율 사이의 상충관계에 대해 분석한 후, 제안한 기법들을 비교한다. 본 연구는 고속 이미지 검색을 필요로 하는 모바일 응용, 리얼 타임 응용, 웹 스케일 응용 등에 활용될 것으로 기대된다.

현장 타설 콘크리트의 단위수량 측정 및 관리 개선 방안 제시 (A Proposal for Improving the Measurement and Management of Unit Water Content in In-Situ Concrete)

  • 윤자연;장효준;이태규;최형길
    • 한국건축시공학회지
    • /
    • 제24권3호
    • /
    • pp.319-329
    • /
    • 2024
  • 본 연구에서는 국내외 단위수량 규정을 조사하고 현장 타설 콘크리트의 단위수량을 평가하였다. 콘크리트 품질을 타이틀로 하여 핵심 단어 시각화했을 때 단위수량이 높은 중요도를 가짐을 확인할 수 있었다. 또한 단위수량 관리 및 단위수량 측정 방법에서 한국과 일본 간 상대적으로 큰 차이가 나타나지 않음을 알 수 있었다. 현장에 반입된 콘크리트의 단위수량을 단위용적질량법을 이용하여 계산한 결과, 현장에서 임의로 채취한 샘플에서 단위수량이 불균일하고 가변적이며, 단위수량이 적정 단위수량 기준을 초과하는 결과를 확인할 수 있었다. 현장 타설 콘크리트의 품질관리를 위해서는 레미콘 업체, 건설업체, 검사관이 단위수량에 대한 엄격한 기준을 준수하는 것이 중요하며, 명확한 단위수량 측정 매뉴얼 제공과 철저한 교육, 주기적인 현장 점검 등 보다 체계적이고 실용적인 시스템 구축이 필요하다고 판단된다.

비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구 (A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.891-897
    • /
    • 2022
  • 빅데이터 분석에서 원시 텍스트 데이터는 대부분 다양한 비정형 데이터 형태로 존재하기 때문에 휴리스틱 전처리 정제와 컴퓨터를 이용한 후처리 정제과정을 거쳐야 분석이 가능한 정형 데이터 형태가 된다. 따라서 본 연구에서는 텍스트 데이터 분석 기법의 하나인 R 프로그램의 워드클라우드를 적용하기 위해서 수집된 원시 데이터 전처리를 통해 불필요한 요소들을 정제하고 후처리 과정에서 불용어를 제거한다. 그리고 단어들의 출현 빈도수를 계산하고 출현빈도가 높은 단어들을 핵심 이슈들로 표현해 주는 워드클라우드 분석의 사례 연구를 하였다. 이번 연구는 R의워드클라우드 기법으로 기존의 불용어 처리 방법인 "내포된 불용어 소스코드" 방법의 문제점을 개선하기 위하여 "일반적인 불용어 코퍼스"와 "사용자 정의 불용어 코퍼스"의 활용 방안을 제안하고 사례 분석을 통해서 제안된 "비정형 데이터 정제과정 모델"의 장단점을 비교 검증하여 제시하고 "제안된 외부 코퍼스 정제기법"을 이용한 워드클라우드 시각화 분석의 실무적용에 대한 효용성을 제시한다.

Development of big data based Skin Care Information System SCIS for skin condition diagnosis and management

  • Kim, Hyung-Hoon;Cho, Jeong-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.137-147
    • /
    • 2022
  • 피부상태의 진단과 관리는 뷰티산업종사자와 화장품산업종사자에게 그 역할을 수행함에 있어서 매우 기초적이며 중요한 기능이다. 정확한 피부상태 진단과 관리를 위해서는 고객의 피부상태와 요구사항을 잘 파악하는 것이 필요하다. 본 논문에서는 피부상태 진단 및 관리를 위해 소셜미디어의 빅데이터를 사용하여 피부상태 진단 및 관리를 지원하는 빅데이터기반 피부관리정보시스템 SCIS를 개발하였다. 개발된 시스템을 사용하여 텍스트 정보 중심의 피부상태 진단과 관리를 위한 핵심 정보를 분석하고 추출할 수 있다. 본 논문에서 개발된 피부관리정보시스템 SCIS는 빅데이터 수집단계, 텍스트전처리단계, 이미지전처리단계, 텍스트단어분석단계로 구성되어 있다. SCIS는 피부진단 및 관리에 필요한 빅데이터를 수집하고, 텍스트 정보를 대상으로 핵심단어의 단순빈도분석, 상대빈도분석, 동시출현분석, 상관성분석을 통해 핵심단어 및 주제를 추출하였다. 또한 추출된 핵심단어 및 정보를 분석하고 산포도, NetworkX, t-SNE 및 클러스터링 등의 다양한 시각화 처리를 함으로써 피부상태 진단 및 관리에 있어 이를 효율적으로 사용할 수 있도록 하였다.

한국농수산대학 졸업생 영농정착 성공 사례집의 Text Mining - 주요단어의 빈도 분석 및 word cloud - (Text Mining of Successful Casebook of Agricultural Settlement in Graduates of Korea National College of Agriculture and Fisheries - Frequency Analysis and Word Cloud of Key Words -)

  • 주진수;김종숙;박석영;송천영
    • 현장농수산연구지
    • /
    • 제20권2호
    • /
    • pp.57-72
    • /
    • 2018
  • 본 연구는 한농대에서 발간하는 청년 농어업인들의 우수한 영어·영농 정착사례에서 의미 있는 정보를 추출하고자 프로그램 R의 Text mining으로 주요단어를 추출하고 시각화를 위하여 word cloud를 작성하였다. 먼저 전체 표본에 대한 text mining 결과에서는 '대표', '이사', '생각', '자신', '시작', '마음', '노력' 등이 상위 50개 핵심 단어 가운데 빈도수가 높게 나타난 단어들이다. 이는 젊은 농부들이 회사의 경영주가 되기 위해서거나 또는 경영주로서 그들 스스로 생각하고 판단하고 추진하는 능력을 갖추고 있음을 표현이며 자기의 꿈을 버리지 않고 스스로 꿈꾸는 일을 헤쳐 나가는 모습의 표현이라 할 수 있다. '아버지', '부친' 및 '부모님' 등의 단어 빈도수가 높은 것은 부모협농과 승계농의 비율이 높은 경영형태의 영향이라 할 수 있으며, '한국농수산대학', '대학', '졸업', '공부' 등의 단어는 이들의 높은 교육의식을 나타낸 결과이며, '유기농'과 '친환경' 의 단어는 우수사례자들의 친환경 농업에 대한 관심도를 나타낸 결과라 할 수 있다. 또한 '판매', '체험' 등의 6차산업 관련어는 농어업·농어촌을 활성화시키기 위한 이들의 노력을 나타내는 결과라 할 수 있다. 한편 '인터넷', '블로그', '온라인', '홈페이지', 'SNS', 'ICT', '융복합' 및 '스마트' 등의 단어들은 비록 상위 50위 안에는 없었으나 이들 단어들이 빠지지 않고 추출된 결과는 영어·영농의 과학화·첨단화에 청년농부들의 관심이 높아지고 있음을 알 수 있었다. 다음으로 품목별 샘플에 대하여 빈도수가 상위 50위 이내인 주요단어를 그룹화 한 결과로서 축산, 채소 및 수산은 '시설', 식량작물은 '장비', '기계' 등의 빈도수가 높게 나타냈다. '친환경'은 채소작물과 식량작물에서 나타났으며, '유기농'은 채소, 식량작물, 과수에서 나타났다. 식량작물에서는 '우렁이'가 추출되었으며, 우수농수산물을 의미하는 '인증'은 수산에서만 나타났다. '6차산업' 관련단어로 '생산'은 모든 계열, '가공', '유통'은 과수, '체험'은 채소, 식량작물 및 과수에서 나타났다. 그리고 텍스트 마이닝으로 추출한 단어를 시각화하기 위하여 전체 샘플과 각 품목별로 word cloud를 작성하여 구조화되지 않은 비정형 텍스트인 우수사례들이 내포하고 있는 의미를 글자의 크기로 알 수 있도록 나타냈다.

언어의 기능적 자기공명영상: 자극방법에 따른 활성화와 편재화의 차이 (Functional MRI of Language: Difference of its Activated Areas and Lateralization according to the Input Modality)

  • 유재욱;조재민;최호철;박미정;최혜영;김지은;한헌;김삼수;전용환;강현수
    • Investigative Magnetic Resonance Imaging
    • /
    • 제15권2호
    • /
    • pp.130-138
    • /
    • 2011
  • 목적 : 시각과 청각을 통한 단어생성과제를 이용하여 언어의 기능적 자기공명영상을 얻고, 자극을 제시한 방법에 따라 활성화되는 뇌영역이나 편재화 차이가 있는 지를 알아보고자 하였다. 대상 및 방법 : 정상성인 남자 8명을 대상으로 하였고 모두 오른손잡이였다. 단어생성과제를 사용하여 언어기능의 활성화를 유도 하였고, 시각과제와 청각과제를 시행하였다. 과제별로 합산된 평균 활성화지도를 얻었고 신호의 유의수준은 p < 0.05로 하였다. 각 과제별로 나타난 활성화 영역을 시각적, 통계학적 방법으로 비교 분석 하였다. 결과 : 시각과제와 청각과제 모두에서 좌측이 우세한 활성화 신호가 나타났으며, 시각과제에서 편재화가 약간 우세하였다. 전두엽(Broca영역, 전운동영역, 보조운동영역)과 좌측 후중측두엽은 두 과제에서 공통적으로 활성화가 나타났다. 청각과제에서는 광범위한 양측 측두엽의 활성화가 있었으며, 시각과제에서는 양측 후두엽과 두정엽의 활성화가 나타났다. 결론 : 자극과 관계없이 공통적으로 활성화된 영역은 언어의 핵심 영역으로, 자극과제별로 다르게 나타난 부분은 자극의 인지와 처리과정에 따른 활성화로 생각된다. 시각과제는 청각과제에 비해 편재화된 활성화를 얻을 수 있었으며 언어의 기능영상에 있어 유용한 방법으로 생각한다.