• 제목/요약/키워드: 단어 선정

Search Result 222, Processing Time 1.03 seconds

문단 가중치 분석 기반 본문 영역 선정 알고리즘 (Keyword Weight based Paragraph Extraction Algorithm)

  • 이종원;유성종;김도안;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.462-463
    • /
    • 2018
  • 기존의 문서 분석 시스템들은 형태소 분석기나 TF-IDF 기법을 통해 단어 위주의 분석을 진행하였다. 이러한 시스템들은 키워드들의 가중치를 계산하여 주요 키워드를 도출할 수 있는 장점이 있다. 이에 반해 문서의 내용을 분석하기에는 구조적인 한계로 인해 부적합한 실정이다. 이를 해결하기 위해 본 논문에서 제안하는 알고리즘은 문서 내에 있는 문단들의 가중치를 계산한 뒤 문단들을 영역별로 분할한다. 그리고 분할된 영역별로 중요도를 계산하여 해당 문서 내에 가장 중요한 문단들이 있는 영역을 사용자에게 알려준다. 이를 통해 사용자는 기존의 문서 분석 시스템들을 사용할 때보다 문서를 분석하기에 적합한 서비스를 제공받을 것으로 사료된다.

  • PDF

의미속성에 기반한 한국어 명사 의미 TAG에 관한 연구 (A Study on A Korean Noun Semantic TAG based on Semantic Features)

  • 이수광;조평옥;안미정;옥철영;박재득;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.412-418
    • /
    • 1998
  • 의미 TAG는 한국어 기초어휘에 대한 개념지식을 구축하는 데 기본이 될 뿐만 아니라, 문장 분석시의 구조적 모호성과 단어 의미 모호성을 해소하는 중요한 단서를 제공할 수 있다. 이러한 의미 TAG가 실용적으로 여러 응용 시스템에서 사용되기 위해서는 광범위하고 타당한 자료를 바탕으로 하여 객관적인 방법으로 설정 되어야 한다. 국어사전의 뜻풀이말에서의 상위개념을 표제어의 상위어로 선정하는 bottom-up 방식으로 구축하였던 한국어 명사의미체계는 근본적으로 사전편찬자의 비일관적인 뜻풀이말의 기술에 따른 여러 문제점이 있었다. 본 연구에서는 이러한 문제점들을 해결하기 위해서 사전 뜻풀이말에서 상위개념을 수식하는 어절과 용언의 의미호응관계에서 상위개념의 의미속성을 추출하고, 이들 의미속성에 의한 명사 의미체계를 구축하여 이를 바탕으로 명사의미 TAG를 설정할 수 있도록 하였다.

  • PDF

Computational Thinking(CT) 관련 국내 연구 동향 분석 : CT 용어 사용을 중심으로 (The Analysis on Research Trends for Computational Thinking in Korea : Based on Terminology of CT)

  • 한정민;김성원;이영준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제56차 하계학술대회논문집 25권2호
    • /
    • pp.223-226
    • /
    • 2017
  • 소프트웨어 교육이 활성화됨에 따라 CT의 중요성이 증가하고 있지만, CT는 다양한 단어로 혼용되고 있다. 이와 같은 현황은 CT 연구에 어려움을 유발하고 있다. 따라서 본 연구에서는 CT 용어 사용의 표준화를 위하여 CT 관련 연구에서 사용하고 있는 CT의 용어를 분석하였다. 이러한 연구를 위하여 선행 연구를 통해 '컴퓨팅 사고(력)', 'computational thinking(CT)', '계산적 사고(력)', '알고리즘적 사고(력)', '컴퓨터적 사고(력)', '컴퓨터 과학적 사고(력)', '정보적 사고(력)', '정보 과학적 사고(력)'이라는 키워드를 추출하였다. 추출한 키워드를 기반으로 학술연구정보서비스에서 CT 관련 논문을 수집한 후 CT 관련 논문 중, 제목에 CT 관련 용어가 포함된 123편의 논문을 최종 연구 대상으로 선정하였다. 이와 같은 논문을 분석한 결과, CT 관련 연구는 2008년부터 지금까지 꾸준히 증가해 왔으며 특히 2014년과 2015년 사이에 큰 폭으로 증가한 것을 알 수 있었다. 또한 CT를 표현하는 여러 용어들이 혼재하는 기간을 거쳐 CT의 한글 용어에 대한 합의가 '컴퓨팅 사고력'으로 귀결되고 있는 것을 확인 할 수 있었다. 이를 출발점으로 연구주제, 연구방법, 연구대상 등을 중심으로 한 CT 관련 연구동향 연구가 추후 이루어져야 함을 제안한다.

  • PDF

신문기사로부터 추출한 최근동향에 대한 트위터 감성분석 (Twitter Sentiment Analysis for the Recent Trend Extracted from the Newspaper Article)

  • 이경호;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권10호
    • /
    • pp.731-738
    • /
    • 2013
  • 본 논문은 사회의 최근 동향에 대한 여론의 반응을 관찰하기 위한 방법을 나타낸다. 최근 동향을 나타내는 키워드를 신문기사로부터 추출하고, 추출된 키워드를 이용하여 수집된 트윗의 감성 분석을 통해 최근 동향에 대한 여론을 분석한다. 수집된 신문기사를 k-means알고리즘을 이용하여 군집화하고, 군집내의 단어의 출현 빈도를 이용하여 토픽 키워드를 선정하였다. 각 토픽에 대하여 수집된 트윗은 그 토픽 대한 트윗이라는 가정하에 기계학습 방법을 이용하여 긍/부정을 판별하여 감성을 판단하게 하였다. 그리고 이와 같은 가정에 대한 타당성을 검증해 보았다.

음악적 자극과 서술적 기억 관련 집중력과의 상관성에 대한 뇌파 분석 (Analysis of EEG Signal for Relativity between Musical Stimulus and Concentration for Memorization)

  • 장윤석;손영수
    • 한국전자통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.607-612
    • /
    • 2019
  • 본 논문에서는 음악적 자극이 인간의 기억에 관련된 집중력에 미치는 영향을 조사하기 위하여 인간의 뇌파를 계측 및 분석하였다. 뇌파 실험에서는 음악적 자극과 함께 기억 관련 과제를 수행하게 하였는데, 기억 관련 과제로는 영어단어를 암기하는 것을 선정하였다. 음악적 자극은 진정성향 및 자극성향의 음악으로 나누어 제시하였고, 피험자의 뇌파는 주파수 대역에 따라 나누어 분석한 결과를 각각 제시하였다.

2009 개정 기술·가정 교과서 『가정생활영역』의 안전교육 내용 분석 (Analysis of Safety Education Contents of 『Field of home life』 in Technology·Home Economics Textbook developed by the revised curriculum in 2009)

  • 김남은
    • 한국가정과교육학회지
    • /
    • 제29권2호
    • /
    • pp.23-39
    • /
    • 2017
  • 본 연구의 목적은 2009 개정 중학교 기술 가정 교과서의 '가정생활 영역'에서 안전교육 내용 분석을 통해 중학생에게 실질적인 도움이 되는 안전교육의 내용을 선정하고 개선하기 위한 기초자료를 제공하는데 있다. 분석대상은 2009개정 교육과정으로 12개 출판사에서 각각 집필된 중학교 교과서 12종 총 24권이다. 분석기준은 교육부(2015)에서 제시한 안전교육 7대 표준안을 바탕으로 안전교육 관련 선행연구를 참조하여 학자들의 검토를 토대로 하여 연구자가 개발하였다. 이러한 분석기준으로 각 교과서를 읽고 '안전'이라고 직접 언급한 단어, '심리적 안전'과 '행복한 삶'을 의미하는 단어, '주의', '유의', '안정'과 관련된 단어 등 안전교육 분석기준의 내용과 관련이 있는 단어들을 모두 추출한 후 가정교과서 단원에 따른 안전교육 내용을 분석틀로 하여 빈도와 퍼센트를 내는 내용분석법을 사용하였다. 교과서 분석결과, 안전교육 내용 쪽수는 기술 가정 교과서 12종의 총 쪽수 3412쪽 중 336.3쪽으로 9.8%로 나타났고 권별로 안전교육 관련 내용의 비중을 분석하여 보면, 1권의 경우 안전교육 내용 비중이 총 224.9쪽, 2권의 안전교육 내용 비중이 총 111.9쪽으로 학년이 올라갈수록 가정 교과서의 안전교육 비중이 낮아졌다. 안전교육 내용 가장 많은 단원은 '청소년의 자기관리' 단원으로 3개의 안전교육 영역을 포함하고 있었고 '청소년의 생활', '녹색생활의 실천' 단원 등과 같이 주로 실천과 체험, 실습이 강조되는 단원의 경우 '생활안전'영역의 안전교육 내용을 많이 다루고 있는 것으로 나타났다. 학생들이 가장 많이 당하는 안전사고와 관련 있는 가정 내 사고(1.4%), 실험 실습사고(0.3%)등에 대한 내용은 낮은 편으로 나타났고, 유니버설주거와 학교폭력 내용은 교과서 1권과 2권에 중복해서 제시되었다. 12종 교과서에서 가장 많이 다른 안전교육 내용은 바람직한 성태도, 식생활문제, 가족 갈등, 식품의 선택이며, 가장 적게 다룬 안전교육 내용은 유해약물, 가정 복지, 인터넷 중독, 산업재해보상보험 등이었다. 본 연구는 2009 개정 교육과정을 중심으로 개발된 교과서 12종을 분석하였기에 2015 개정 교육과정에 의해 집필된 교과서와의 비교를 통해 안전교육의 내용 체계를 분명히 하고 내용의 중복을 피할 수 있는 후속 연구가 필요하다. 또한, 교과서를 보조할 수 있는 안전교육 프로그램을 개발하여 보급할 필요가 있다.

빅데이터 분석을 통한 발명 교육 센터에 대한 사회적 인식 (Social Perception of the Invention Education Center as seen in Big Data)

  • 이은상
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.71-80
    • /
    • 2022
  • 이 연구의 목적은 빅데이터 분석 방법을 이용하여 발명 교육 센터에 대한 사회적 인식을 확인해 보는 데 있다. 이를 위해 TEXTOM 사이트를 이용하여 네이버와 다음 사이트의 블로그, 카페, 뉴스 채널에서 '발명+교육+센터'를 검색 키워드로 2014년 1월부터 2021년 9월까지의 데이터를 수집하였다. 수집된 데이터는 TEXTOM 사이트에서 정제하였으며, 텍스트 마이닝 분석과 의미 연결망 분석을 위해 TEXTOM 사이트, Ucinet 6, Netdraw 프로그램을 이용하였다. 수집된 데이터는 1차와 2차의 정제 과정을 거쳐 단어빈도를 바탕으로 주요 키워드 60개를 선정하였으며, 선정된 주요 키워드는 매트릭스 데이터로 변환하여 의미 연결망 분석을 실시하였다. 이 연구의 텍스트 마이닝 분석 결과 '학생', '운영', '한국발명진흥회', '특허청' 등이 의미 있는 키워드임을 확인하였다. 의미 연결망 분석 결과 발명 교육 센터와 관련된 '교육 운영', '발명 대회', '교육 과정 및 진행', '사업 모집 및 지원', '주관 및 선정 기관' 등 5개의 군집을 확인할 수 있었다. 이 연구의 결과는 발명 교육 센터에 대한 연구를 수행하는 연구자나 정책 입안자의 학술 연구에 활용될 수 있을 것이다.

k-Structure를 이용한 한국어 상품평 단어 자동 추출 방법 (Automatic Extraction of Opinion Words from Korean Product Reviews Using the k-Structure)

  • 강한훈;유성준;한동일
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권6호
    • /
    • pp.470-479
    • /
    • 2010
  • 감정어 추출과 관련하여 기존 영어권 연구에서 제시된 방법의 대부분은 한국어에 직접 적용이 쉽지 않다. 한국어권 연구에서 제시된 방법 중 수작업에 의한 방법은 감정어 추출에 많은 시간이 걸린다는 문제점이 있다. 영어 시소러스 기반 한국어 감정어 추출 기술은 한국어와 영어 단어간 일대일 부정합에서부터 기인하는 정확도의 저하를 제고해야 하는 과제를 갖고 있다. 한국어 구문 분석기를 기반으로 한 연구는 출현 빈도가 낮은 감정어를 선정하지 못할 수 있는 문제점을 내포하고 있다. 본 논문에서는 한국어 상품평 중 단순한 문장에서 감정어를 자동으로 추출하는 데 있어 기존에 제안된 한국어권 연구에 상호 보완적으로 정확도를 향상시킬 수 있는 k-Structure(k=5 또는 8) 기법을 제안한다. 단순한 문장이라 함은 패턴 길이를 최대 3으로 한다. 이는 평가 대상 상품(예를 들어 '카메라')의 속성 명 f (예를 들어 카메라의 '배터리')를 기준으로 ${\pm}2$의 거리에 감정어가 포함되어 있는 문장을 의미한다. 성능 실험은 국내 주요 쇼핑몰로부터 수집한 1,868개의 상품평을 대상으로 미리 주어진 8개의 속성 명에 대한 감정어를 k-Structure를 이용하여 자동으로 추출하고 그 정확도를 평가하였다. 그 결과, k=5일 경우 평균 79.0%의 재현률, 87.0%의 정확률을 보였고, k=8일 경우 평균 92.35%의 재현률, 89.3%의 정확률을 얻을 수 있었다. 또한, 영어권 연구에서 제안된 방법 중 PMI-IR(Pointwise Mutual Information-Information Retrieval) 기법을 이용하여 실험을 수행하였다. 이 결과, 평균 55%의 재현률과 57%의 정확률을 보였다.

아이트래커를 이용한 모니터 글자 색상에 따른 가독성에 대한 연구 (A Study of Legibility by Monitor Letter Color with an Eye Tracker)

  • 김하림;김수현;신동민;정희영;김용길;김태홍;서재명;정주현
    • 한국안광학회지
    • /
    • 제19권2호
    • /
    • pp.279-284
    • /
    • 2014
  • 목적: 모니터 글자 색상에 따른 가독성을 측정하여, 모니터와 전자미디어 사용에서 안정피로를 감소시킬 수 있는 데이터를 제공하기 위한 기초 연구이다. 방법: 색각이상이 없으며 최대교정시력 1.0 이상의 피검자 50명(평균연령 $22.93{\pm}1.68$)을 대상으로 읽기속도 검사를 163개 단어 중 123개 이상의 단어를 읽은 피검자를 선정하였다. 모니터는 배경색을 white로 통일하였으며, 글자 색상은 black, blue, red, yellow 4가지 색상으로 가독성을 측정하였다. 결과: 글자 색상 Black, Blue, Red, Yellow인 경우 평균가독시간은 각각 41.89초, 42.89초, 45.32초, 56.28초로 측정되었다. 독서오류에서는 Black 1.94개, Blue 2.74개, Red 3.36개, Yellow 5.14개로 측정되었다. 평균고정시간에서는 Black 0.25초, Blue 0.26초, Red 0.27초, Yellow 0.32초로 측정되었다. 결론: 본 연구에서 가독성을 평가하는 항목인 가독시간, 독서오류, 평균고정시간에서 모두 Black, Blue, Red, Yellow순으로 가독성이 감소하는 경향을 보였다.

문헌정보학 분야의 지적구조 및 연구 동향 변화에 대한 시계열 분석: 2003년부터 2017년까지 (Time Series Analysis of Intellectual Structure and Research Trend Changes in the Field of Library and Information Science: 2003 to 2017)

  • 최형욱;최예진;남소연
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.89-114
    • /
    • 2018
  • 학문 분야의 연구 동향 변화에 대한 연구는 해당 분야의 세부 연구주제와 구조에 대한 파악뿐만 아니라 시간 흐름에 따른 변화 모습을 관찰할 수 있는 방법이다. 이에 본 연구에서는 국내 문헌정보학 분야의 연구 동향을 살펴보기 위하여 2003년부터 2017년까지 한국학술지인용색인(KCI)에 등재된 문헌정보학 분야 학술지 중 인용지수가 가장 높은 3종에 개제된 논문의 한국어 저자키워드를 대상으로 동시출현단어 분석을 수행하였다. 시계열 분석을 위해 15년의 연구 기간을 5년 단위로 누적하여 2003년~2007년, 2003년~2012년, 2003년~2017년으로 구분하였고, 기간별로 출현빈도 10회 이상의 저자키워드를 선정하여 분석하고 이를 시각화하였다. 분석 결과, 2003년~2007년 기간의 지적구조는 총 25개의 키워드로 구성된 8개의 영역이 확인되었으며, 2003년~2012년 기간의 지적구조에서는 총 76개의 키워드로 구성된 3영역 17 군집이 확인되었다. 또한, 2003년~2017년 기간의 지적구조는 총 132개의 키워드로 구성된 6영역 32군집으로 나타났다. 누적 기간별 종합 분석 결과, 한국의 문헌정보학 분야는 지난 15년간 기간별로 새로운 키워드가 포괄적으로 추가되었으며, 세부 주제 역시 세분화 되어 점차 세분화되고 확장되고 있음을 확인하였다.