• 제목/요약/키워드: 단어빈도

검색결과 541건 처리시간 0.026초

다중 회귀 분석을 이용한 한자 난이도 예측 기법 연구 (Prediction Techniques for Difficulty Level of Hanja Using Multiple Linear Regression)

  • 최정환;노지우;김순태
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.219-225
    • /
    • 2019
  • 한자 급수와 같이 기존 한자 난이도 선정 방식에 문제점이 있다. 실생활에서 쓰이는 한글 단어와 차이가 나며 해당 급수가 실제로 얼마나 많이 쓰이는지 알 수가 없다. 이러한 문제를 해결하기 위해 빈도수를 이용하여 다중 회귀 분석을 이용하여 한자 난이도를 측정한다. 초등 교과서를 기반으로 한자활용빈도수와 한글의미빈도수를 집계한다. 두 빈도수와 획수를 함께 사용하여 설문지를 작성하여 해당 한자의 학습 적정 시기를 답변 받아 이를 회귀에서 사용할 타겟 변수로 이용한다. 단계별 회귀분석을 이용하여 적절한 피처를 선택하고 다중 선형 회귀 분석을 한다. 모델의 R2는 0.1105가 나왔으며 RMSE는 0.1105의 결과가 나왔다.

NCS 능력단위 요소와 기존 교육과정 간 갭 분석을 위한 평가모델 (Evaluation Model for Gab Analysis Between NCS Competence Unit Element and Traditional Curriculum)

  • 김대경;김창복
    • 한국항행학회논문지
    • /
    • 제19권4호
    • /
    • pp.338-344
    • /
    • 2015
  • 국가 직무능력 표준 (NCS; national competency standards)은 직무를 수행하기 위해 요구되는 능력에 대한 체계화 및 표준화이다. NCS는 특정 직무능력인 능력단위 요소로 구체화하고 표준화하여 학습모듈을 개발한다. 기존 교육과정은 NCS 능력단위 요소를 교육 훈련에 활용하기 위해서 갭 분석 (gab analysis)이 필수적이다. 기존에 갭 분석은 전문가가 주관적으로 평가하였다. 전문가에 의한 갭 분석은 심리적 요소에 의해 주관적 결정, 정확성 결여, 시간 및 공간적 비효율성 문제가 제기되었다. 본 논문은 주관적 평가의 문제 해결을 위해 자동화 평가모델을 제시하였다. 본 논문은 기존 교육과정과 능력단위 요소 간 갭 분석을 위해, 색인어 추출, 단어빈도수-역 빈도수 기반 특징 값 추출, 코사인 유사도 알고리즘을 이용하였다. 또한, 기존 교육과정과 NCS 능력단위요소 사이 유사도 매핑 테이블을 제시하였다. 본 논문의 평가모델은 구조적 특징이나 속도 면에서 개선된 알고리즘을 통해 보완해야 한다.

언어 네트워크 분석 방법을 활용한 학술논문의 내용분석 (A Content Analysis of Journal Articles Using the Language Network Analysis Methods)

  • 이수상
    • 정보관리학회지
    • /
    • 제31권4호
    • /
    • pp.49-68
    • /
    • 2014
  • 본 연구의 목적은 국내 학술논문 데이터베이스에서 검색한 언어 네트워크 분석 관련 53편의 국내 학술논문들을 대상으로 하는 내용분석을 통해, 언어 네트워크 분석 방법의 기초적인 체계를 파악하기 위한 것이다. 내용분석의 범주는 분석대상의 언어 텍스트 유형, 키워드 선정 방법, 동시출현관계의 파악 방법, 네트워크의 구성 방법, 네트워크 분석도구와 분석지표의 유형이다. 분석결과로 나타난 주요 특성은 다음과 같다. 첫째, 학술논문과 인터뷰 자료를 분석대상의 언어 텍스트로 많이 사용하고 있다. 둘째, 키워드는 주로 텍스트의 본문에서 추출한 단어의 출현빈도를 사용하여 선정하고 있다. 셋째, 키워드 간 관계의 파악은 거의 동시출현빈도를 사용하고 있다. 넷째, 언어 네트워크는 단수의 네트워크보다 복수의 네트워크를 구성하고 있다. 다섯째, 네트워크 분석을 위해 NetMiner, UCINET/NetDraw, NodeXL, Pajek 등을 사용하고 있다. 여섯째, 밀도, 중심성, 하위 네트워크 등 다양한 분석지표들을 사용하고 있다. 이러한 특성들은 언어 네트워크 분석 방법의 기초적인 체계를 구성하는 데 활용할 수 있을 것이다.

키워드 군집화를 이용한 연구 논문 분류에 관한 연구 (A Study on Research Paper Classification Using Keyword Clustering)

  • 이윤수;;이종혁;길준민
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권12호
    • /
    • pp.477-484
    • /
    • 2018
  • 컴퓨터 기술의 발전으로 힘입어 수많은 논문이 출판되고 있으며, 새로운 분야들도 계속 생기면서 사용자들은 방대한 논문들 중 자신이 필요로 하는 논문을 검색하거나 분류하기에 많은 어려움을 겪고 있다. 사용자의 이러한 어려움을 완화하기 위해 본 논문에서는 유사 내용의 논문을 분류하고 이를 군집화하는 방법을 제한한다. 본 논문의 제안 방법은 TF-IDF를 이용하여 각 논문의 초록으로부터 주요 주제어를 추출하고, K-평균 클러스터링 알고리즘을 이용하여 추출한 TF-IDF 값을 근거로 논문들을 유사 내용의 논문으로 군집화한다. 제안 방법의 실효성을 검증하기 위해 실제 데이터인 FGCS 저널의 논문 데이터를 사용하였으며, 엘보우 기법을 적용하여 클러스터 개수를 도출하고 실루엣 기법을 이용하여 클러스터링 성능을 검증하였다.

Web of Science 빅데이터를 활용한 텍스트 마이닝 기반의 정보윤리 이슈 탐색 (Exploring Information Ethics Issues based on Text Mining using Big Data from Web of Science)

  • 김한성
    • 컴퓨터교육학회논문지
    • /
    • 제22권3호
    • /
    • pp.67-78
    • /
    • 2019
  • 본 연구의 목적은 Web of Science(WoS)에서 제공하는 학술 빅데이터를 활용하여 정보윤리 이슈를 탐색하고 향후 정보과 정보윤리 교육을 위한 시사점을 제공하는 것에 있다. 이를 위해 WoS에서 제공하는 학술논문 중 정보윤리와 관련해 출판된 318편의 논문을 텍스트 마이닝 하였다. 구체적으로는 R을 활용해 주요키워드에 대한 빈도 분석(TF, DF, TF-IDF), 토픽 모델링 기반의 정보윤리 이슈 분석, 그리고 각 이슈에 대한 연도별 출연 빈도를 분석하여 정보윤리 연구의 경향성을 탐색하였다. 주요 결과를 살펴보면 다음과 같다. 첫째, TF-IDF를 통해 'digital', 'student', 'software', 'privacy' 등의 단어가 주요 키워드임을 확인하였다. 둘째, 토픽 모델링 분석 결과, 'Professional value', 'Cyber-bullying', 'AI and Social Impact' 등을 포함한 총 8개 이슈로 분석되었고, 그 중, 'Professional value'와 'Cyber-bullying' 이슈가 상대적으로 높은 비율을 차지하고 있었다. 본 연구는 이러한 분석 결과를 기초로 우리나라 정보윤리 교육을 시사점을 논의하였다.

간호사의 직무 스트레스와 자기효능감 관련 연구에 대한 융합적 고찰 (Convergence Study of Relation between Job Stress and Self-efficacy of Nurses)

  • 문혜경;정미란;노원정
    • 융합정보논문지
    • /
    • 제9권3호
    • /
    • pp.146-151
    • /
    • 2019
  • 본 연구는 간호사의 직무 스트레스와 자기효능감과의 관계를 규명하기 위하여 관련 연구의 동향을 고찰하고 텍스트 네트워크 분석을 시행하였다. 선행문헌고찰을 위하여 국내 3곳, 국외 1곳의 데이터베이스를 이용하여 '간호사', '스트레스', '자기효능감', 'nurse', 'stress', 'self-efficacy'를 주요 검색어로 검색하였다. 총 18편의 논문이 대상 문헌으로 선정되었다. 이중 9편의 연구에서 간호사의 직무 스트레스와 자기효능감 간에 통계적으로 유의한 음의 상관관계가 있음을 보고하였다. 그러나 도구의 선택에 있어 번안자에 따라 문항을 선택적으로 사용하여 상이한 결과가 도출되어 동일한 도구를 사용한 다른 논문들과의 비교 분석이 어려웠다. 또한, 18편 논문의 초록에서 키워드를 추출하여 텍스트 네트워크 분석을 시행하였다. 출현 빈도수가 가장 높은 단어는 직무스트레스였고, 이를 기준으로 관계를 분석하였을 때 출현 빈도수가 높은 주요어는 자기효능감, 의료기관, 상관성이었다. 해당 주요어간의 관계를 명확하게 하기 위해 한국형 도구 개발을 통한 영향요인 탐색 연구 수행을 제언한다.

의료 산업에 있어 현대인의 비대면 의학 상담에 대한 관심도 분석 기법 (Analysis of interest in non-face-to-face medical counseling of modern people in the medical industry)

  • 강유성;박종훈;오하영;이세욱
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1571-1576
    • /
    • 2022
  • 코로나 바이러스의 발병 이후, 의료 산업은 침체기에 들어섰으며, 이에 대한 대응책으로 정부는 일시적으로 비대면 진료를 허용한 상태이다. 본 연구에서는, 이런 시대 흐름에 맞추어 의료 산업에 있어 현대인의 비대면 의학상담에 대한 관심도를 분석하고자 한다. 전문가에게 의학상담을 받을 수 있는 플랫폼인 지식인과, 유튜브 두가지 소셜 플랫폼에서 빅데이터를 수집해 연구를 진행했다. 전화 상담 상위 5개 키워드인 "내과", "일반의", "산경과", "정신건강의학과", "소아청소년과"와 더불어, "전문의", "의학상담", "건강정보" 총 8개의 검색어를 가지고 각 플랫폼으로부터 데이터 세트를 구축했다. 이후 크롤링 된 데이터를 바탕으로 형태소 분류, 질병 추출, 정규화 등 전처리 과정을 거쳤다. 단어 빈도수를 기준으로 한 워드 클라우드, 꺾은선 그래프, 분기별 그래프, 질병 등장 빈도별 막대 그래프 등으로 데이터 시각화를 하였다. 유튜브 데이터에 한해 감성 분류 모델을 구축하였고, GRU와 BERT 기반 모델의 성능을 비교하였다.

빅데이터 마이닝에 의한 공시지가 민원의 시공간적 분석모델 제시 (A Suggestion for Spatiotemporal Analysis Model of Complaints on Officially Assessed Land Price by Big Data Mining)

  • 조태인;최병길;나영우;문영섭;김세훈
    • 지적과 국토정보
    • /
    • 제48권2호
    • /
    • pp.79-98
    • /
    • 2018
  • 이 연구는 빅데이터 마이닝에 기초하여 공시지가 민원에 대한 시공간적 특성을 분석하는 모델을 제시하는 데 목적이 있다. 특히 이 연구는 행정 민원이 제기되는 원인을 학술적 요인보다는 시공간적 측면에서 찾았고, 그러한 민원 발생의 경향을 시공간적으로 모니터링하는 모델을 제시하였다. 2006년부터 2015년까지 인천광역시 중구의 공시지가에 대한 6,481개의 민원정보가 시간 및 공간적 특성을 고려해 수집되었고 분석을 위해 사용되었다. 텍스트 마이닝 기법을 이용해 주요 키워드의 빈도수를 도출했으며, 소셜 네트워크 분석을 통해 주요 키워드 간의 관계를 분석하였다. 키워드의 가중치와 연관되는 TF(term frequency)와 TF-IDF(term frequency-inverse document frequency)를 산출함으로써, 공시지가의 민원 발생에 대한 주요 키워드를 식별하였다. 마지막으로 Getis-Ord의 $Gi^*$의 통계량에 기초한 핫스팟 분석을 통해 공시지가 민원의 시공간적 특성을 분석하였다. 연구 결과, 공시지가 민원의 특성은 시공간적으로 연계된 군집 형태를 형성하면서 변화하고 있음을 알 수 있었다. 텍스트 마이닝과 소셜 네트워크 분석 방법을 이용하여 자연어 기반의 공시지가 민원에 대한 발생 원인을 정량적으로 규명할 수 있음을 알 수 있었으며, 키워드 가중치인 단어 빈도(TF) 및 단어 빈도와 역문서 빈도의 조합값(TF-IDF)의 상대적인 차이가 있어 시공간적인 민원 특성을 분석하기 위한 주요 설명변수로 활용될 수 있음을 알 수 있었다.

추천 소프트 키보드 MissLess의 성능 평가 (Performance Evaluation of MissLess Soft Keyboard with Recommendation)

  • 황기태;김태완;조혜경
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.187-195
    • /
    • 2014
  • 본 논문은 선행 연구에서 개발한 MissLess 키보드의 성능을 평가한다. MissLess 키보드는 모바일 단말기 내의 사전에 저장되는 모든 어휘에 해시 코드 값을 할당한다. 그리고, 사용자가 입력한 어휘와 일정 범위의 해시 코드를 가진 어휘를 골라내는 해시필터링, 골라낸 어휘와 입력된 어휘의 철자 유사성을 실시간으로 비교하여 유사 단어를 추려내는 철자 유사성 기반 정렬, 그리고 마지막으로 사용자의 사용 빈도가 놓은 어휘를 우선적으로 골라내는 사용자 패턴 기반 추천의 3 단계를 거쳐 어휘를 추천한다. 본 논문은 추천 알고리즘의 각 단계별로 성능 요소를 분석하고, 이들 요소가 미치는 추천 성능의 영향을 평가하고 평가된 결과를 보인다.

바이오 문서에서 지지 벡터 기계를 이용한 문법관계 분석 (Grammatical Relation Analysis using Support Vector Machine in BioText)

  • 박경미;황영숙;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.287-292
    • /
    • 2003
  • 동사와 기본구 사이의 문법관계 분석은 품사부착과 기본구 인식이 수행된 상태에서, 동사와 의존관계를 갖는 기본구를 찾고 각 구의 구문적, 의미적 역할을 나타내는 기능태그를 인식하는 작업이다. 본 논문에서는 바이오 문서에서 단백질과 단백질, 유전자와 유전자 사이의 상호작용관계를 자동으로 추출하기 위해서 제안한 문법관계 분석 방법을 적용하고 따라서 동사와 명사고, 전치사고, 종속 접속사의 관계만을 분석하며 기능태그도 정보추출에 유용한 주어, 목적어를 나타내는 태그들로 제한하였다. 기능태그 부착과 의존관계 분석을 통합해 수행하였으며, 지도학습 방법 중 분류문제에서 좋은 성능을 보이는 지지 벡터 기계를 분류기로 사용하였고, 메모리 기반 학습을 사용하여 자질을 추출하였으며, 자료부족문제를 완화하기 위해서 저빈도 단어는 품사 타입 또는 워드넷의 최상위 클래스의 개념을 이용해서 대체하였다. 시험 결과지지 벡터 기계를 이용한 문법관계 분석은 실제 적용시 빠른 수행시간과 적은 메모리 사용으로 상호작용관계 추출에서 효율적으로 사용될 수 있음을 보였다.

  • PDF