• 제목/요약/키워드: python language

검색결과 139건 처리시간 0.026초

머신 러닝을 활용한 과학 논변 구성 요소 코딩 자동화 가능성 탐색 연구 (Exploratory Research on Automating the Analysis of Scientific Argumentation Using Machine Learning)

  • 이경건;하희수;홍훈기;김희백
    • 한국과학교육학회지
    • /
    • 제38권2호
    • /
    • pp.219-234
    • /
    • 2018
  • 본 연구에서는 국내 교육학 연구에서 거의 사용되지 않던 머신 러닝 기술을 과학 교육 연구에 접목하여, 학생들의 과학 논변 활동에서 나타나는 논변의 구성 요소를 분석하는 과정을 자동화할 수 있는 가능성을 탐색해보았다. 학습 데이터로는 Toulmin이 제안하였던 틀에 따라 학생들의 과학 논변 구성 요소를 코딩한 국내 선행 문헌 18건을 수합하고 정리하여 990개의 문장을 추출하였으며, 테스트 데이터로는 실제 교실 환경에서 발화된 과학 논변 전사 데이터를 사용하여 483개의 문장을 추출하고 연구자들이 사전 코딩을 수행하였다. Python의 'KoNLPy' 패키지와 '꼬꼬마(Kkma)' 모듈을 사용한 한국어 자연어 처리(Natural Language Processing, NLP)를 통해 개별 논변을 구성하는 단어와 형태소를 분석하였으며, 연구자 2인과 국어교육 석사학위 소지자 1인의 검토 과정을 거쳤다. 총 1,473개의 문장에 대한 논변-형태소:품사 행렬을 만든 후에 다섯 가지 방법으로 머신 러닝을 수행하고 생성된 예측 모델과 연구자의 사전 코딩을 비교한 결과, 개별 문장의 형태소만을 고려하였을 때에는 k-최근접 이웃 알고리즘(KNN)이 약 54%의 일치도(${\kappa}=0.22$)를 보임으로써 가장 우수하였다. 직전 문장이 어떻게 코딩되어 있는지에 관한 정보가 주어졌을 때, k-최근접 이웃 알고리즘(KNN)이 약 55%의 일치도(${\kappa}=0.24$)를 보였으며 다른 머신 러닝 기법에서도 전반적으로 일치도가 상승하였다. 더 나아가, 본 연구의 결과는 과학 논변 활동의 분석에서 개별문장을 고려하는 단순한 방법이 어느 정도 유용함과 동시에, 담화의 맥락을 고려하는 것 또한 필요함을 데이터에 기반하여 보여주었다. 또한 머신 러닝을 통해 교실에서 한국어로 이루어진 과학 논변 활동을 분석하여 연구자와 교사들에게 유용하게 사용될 수 있는 가능성을 보여준다.

최적화 기법을 이용한 빗물이용시설의 저류 용량 결정 (Capacity determination for a rainfall harvesting unit using an optimization method)

  • 진영규;강태욱;이상호;정택문
    • 한국수자원학회논문집
    • /
    • 제53권9호
    • /
    • pp.681-690
    • /
    • 2020
  • 일반적으로 빗물이용시설의 설계 저류 용량은 다양한 시나리오(저류 용량, 공급 보장률, 우수 이용률 등)에 대한 반복적인 계산을 통해 결정된다. 이 방법은 분석에 많은 시간이 소요될 뿐만 아니라 많은 계산이 수반되므로 분석 오류가 나타날 수도 있다. 본 연구에서는 이러한 문제점을 해결하기 위해 최적화 기법을 이용하여 임의의 목표 보장률을 만족하는 최소의 저류 용량을 직접적으로 결정할 수 있는 방법을 제시하였다. 해당 방법은 Python 언어를 이용하여 모의 모형과 입자 군집 최적화를 연계하여 구현되었다. 최적화 기법은 Python의 오픈 소스로 제공되는 pyswarm을 이용하였는데, 해당 알고리즘은 전역 최적해 탐색이 가능하고, 제약조건을 고려할 수 있다. 최적화 기법을 이용한 빗물이용시설의 저류 용량 결정 방법은 인천 청라지구 1공구에 설치된 빗물이용시설의 설계자료에 적용하여 분석의 효율성, 안정성, 정확성을 검증하였다. 본 연구에서 제시한 빗물이용시설의 저류 용량 결정 방법은 현재의 분석 기술 수준을 개선할 수 있으므로 실용적 가치가 있는 것으로 판단된다.

정보·컴퓨터 중등교사 임용시험의 프로그래밍 문항 분석 (Analysis of Programming Questions of the Informatics·Computer Secondary Teacher Recruitment Examination)

  • 강오한
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권10호
    • /
    • pp.291-298
    • /
    • 2023
  • 본 논문에서는 정보·컴퓨터 표시과목의 임용시험에서 프로그래밍 문항이 프로그래밍 능력을 겸비한 교사 선발에 적합한지 연구하였다. 최근 5년 동안의 문항을 분석한 결과, 프로그래밍 문항의 평균 배점이 교과내용학 총점의 38%(20.8점)로 높게 나타났다. 기출문항에서 프로그래밍 문항의 배점 비중이 높은 과목은 프로그래밍과 자료구조로 확인되었으며, 이들의 평가영역별 배점분포를 분석한 결과 각각 0%~47%, 0%~53%로 영역별 편차가 큰 것으로 나타났다. 본 논문에서는 프로그래밍 문항이 교육 현장에서 요구하는 교사 선발에 적합한지 교사 31명을 대상으로 설문조사를 실시하였다. 임용시험의 프로그래밍 문항에서 평가할 내용에 대한 응답으로 컴퓨팅 사고력이 58%로 가장 높게 나타났다. 문항의 적합도에 대한 응답에서 문제해결력이 5점 척도 기준에서 2.84로 가장 높았으나 전반적으로 적합도가 낮은 것으로 나타났다. 프로그래밍 문항 출제를 위해 적합한 언어로 C언어와 파이썬의 응답이 각각 55%, 45%로 나타났다. 이 결과에서 교사들은 기존의 C언어 외에 파이썬 선호도가 매우 높은 것을 확인하였다. 본 연구에서는 이러한 연구결과를 바탕으로 프로그래밍 문항 출제에 대한 개선방안을 제안하였다.

기록관리 분야에서 한국어 자연어 처리 기술을 적용하기 위한 고려사항 (Considerations for Applying Korean Natural Language Processing Technology in Records Management)

  • 김학래
    • 한국기록관리학회지
    • /
    • 제22권4호
    • /
    • pp.129-149
    • /
    • 2022
  • 기록물은 과거와 현재를 포함하는 시간적 특성, 특정 언어에 제한되지 않는 언어적 특성, 기록물이 갖고 있는 다양한 유형을 복합적으로 갖고 있다. 기록물의 생성, 보존, 활용에 이르는 생애주기에서 텍스트, 영상, 음성으로 구성된 데이터의 처리는 많은 노력과 비용을 수반한다. 기계번역, 문서요약, 개체명 인식, 이미지 인식 등 자연어 처리 분야의 주요 기술은 전자기록과 아날로그 형태의 디지털화에 광범위하게 적용할 수 있다. 특히, 딥러닝 기술이 적용된 한국어 자연어 처리 분야는 다양한 형식의 기록물을 인식하고, 기록관리 메타데이터를 생성하는데 효과적이다. 본 논문은 한국어 자연어 처리를 기술을 소개하고, 기록 관리 분야에서 자연어 처리 기술을 적용하기 위한 고려사항을 논의한다. 기계번역, 광학문자인식과 같은 자연어 처리 기술이 기록물의 디지털 변환에 적용되는 과정은 파이썬 환경에서 구현한 사례로 소개한다. 한편, 자연어 처리 기술의 활용을 위해 기록관리 분야에서 자연어 처리 기술을 적용하기 위한 환경적 요소와 기록물의 디지털화 지침을 개선하기 위한 방안을 제안한다.

Anglicisms in the Field of Information Technology: Analysis of Linguistic Features

  • Antonina, Plechko;Tetiana, Chukhno;Tetiana, Nikolaieva;Liliia, Apolonova;Tetiana, Leleka
    • International Journal of Computer Science & Network Security
    • /
    • 제22권4호
    • /
    • pp.183-192
    • /
    • 2022
  • The role that English currently plays is undeniable. It has become the most common means of communication among native speakers of several languages around the world. English penetrates into all areas of people's daily lives. In the field of Information Technology (IT), English has taken a dominant position, as many of the terms used on a daily basis are written in English. The purpose of the article is to analyze the linguistic features of anglicisms in the field of Information Technology. Methods. The research is based on systematic and comparative analysis, dialectical method, as well as methods of classification and generalization. Results. This study presents the results of compiling a multilingual glossary with anglicisms used in the GitHub and 3D Slicer fields. Despite the limited number of terms included in the glossary, the article provides a lot of evidence for the influence of the English language in the areas of Information Technology, GitHub and 3D Slicer under consideration. The types of anglicisms used in the 3D Slicer area seem to be more diverse than in the GitHub area. This study found that five European languages use language strategies to solve any communication problem. The multilingual glossary showed that in some cases there is a coexistence between Anglicism and the native term. In other cases, the English term is the only one used in different languages. There are cases when only the native language is used. Conclusions. This study is a useful tool that helps to improve the efficiency of communication between engineers and technicians who speak different native languages. The ultimate goal of this research will be to create a multilingual glossary that is still under development and is likely to cover other IT areas such as Python and VTK.

Understanding recurrent neural network for texts using English-Korean corpora

  • Lee, Hagyeong;Song, Jongwoo
    • Communications for Statistical Applications and Methods
    • /
    • 제27권3호
    • /
    • pp.313-326
    • /
    • 2020
  • Deep Learning is the most important key to the development of Artificial Intelligence (AI). There are several distinguishable architectures of neural networks such as MLP, CNN, and RNN. Among them, we try to understand one of the main architectures called Recurrent Neural Network (RNN) that differs from other networks in handling sequential data, including time series and texts. As one of the main tasks recently in Natural Language Processing (NLP), we consider Neural Machine Translation (NMT) using RNNs. We also summarize fundamental structures of the recurrent networks, and some topics of representing natural words to reasonable numeric vectors. We organize topics to understand estimation procedures from representing input source sequences to predict target translated sequences. In addition, we apply multiple translation models with Gated Recurrent Unites (GRUs) in Keras on English-Korean sentences that contain about 26,000 pairwise sequences in total from two different corpora, colloquialism and news. We verified some crucial factors that influence the quality of training. We found that loss decreases with more recurrent dimensions and using bidirectional RNN in the encoder when dealing with short sequences. We also computed BLEU scores which are the main measures of the translation performance, and compared them with the score from Google Translate using the same test sentences. We sum up some difficulties when training a proper translation model as well as dealing with Korean language. The use of Keras in Python for overall tasks from processing raw texts to evaluating the translation model also allows us to include some useful functions and vocabulary libraries as well.

센서 네트워크에서 위치 측정을 위한 분산 지지 벡터 머신 (Distributed Support Vector Machines for Localization on a Sensor Newtork)

  • 문상국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.944-946
    • /
    • 2014
  • 최근 기계학습 방법을 도입하여 센서 노드에 대한 위치를 파악하는 방법이 관심을 받고 있다. 많은 기계학습 알고리즘 중, 지지벡터머신은 프로그래밍 언어로 구현하기 간편하고, 병렬로 수행이 가능하다. 본 논문에서는 파이썬 프로그래밍 언어로 지지벡터머신을 구현하고, 5대의 라즈베리파이를 사용하여 실험적인 하둡 센서 네트워크와 5개의 노드를 가진 맵리듀스 하둡 소프트웨어 프레임워크를 구성하였다. 기존 지지벡터머신 알고리즘을 분산 처리가 가능하도록 변형하여 위치 측정을 수행하였고, 다양한 파라미터를 변경해가면서 센서 네트워크를 구성하여 효율성, 자원분배, 처리속도를 비교하였다.

  • PDF

의무 기록 문서 분류를 위한 자연어 처리에서 최적의 벡터화 방법에 대한 비교 분석 (Comparative Analysis of Vectorization Techniques in Electronic Medical Records Classification)

  • 유성림
    • 대한의용생체공학회:의공학회지
    • /
    • 제43권2호
    • /
    • pp.109-115
    • /
    • 2022
  • Purpose: Medical records classification using vectorization techniques plays an important role in natural language processing. The purpose of this study was to investigate proper vectorization techniques for electronic medical records classification. Material and methods: 403 electronic medical documents were extracted retrospectively and classified using the cosine similarity calculated by Scikit-learn (Python module for machine learning) in Jupyter Notebook. Vectors for medical documents were produced by three different vectorization techniques (TF-IDF, latent sematic analysis and Word2Vec) and the classification precisions for three vectorization techniques were evaluated. The Kruskal-Wallis test was used to determine if there was a significant difference among three vectorization techniques. Results: 403 medical documents were relevant to 41 different diseases and the average number of documents per diagnosis was 9.83 (standard deviation=3.46). The classification precisions for three vectorization techniques were 0.78 (TF-IDF), 0.87 (LSA) and 0.79 (Word2Vec). There was a statistically significant difference among three vectorization techniques. Conclusions: The results suggest that removing irrelevant information (LSA) is more efficient vectorization technique than modifying weights of vectorization models (TF-IDF, Word2Vec) for medical documents classification.

학습자의 인지부담을 줄이는 중간언어 도입에 대한 연구 (Introduction of Bridge-Language for cognitive burden reduction in the public education system)

  • 이승언;손윤식
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2018년도 하계학술대회
    • /
    • pp.49-52
    • /
    • 2018
  • SW 교육에 있어서 입문자의 흥미를 유발하고자 블록 기반인 스크래치와 엔트리가 도입되었고 많은 교육 기관에서는 이후 ARDUINO, C, JAVA, PYTHON 등을 선택 교육하고 있다. 이 과정에서 코딩보다는 사고력을 강조하며 정보 교과 내에서 문법 공부하는 것을 기피하는 풍토를 보인다. 이러한 점은 2015 개정 교육과정 지침에서 특정 언어의 기능습득에 치우치지 않고 학습자의 수준에 맞추어 적절한 도구를 선택하도록 하여 사실상 교수자의 재량에 두고 있는 점에서도 파악할 수 있다. 코딩의 문법학습을 피하는 경향은 코딩교육 도입 초기의 취지와는 다르게 공교육 내에서의 코딩교육의 활성화에 부정적 요소로 작용할 여지가 크다고 우려된다. 따라서 현재 출판된 정보 교과서에서 다루는 프로그래밍 언어의 종류를 조사하고 코딩 문법학습을 최소화를 할 수 있으며 블록코딩에서 텍스트 코딩으로 전환 시 학습자의 부담을 감소할 수단으로 PROCESSING를 통한 과정을 제안하는 바이다.

  • PDF

전력계통 안정화를 위한 전압보상설비 운용 방안 (Operation method of Voltage Compensation Devices for power system stability)

  • 안창한;백영식
    • 전기학회논문지
    • /
    • 제64권4호
    • /
    • pp.523-528
    • /
    • 2015
  • A new algorithm for a coordinative control method is proposed with respect to voltage control and system stabilization of local substations. This is accomplished using control cooperation between a static synchronous compensator (STATCOM) and the existing voltage compensation equipment in the steady state and emergency state of a power system. A real-time system analysis was developed by combining a system analysis program with InTouch, which has primarily been used in factory automation for verification. PSS/E was used for the load flow calculation software, Python for language, Intouch as an HMI program, and MS SQL for the database. To test this system, the system in the vicinity of the Migeum and the Migeum substations was modeled and simulated.