• 제목/요약/키워드: 단어길이

검색결과 147건 처리시간 0.025초

프로그램 코드 분석을 위한 유사도 측정 및 가시화 기법 (A Similarity Measurement and Visualization Method for the Analysis of Program Code)

  • 이영주;이정진
    • 한국멀티미디어학회논문지
    • /
    • 제16권7호
    • /
    • pp.802-809
    • /
    • 2013
  • 본 논문에서는 프로그래밍 언어에 정의되는 지정자와 키워드가 프로그램 코드 상에서 연속적인 패턴으로 나타나게 될 때, 해당 연속 패턴들의 빈도와 길이를 측정하여 두 코드 사이의 유사성을 측정하는 기법을 제안한다. 또한, 이러한 분석 결과를 정형적 개념 분석 기법을 이용하여 가시화하는 기법을 제안한다. 제안 기법은 기존의 유사도 측정 기법에서는 고려하지 않았던 단어 인접성을 유사도 측정에 반영한다. 함수 단위로 지정자와 키워드 패턴을 이용하여 함수의 호출 순서나 수행 순서에 상관없이 표절을 탐지할 수 있다. 또한, 유사도 측정 결과는 정형적 개념 분석 기법을 이용하여 격자(lattice)로 시각화되어 사용자의 이해도를 높일 수 있다. 실험 결과 제안 기법은 96%의 표절 탐지 성공률을 보여주었다. 제안 기법은 프로그램 코드 뿐만 아니라 일반 문서의 분석에도 적용될 수 있다.

LSTM 언어모델 기반 한국어 문장 생성 (LSTM Language Model Based Korean Sentence Generation)

  • 김양훈;황용근;강태관;정교민
    • 한국통신학회논문지
    • /
    • 제41권5호
    • /
    • pp.592-601
    • /
    • 2016
  • 순환신경망은 순차적이거나 길이가 가변적인 데이터에 적합한 딥러닝 모델이다. LSTM은 순환신경망에서 나타나는 기울기 소멸문제를 해결함으로써 시퀀스 구성 요소간의 장기의존성을 유지 할 수 있다. 본 논문에서는 LSTM에 기반한 언어모델을 구성하여, 불완전한 한국어 문장이 입력으로 주어졌을 때 뒤 이어 나올 단어들을 예측하여 완전한 문장을 생성할 수 있는 방법을 제안한다. 제안된 방법을 평가하기 위해 여러 한국어 말뭉치를 이용하여 모델을 학습한 다음, 한국어 문장의 불완전한 부분을 생성하는 실험을 진행하였다. 실험 결과, 제시된 언어모델이 자연스러운 한국어 문장을 생성해 낼 수 있음을 확인하였다. 또한 문장 최소 단위를 어절로 설정한 모델이 다른 모델보다 문장 생성에서 더 우수한 결과를 보임을 밝혔다.

델타연산자 섭동방법에 의한 항공기 동력학의 연산시간 감소 (Reduction of Computing Time in Aircraft Control by Delta Operating Singular Perturbation Technique)

  • 심규홍;사완
    • 한국항공우주학회지
    • /
    • 제31권3호
    • /
    • pp.39-49
    • /
    • 2003
  • 본 논문에서는 먼저 델타연산자 접근법과 섭동기법을 소개하였다. 전자는 수치연산에 있어서 round-off error를 줄여주고 후자는 시스템을 빠른 종속시스템과 느린 종속시스템으로 분리하여 연산시간을 줄여준다. 항공기의 동력학은 종방향 혹은 횡방향 모두 장주기(Phugoid)와 단주기 운동을 동시에 보여준다. 여기서는 경비행기 Beaver의 횡방향 모델에 섬동기법과 델타접슨법을 적용하여 얻는 근사치 해를 정확한 해와 비교하였다. 그 겨로가 개루프 시스템의 경우는 단 한번의 iteration을 시행하여 얻은 근사치 해가 정확한 해와 일치했고, 페루프 시스템의 경우는 iteration없이도 근사치 값이 정확한 해와 일치하였다. 이로써 제안된 방법들의 적용이 항공기 동력학 및 제어에 있어서 매우 유효함이 검증되었다.

SHRT : 유사 단어를 활용한 URL 단축 기법 (SHRT : New Method of URL Shortening including Relative Word of Target URL)

  • 윤수진;박정은;최창국;김승주
    • 한국통신학회논문지
    • /
    • 제38B권6호
    • /
    • pp.473-484
    • /
    • 2013
  • 단축 URL은 짧은 URL을 긴 URL 대신에 사용하는 방식으로, 짧은 URL이 긴 URL에 리다이렉션되는 방식이다. 단축 URL은 생성과 사용이 간편하고, 글자수가 제한된 마이크로 블로깅 서비스의 사용이 증가함에 따라 폭발적으로 사용량이 증가하였다. 단축 URL의 사용이 간편하기 때문에, 메일, SMS, 책에서도 많이 사용되고 있다. 그러나 대부분의 단축 URL은 연결된 URL과의 어떠한 연관성도 없어, 사용자는 단축 URL에 직접 확인하기 전까지는 무엇에 관한 URL인지 모른다. 연결된 URL을 알 수 없다는 점을 악용하여, 단축 URL은 피싱 사이트나 악성코드 유포 등에 쓰인다. 기존에 이러한 문제를 극복하기 위해 단축 URL 서비스 사이트의 이름을 바꾸거나, 웹사이트의 정보를 반영하거나, 지역 이름의 줄임말 같은 단축어 사용 등의 시도가 있었으나, 각각의 방법에는 자동화의 어려움, 상대적으로 긴 단축 URL 길이, 적용 범위 한계가 각각의 문제점으로 적용하였다. 앞선 문제점을 보완하기 위하여, 본 논문은 아랍어의 모음이 없는 문자 시스템에서 착안하여 URL 사이트 이름에서 모음을 탈락시킨 유사한 문자열을 이용하여 단축 URL 방식 SHRT를 제안한다.

두 단계 학습을 통한 중국어 최장명사구 자동식별 (Two-Level Machine Learning Approach to Identify Maximal Noun Phrase in Chinese)

  • 윤창호;이용훈;김미훈;김동일;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.53-61
    • /
    • 2004
  • 일반적으로 중국어의 명사구는 기본명사구(base noun phrase), 최장명사구(maximal noun phrase) 등으로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구조를 파악하고 정확한 구문 트리(parse tree)를 찾아내는데 중요한 역할을 한다. 본 논문은 두 단계 학습모델을 이용하여 최장명사구 자동식별을 진행한다. 먼저 기본명사구, 기본동사구, 기본형용사구, 기본부사구, 기본수량사구, 기본단문구, 기본전치사구, 기본방향사구 등 8가지 기본구를 식별한다. 다음 기본구의 중심어(head)를 추출해 내고 이 정보를 이용하여 최장명사구의 식별을 진행한다. 본 논문에서 제안하는 방법은 기존의 단어레벨의 접근방법과는 달리구레벨에서 학습을 진행하기 때문에 주변문맥의 정보를 많이 고려해야 하는 최장명사구 식별에 있어서 아주 효과적인 접근방법이다. 후처리 작업을 하지 않고 기본구의 식별에서 25개 기본구 태그의 평균 F-measure가 96%, 평균길이가 7인 최장명사구의 식별에서 4개 태그의 평균 F-measure가 92.5%로 좋은 성능을 보여주었다.

  • PDF

인스턴트 메시징에서의 대화 주제 및 주제 전환 탐지 (Topic and Topic Change Detection in Instance Messaging)

  • 최윤정;신욱현;정윤재;맹성현;한경수
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권7호
    • /
    • pp.59-66
    • /
    • 2008
  • 본 논문에서는 인스턴트 메시징(Instant Messaging), 채팅과 같은 텍스트 기반의 대화에서 현재 발화를 기준으로 대화의 주제를 파악하고, 대화 주제 전환 여부를 판단하는 기법에 대해 기술한다. 대화는 다른 종류의 글과 다르게 길이가 매우 짧아 적은 수의 단어를 사용하고, 두 사람 이상이 참여를 하며, 대화의 이력(History)이 현재의 발화에 영향을 미친다. 이러한 특성에 따라 본 논문에서는 사용자 발화 뿐 아니라 대화 상대자의 발화에서 추출한 키워드 기반으로 주제 탐지를 하며, 대화의 이력도 고려하여 대화 주제 탐지의 정확도를 높힌 연구 결과를 기술한다. 대화주제 전환 탐지는 이전 발화와 현재 발화에서 탐지된 주제의 유사성을 계산하여, 유사성이 낮은 경우에 전환 탐지가 이루어졌다고 판단하였다. 본 논문의 실험에서 대화 주제 탐지는 88.20%. 대화 주제 전환 탐지는 87.36%의 정확도를 얻었다.

  • PDF

윤곽선 맵과 다중 면 사이드 매치 유한상태 벡터 양자화를 이용한 영상 압축 (Image Compression Using Edge Map And Multi-Sided Side Match Finite-State Vector Quantization)

  • 조성환;김응성
    • 한국산학기술학회논문지
    • /
    • 제8권6호
    • /
    • pp.1419-1427
    • /
    • 2007
  • 본 논문에서는 영상의 윤곽선을 검출하여 배경 블록과 윤곽선 블록으로 분류하고 윤곽선 맵을 작성하여, 윤곽선 블록에 대해서는 다시 DCT의 AC 계수를 사용하여 16개로 세분화한 후, 다중 면 사이드 매치 유한상태 벡터양자화를 수행하는 알고리듬을 제안한다. 윤곽선 맵의 정보에 따라 각각 주 부호책으로부터 상태 부호책을 작성하며, 현재 블록의 B면 또는 3면에 대해 사이드 매치 계산을 수행한다. 전송 비트 수를 줄이기 위해 먼저 부호화되는 블록들 중 배경 블록에 한하여 주 부호책으로 부호화 할 것인지를 결정한다. 또한 복호화기로 전송하는 부호단어 인덱스의 할당 비트를 줄이기 위해서 가변 길이 부호화를 수행한다. Zelda, Lenna, Bridge, Peppers 영상에 대하여 본 알고리듬으로 영상을 부호화했을 때 SMVQ와 TSMVQ 알고리듬보다 더 좋은 영상의 화질을 얻을 수 있었다.

  • PDF

협력형 EFL 교실에서 실천학습 융합 효과에 관한 연구 (A Study on the Effect of Conversing Action Learning in a Collaborative EFL Classroom)

  • 신명희
    • 한국융합학회논문지
    • /
    • 제10권7호
    • /
    • pp.71-76
    • /
    • 2019
  • 본 연구의 목적은 교양영어 학습자들을 대상으로 실천학습(Action learning) 기법을 활용한 영어 수업 사례 연구를 통하여 그 효과를 알아보고자 했다. 본 연구는 학습자 중심 수업을 기본으로 하여 학습자 간의 상호수정 활동을 통해 영어 기술을 익힐 수 있다는 것에 연구의 가치를 두고 실천학습(Action learning)을 수업에 활용함으로써 그 효과를 알아보고자 했다. 2018년 3월 1일부터 2018년 6월15일까지 교양 영어 두개 반(실험반, 통제반) 학생을 대상으로 하였으며 실험 집단은 실천학습(Action learning) 협력기법을 활용한 협력쓰기 수업을 진행하고, 통제 반은 교수자가 기존에 하던 방식의 쓰기 수업을 진행하여 비교하였다. 본 연구의 연구문제는 실천학습(Action learning) 기법을 적용한 협력 쓰기 활동이 학생들의 쓰기 유창성에 어떠한 영향을 미치는가를 알아보고자했다. 연구결과, 실험집단의 경우 단어의 수, 문장의 수와 문장 길이 등의 쓰기의 유창성 부분에서 통계적으로 유의미한 결과를 가져왔다. 학습자들은 학습 관계에서 더 깊이 있게 다른 사람들이 지닌 지식이나 생각을 공유하고 보다 규칙적인 근거를 가지고 근접발달영역 들어갈 수 있었다.

기능적 조음음운장애 아동의 조음복잡성에 따른 자음과 단어의 음향학적 길이 (Acoustic Duration of Consonants and Words by Phonetic Complexity in Children with Functional Articulation and Phonological Disorders)

  • 강은영
    • 대한통합의학회지
    • /
    • 제9권4호
    • /
    • pp.167-181
    • /
    • 2021
  • Purpose : This study was conducted to investigate whether phonetic complexity affected the type and frequency of articulation errors and the acoustic duration of consonants and words produced by children with functional articulation and phonological disorders. Methods : The participants in this study were 20 children with functional articulation and phonological disorders and 20 children without such disorders who were between 3 years 7 months old and 4 years 11 months old. The participants were asked to name what they saw in pictures and their responses were recorded. The types and frequencies of articulation errors and the acoustic duration of words were analyzed and words were categorized as being of either 'high' or 'low' phonetic complexity. The acoustic duration of initial and final consonants and vowels following initial consonants were compared between the groups according to articulatory complexity. Results : Children with functional articulation and phonological disorders produced articulation errors more frequently when saying high complexity words and had longer word duration when saying low-complexity words than children without such disorders. There was no major difference in initial and final consonant duration between the groups. but the main effect of articulatory complexity on the duration of both consonants was significant. Conclusion : These results suggest that the articulatory-phonic structure of words influences the speech motor control ability of children with functional articulation and phonological disorders. When articulating consonants, children with functional articulation and phonological disorders had speech motor control ability similar to that of children without such disorders.

토픽 모델링 기반 정보학 분야 학술지의 학제성 측정 연구 (Topic Modeling based Interdisciplinarity Measurement in the Informatics Related Journals)

  • 진설아;송민
    • 정보관리학회지
    • /
    • 제33권1호
    • /
    • pp.7-32
    • /
    • 2016
  • 본 연구는 인용 정보와 주제범주 분류체계를 기반으로 한 기존 하향식 접근법과 달리 문헌에 출현한 단어정보를 기반으로 세부주제를 자동 추출하는 토픽 모델링을 사용하여 학제성을 측정하였다. JCR 2013의 Information & Library Science 주제범주에서 5년 영향력 지수 상위 20개 학술지의 최근 5년 동안의 논문 제목과 초록 텍스트를 분석대상으로 사용하였다. 학제성을 측정하기 위한 지수로 '분야적 다양성'을 나타내는 Shannon 엔트로피 지수와 Stirling 다양성 지수, '네트워크 응집성'을 나타내는 지수로는 토픽 네트워크의 평균 경로길이를 사용하였다. 계산된 다양성과 응집성 지수를 통해 학제성의 유형을 분류한 후 각 유형을 대표하는 학술지들의 토픽 네트워크를 비교하였다. 이를 통해 본 연구의 텍스트 기반 다양성 지수는 기존의 인용정보 기반 다양성 지수와 다른 양상을 보이고 있어 상호보완적으로 활용될 수 있으며, 다양성과 응집성을 모두 고려하여 분류된 각 학술지의 토픽 네트워크를 통해 개별 학술지가 다루는 세부주제의 특성과 연결 정도를 직관적으로 파악할 수 있었다. 이를 통해 토픽 모델링을 통한 텍스트 기반의 학제성 측정이 학술지의 학제성을 나타내는 데에 다양한 역할이 가능함을 확인하였다.