• 제목/요약/키워드: 데이터처리

검색결과 17,686건 처리시간 0.063초

데이터로 인해 발생하는 자연어처리 분야의 윤리적 이슈 (Ethical Issues in Natural Language Processing arising from Data)

  • 강혜린;장연지;강예지;박서윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.26-31
    • /
    • 2022
  • 자연어처리에서 데이터는 굉장히 많은 부분을 차지하고 중요한 역할이지만, 데이터로 인한 윤리적 이슈 또한 많이 나타난다. 본 연구는 자연어처리에서의 데이터 흐름의 과정에서 나타날 수 있는 윤리적 이슈를 단계별로 정리하였다. 이는 복잡한 자연어처리 과정의 특성과 자연어처리 분야에서 나타나는 상황을 모두 고려한 것이다. 또한 단계별로 정리한 이슈를 토대로 자연어처리가 더 나은 방향으로 나아가기 위한 데이터 관점에서의 미래 방향을 제시하였다.

  • PDF

실시간 행위인식 시스템을 위한 스트림데이터 처리기 연산자 설계 (Design of Stream Data Processing Operators for Real-time Activity Recognition System)

  • 정종영;이영구;한용구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.302-305
    • /
    • 2009
  • 본 논문은 오프라인 환경에서 연구되던 행위인식 연구들이 온라인 환경에서 통합되어 동작할 수 있도록 하기 위해 스트림데이터 처리기를 이용한 행위인식 시스템을 제안하였다. 스트림데이터 처리는 멀티 센서 환경에서의 방대한 센서 데이터를 처리하기 위한 기술로서, 행위인식 시스템의 실시간으로 발생하는 데이터를 즉각 처리하여 결과를 추론하여야 한다는 요구사항을 만족시킬 수 있다. 이를 위해 행위인식에 사용되는 필수적인 연산을 정의하여 스트림데이터 처리기에 추가할 수 있도록 행위 인식에 필요한 각종 연산자를 설계하였다.

"Multi-use Data Platform" 하둡 2.0과 관련 데이터 처리 프레임워크 기술

  • 김직수
    • 방송과미디어
    • /
    • 제22권4호
    • /
    • pp.11-17
    • /
    • 2017
  • 본 고에서는 멀티 응용 데이터 플랫폼으로 진화하고 있는 하둡(Hadoop) 2.0의 주요 특징과 관련된 다양한 데이터 처리 프레임워크들에 대해서 기술하고자 한다. 기존의 맵리듀스(MapReduce) 기반의 배치 처리(Batch Processing)에 최적화되어 있던 하둡 1.0과는 달리, YARN의 등장과 함께 시작된 하둡 2.0 플랫폼은 다양한 형태의 데이터 처리 워크플로우들(Batch, Interactive, Streaming 등)을 지원할 수 있는 기능을 제공하고 있다. 또한, 최근에는 고성능컴퓨팅 분야에서 주로 활용되던 기술들도 하둡 2.0 플랫폼에서 지원되고 있다. 마지막으로 YARN 어플리케이션 개발 사례로서 본 연구팀에서 개발 중에 있는 Many-Task Computing (MTC) 응용을 위한 신규 데이터 처리 프레임워크를 소개한다.

모바일 u-GIS 데이터 처리 시스템 설계 (Design of Mobile u-GIS Information Processing System)

  • 안경환;김주완
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.315-317
    • /
    • 2008
  • 현재 내비게이션, 물류, 지도기반 매쉬업등 공간 데이터를 활용한 다양한 응용서비스가 활용되고 있다. 또한 향후 유비쿼터스 환경에서는 모바일 환경에서 공간 데이터 및 센서를 활용한 서비스들이 출현할 것으로 예상된다. 그러나 현재 모바일 GIS 시스템들은 유비쿼터스 환경에서 발생하는 다양한 데이터들을 처리해주지 못하고, DBMS기반이 아니라 유연성이 부족하다는 문제점이 있다. 이 논문에서는 이러한 문제점을 해결하기 위해 모바일 u-GIS 데이터 처리 시스템을 제시하고자 한다.

시맨틱 웹 데이터에서 접미사 배열 기반의 경로 질의 처리 기법 (Suffix Array Based Path Query Processing Scheme for Semantic Web Data)

  • 김성완
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권10호
    • /
    • pp.107-116
    • /
    • 2012
  • 서로 연결된 데이터들의 의미를 컴퓨터가 이해하여 자동으로 처리할 수 있는 시맨틱 기술의 보급이 확산되고 있다. 시맨틱 웹에서 데이터에 대한 처리는 데이터 자체에 대한 접근뿐만 아니라 데이터 상호간의 연관성 즉, 데이터 상호간의 의미에 대한 이해와 접근을 중요시 하고 있다. 시맨틱 웹의 데이터와 그 연관성을 표현하기 위해 W3C에서는 RDF를 표준 형식으로 제정하였으며 RDF로 표현된 데이터에 대한 질의 처리를 지원하기 위해 여러 RDF 질의어가 제안되었으나 시맨틱 연관성을 고려한 질의어 정의와 이에 관련한 질의 처리 기법은 계속적인 연구가 필요한 분야이다. 본 논문에서는 RDF 질의 처리를 위해 소개된 접미사 배열 기반의 인덱싱 기법을 기반으로 시맨틱 연관성의 대표적 유형인 ${\rho}$-path 질의를 처리하기 위한 방법을 제안한다. 제안된 질의 처리 방법의 성능 평가를 위해 다른 두 가지 형태의 처리 방법을 구현하여 실험적으로 비교하였다. 평균 질의 처리 시간 측정을 통해 제안 기법이 다른 두 가지 처리 방법에 비해 각각 약 1.8~2.5배와 3.8~11배의 우수한 처리 성능을 보인다.

IDL : 데이터 처리, 분석 가시화 소프트웨어

  • 신승원;김경섭;윤태호;한명희
    • 전기의세계
    • /
    • 제53권8호
    • /
    • pp.43-47
    • /
    • 2004
  • IDL (Interactive Data Languate)은 미국의 RSI 회사 (Research Systems inc.)에서, 데이터 처리 및 분석, 가시화를 주 목적으로 개발된 응용 소프트웨어이다. IDL은 특히 복잡한 수학적 분석을 위하여 배열 개념의 연산 처리 과정으로 설계되었으며, 시각적인 표현의 구현을 위하여 데이터의 가시화에 대한 많은 기능들을 제공한다. 따라서 종래의 프로그램 언어에서 수백 라인들로 이루어진 코드를, IDL에서는 단 몇 줄의 코드 구성으로 복잡한 데이터 처리 및 가시화가 가능하다. (중략)

  • PDF

DB튜닝- 옵티마이져를 통한 데이터 처리경로의 최적화

  • 김동훈
    • 디지털콘텐츠
    • /
    • 7호통권74호
    • /
    • pp.76-81
    • /
    • 1999
  • SQL에 대한 수행속도를 결정하는 것은 옵티마이져가 작성한 데이터의 처리 경로이고 옵티마이져가 데이터의 처리경로를 작성하는데 가장 큰 영향을 주는 것은 사용자가 구성한 옵티마이져 요소들이다. 지금부터 데이터의 처리경로를 최적화할 수 있는 방법에 대하여 옵티마이져 요소과 관련하여 몇가지 설명하고자 한다.

  • PDF

아파치 카프카의 메시지 지연시간 기반 로드 쉐딩 메커니즘 (Message Latency-based Load Shedding Mechanism in Apache Kafka)

  • 김하진;방지원;손시운;최미정;문양세
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.573-576
    • /
    • 2018
  • 아파치 카프카(Apache Kafka)는 데이터 스트림을 실시간 전달하는 분산 메시지 큐잉 플랫폼이다. 카프카는 대다수의 실시간 처리 응용에 사용되는데, 흔히 데이터 스트림의 발생지와 실시간 처리 시스템 사이(입력) 또는 실시간 처리 시스템과 처리 결과의 목적지 사이(출력)에 배치된다. 분산 기술을 도입한 카프카는 다른 메시지 큐잉 기술에 비해 대용량 데이터 스트림을 더욱 빠르게 전달 할 수 있다는 장점을 갖는다. 하지만, 카프카에 적재되는 데이터 스트림의 양과 실시간 처리 응용의 수가 증가할수록 메시지 지연시간은 매우 높아질 수 밖에 없다. 본 논문은 이러한 카프카의 메시지 지연 문제를 해결하고자 카프카의 로드 쉐딩 엔진을 제안한다. 로드 쉐딩의 세 가지 필수적인 결정에 따라, 제안하는 로드 쉐딩 엔진은 카프카의 프로뷰서에서 지연시간이 기준치를 초과할 경우 일부 메시지 전송을 제한하여 지연시간을 줄인다. 실제 실시간 처리 응용으로 실험한 결과, 단일/다중 데이터 스트리 모두 로드 쉐딩이 바르게 작동하여 지연시간이 지속적으로 증가하지 않고 오르내림이 반복되는 추세를 보였다. 본 연구는 데이터 스트림의 입출력을 카프카로 관리하는 실시간 처리 응용에 로드 쉐딩 기법을 적용한 첫 번째 시도로서, 앞으로 데이터 스트림 처리에 사용될 의미 있는 연구라 사료된다.

Hadoop과 HBase 기반의 빅 데이터 처리 응용을 위한 가상 컴퓨팅 자원 이용률 분석 (An Analysis of Utilization on Virtualized Computing Resource for Hadoop and HBase based Big Data Processing Applications)

  • 조나연;구민오;김바울;;민덕기
    • 정보화연구
    • /
    • 제11권4호
    • /
    • pp.449-462
    • /
    • 2014
  • 빅 데이터 시대에서 데이터를 획득하고 저장하며 실시간으로 유입되거나 저장 된 데이터를 분석하는 처리 시스템은 다양한 부분을 고려해야 한다. 기존의 데이터 처리 시스템들과는 상이하게 빅 데이터 처리 시스템들에서는 시스템 내에서 처리될 데이터들의 포맷, 유입 속도, 크기 등의 특성을 고려해야한다. 이러한 상황에서, 가상화된 컴퓨팅 플랫폼은 가상화 기술로써 컴퓨팅 자원들을 동적이고 신축적으로 관리할 수 있음에 따라, 빅 데이터를 효율적으로 처리하기 위해 급부상하고 있는 플랫폼 중 하나이다. 본 논문에서는 가상화 된 컴퓨팅 플랫폼 상에서 Apache Hadoop과 HBase 기반의 빅 데이터처리 미들웨어를 구동하기 위하여 적합한 배포 모델을 위한 가상 컴퓨팅 자원 이용률을 분석하였다. 본 연구 결과, Task Tracker 서비스는 처리 중 높은 CPU 자원 활용율과 중간 결과물 저장 시점에서는 비교적 높은 디스크 I/O 사용을 보였다. 또한 HRegion 서비스의 경우, DataNode와의 데이터 교환을 위한 네트워크 자원 활용 비율이 높았으며, DataNode 서비스는 I/O 집약적인 처리 패턴을 보였다.